University of Oulu

Äänen piirteiden vertailu ihmisäänen luokittelussa

Saved in:
Author: Korhonen, Olli; Orjala, Lari-Matias; Paavola, Eero
Organizations: 1University of Oulu, Faculty of Information Technology and Electrical Engineering, Department of Computer Science and Engineering, Computer Science
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 0.9 MB)
Persistent link: http://urn.fi/URN:NBN:fi:oulu-201612153269
Language: Finnish
Published: Oulu : O. Korhonen ; L. Orjala ; E. Paavola, 2015
Publish Date: 2016-12-21
Physical Description: 26 p.
Thesis type: Bachelor's thesis
Reviewer: Röning, Juha
Tokola, Teemu
Description:
Puheentunnistusta hyödyntävät sovellukset ovat viime vuosina yleistyneet ihmisten arkielämässä. Tavallisesti puheentunnistus perustuu äänenpiirteiden vertailuun. Piirteitä ovat muun muassa äänen taajuus- ja energiasisältö. Käytettävien piirteiden valinnalla on merkittävä vaikutus puheentunnistuksen laadussa, koska eri piirteet kuvaavat äänen eri ominaisuuksia. Tässä työssä keskitytään eri piirteiden käyttökelpoisuuden vertailuun ihmisen äänentunnistuksessa. Ääni tulee tunnistaa ihmisen puheeksi, ennen kuin kannattaa käyttää algoritmeja, jotka etsivät äänestä esimerkiksi sanoja tai tunnetiloja. Tämän idean pohjalta toteutettiin binäärinen luokittelija, joka arvioi, onko ääni ihmisen puhetta vai ei. Luokittelija toteutettiin käyttäen yleisimpiä äänen analyysimenetelmiä, kuten piirrevektoreita ja k-NN luokittelualgoritmia. Lisäksi suoritettiin testit, joilla tutkittiin luokittelun tarkkuutta. Testien perusteella MFCC oli testatuista piirteistä paras ihmisäänen luokittelussa. Lisäksi huomattiin, että piirrevektorin sisältö vaikuttaa luokittelun tarkkuuteen enemmän kuin sen pituus.
see all

Applications taking advantage of automatic speech recognition (ASR) have become increasingly common in people's everyday lives. Usually speech recognition is achieved by comparing the sound’s features. Some example features include the spectral and energy content of the signal. The choice of features impacts greatly the performance of a speech detection system, because different sound features describe different sound properties. The goal of this study is to compare different features and their suitability in detecting human voice. Before proceeding with algorithms that try to find words or other meanings from the sound, it should be confirmed that the sound is human voice. Following this principle, a binary classifier is implemented that can evaluate whether or not a sound is human voice. The classifier is implemented using some common methods such as feature extraction and k-NN classification. In addition tests are carried out to measure the accuracy of the classification. The tests showed that MFCC performed the best in our feature set. Furthermore, it was observed that the content of the feature vector matters more than its length.
see all

Subjects:
Copyright information: This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.