Äänen piirteiden vertailu ihmisäänen luokittelussa
Korhonen, Olli; Paavola, Eero; Orjala, Lari-Matias (2015-06-18)
Korhonen, Olli
Paavola, Eero
Orjala, Lari-Matias
O. Korhonen; E. Paavola; L.-M. Orjala
18.06.2015
© 2015 Olli Korhonen, Eero Paavola, Lari-Matias Orjala. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-201612153269
https://urn.fi/URN:NBN:fi:oulu-201612153269
Tiivistelmä
Puheentunnistusta hyödyntävät sovellukset ovat viime vuosina yleistyneet ihmisten arkielämässä. Tavallisesti puheentunnistus perustuu äänenpiirteiden vertailuun. Piirteitä ovat muun muassa äänen taajuus- ja energiasisältö. Käytettävien piirteiden valinnalla on merkittävä vaikutus puheentunnistuksen laadussa, koska eri piirteet kuvaavat äänen eri ominaisuuksia. Tässä työssä keskitytään eri piirteiden käyttökelpoisuuden vertailuun ihmisen äänentunnistuksessa. Ääni tulee tunnistaa ihmisen puheeksi, ennen kuin kannattaa käyttää algoritmeja, jotka etsivät äänestä esimerkiksi sanoja tai tunnetiloja. Tämän idean pohjalta toteutettiin binäärinen luokittelija, joka arvioi, onko ääni ihmisen puhetta vai ei. Luokittelija toteutettiin käyttäen yleisimpiä äänen analyysimenetelmiä, kuten piirrevektoreita ja k-NN luokittelualgoritmia. Lisäksi suoritettiin testit, joilla tutkittiin luokittelun tarkkuutta. Testien perusteella MFCC oli testatuista piirteistä paras ihmisäänen luokittelussa. Lisäksi huomattiin, että piirrevektorin sisältö vaikuttaa luokittelun tarkkuuteen enemmän kuin sen pituus. Applications taking advantage of automatic speech recognition (ASR) have become increasingly common in people’s everyday lives. Usually speech recognition is achieved by comparing the sound’s features. Some example features include the spectral and energy content of the signal. The choice of features impacts greatly the performance of a speech detection system, because different sound features describe different sound properties. The goal of this study is to compare different features and their suitability in detecting human voice. Before proceeding with algorithms that try to find words or other meanings from the sound, it should be confirmed that the sound is human voice. Following this principle, a binary classifier is implemented that can evaluate whether or not a sound is human voice. The classifier is implemented using some common methods such as feature extraction and k-NN classification. In addition tests are carried out to measure the accuracy of the classification. The tests showed that MFCC performed the best in our feature set. Furthermore, it was observed that the content of the feature vector matters more than its length.
Kokoelmat
- Avoin saatavuus [32150]