University of Oulu

Vektorikvantisointi ja Gaussin sekoitemalli puhujantunnistuksessa

Saved in:
Author: Matero, Matti; Nykänen, Markus; Ojala, Karri
Organizations: 1University of Oulu, Faculty of Information Technology and Electrical Engineering, Department of Computer Science and Engineering, Computer Science
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 9.1 MB)
Persistent link: http://urn.fi/URN:NBN:fi:oulu-201606042297
Language: Finnish
Published: Oulu : M. Matero ; M. Nykänen ; K. Ojala, 2016
Publish Date: 2016-06-06
Physical Description: 80 p.
Thesis type: Bachelor's thesis
Tutor: Röning, Juha
Description:
Tässä tutkielmassa tehdään yleiskatsaus puhujantunnistukseen ja testataan erilaisten menetelmien toimivuutta. Aluksi käydään lävitse taustaa puhujantunnistuksen perusteista ja puheäänen ominaisuuksista, sitten esitellään tarkemmin puhujantunnistusjärjestelmän osia, kuten esikäsittelyä, äänen muuttamista kertoimiksi ja lopulta varsinaista tunnistusprosessia. Pääpaino on vektorikvantisoinnilla ja Gaussin sekoitemallilla, muita menetelmiä käydään läpi lyhyemmin. Puhujantunnistusta ja ­varmennusta testattiin sekä vektorikvantisoinnilla että Gaussin sekoitemallilla erilaisilla kertoimilla ja koodivektoreiden/sekoitekomponenttien määrillä. Kertoimina käytettiin MFCC­ ja siitä johdettuja delta­ sekä delta­delta­kertoimia. Lisäksi testattiin, miten kertoimien normalisointi, koulutusdatan määrä ja hiljaisten hetkien poisto lausahduksista vaikuttaa päätöksentekoon. Vektorikvantisoinnissa tutkittiin myös koodivektorien painotuksen vaikutusta. Testeissä havaittiin, että vektorikvantisoinnilla päästään painotuksen avulla varsin lähelle Gaussin sekoitemallin tuloksia noin puolta lyhyemmässä ajassa. Koodivektorien määrä lisäämällä päästiin tunnistuksessa käytännössä samoihin tuloksiin kuin Gaussin sekoitemallilla, mutta tällöin suoritusaika oli pidempi kuin Gaussin sekoitemallilla. Varmennustesteissä GMM oli lähes poikkeuksetta parempi kuin VQ. Universaalin taustamallin ja delta­kertoimien käytön havaittiin parantavan varmennuksen tarkkuutta. Lisäksi hiljaisten hetkien poistaminen lausahduksista todettiin johtavan tarkempiin tuloksiin.
see all

This thesis does an overview on speaker recognition, and then some methods are tested in practice. First some background on speaker recognition and the features of voice are overviewed, and afterwards different parts of a speech recognition system are reviewed, such as pre­processing the sound, calculating coefficients and finally the actual recognition process. The main focus is on vector quantization and Gaussian mixture model, some other popular methods are explained more shortly. Speaker recognition and verification were tested using vector quantization and a Gaussian mixture model with several different coefficients and code vector and mixture component quantities. MFCC as well as MFCC derived delta and delta­delta coefficients were used in the tests. The effect of the quantity of training data, coefficient normalization and speech sample silence removal were tested. Code vector weighting was also tested with vector quantization. The test results showed that vector quantization with weighting can almost reach the accuracy of Gaussian mixture model, while taking about half of the time to process. Adding more code vectors resulted in even closer results compared to Gaussian mixture model, but then VQ would be slower than GMM. In speaker verification, GMM was almost invariably better than VQ. Universal background model and delta coefficients were found to improve the results in speaker verification. Additionally, speech sample silence removal was found to lead to more accurate results.
see all

Subjects:
Copyright information: This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.