University of Oulu

Puheenerottelujärjestelmän toteutus InMoov-robotille

Saved in:
Author: Palokangas, Kalle1; Rompasaari, Ville1
Organizations: 1University of Oulu, Faculty of Information Technology and Electrical Engineering, Department of Computer Science and Engineering, Computer Science
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 6.8 MB)
Pages: 44
Persistent link: http://urn.fi/URN:NBN:fi:oulu-202008272890
Language: Finnish
Published: Oulu : K. Palokangas; V. Rompasaari, 2020
Publish Date: 2020-09-07
Thesis type: Bachelor's thesis
Description:

Tiivistelmä

Koneellisia kuulojärjestelmiä ja niiden osia on kehitetty jo vuosikymmeniä; olemassa on kuitenkin edelleen useita ongelmia, jotka ovat esteenä ihmistä vastaavan kuulojärjestelmän saavuttamisessa. Yksi näistä ongelmista on puhujien erottelu puhesekoituksesta erillisiksi äänisignaaleiksi, jota kutsutaan myös cocktailkutsuongelmaksi. Vaikka ihmisen on helppo paikantaa ja erotella eri puhujat usean samanaikaisen puhujan joukosta, samaan suorituskykyyn yltävä koneellinen toteutus on osoittautunut haastavaksi. Usein ratkaisuissa pyritään hyödyntämään useista mikrofoneista koostuvia mikrofoniryhmiä, jotka mahdollistavat monikanavaisten kaiun- ja kohinanpoistomenetelmien sekä äänilähteiden suuntien käytön apuna erotteluprosessissa. Viime vuosina on myös tutkittu syväoppimista hyödyntäviä menetelmiä, jotka ovat antaneet lupaavia tuloksia.

Tässä työssä esitellään uPIT-syväoppimismenetelmää käyttävä toteutus puheenerottelujärjestelmästä ROS-ympäristössä InMoov-robotille. Työn tavoitteena on selvittää erottelualgoritmin tuoma hyöty robotin kuulojärjestelmän osana. Toteutettu ROS-komponentti antaa muille järjestelmän komponenteille rajapinnan, joka tarjoaa robotin ympärillä kuuluvien puhujien erotellut puhesignaalit, ja lisäksi estimaatin yhden puhujan suunnan atsimuutista astelukuna suhteessa pään katsesuuntaan. Ratkaisussa on käytetty Seeed Studion ReSpeaker Mic Array v2.0 -mikrofonijärjestelmää, joka suorittaa sisäänrakennetusti kaiun ja taustamelun vaimennuksen, keilanmuodostuksen ja äänen tulosuunnan estimoinnin. Mikrofonin tallentama puhdistettu signaali välitetään uPIT-syväoppimismenetelmän avulla koulutettuun puheenerottelualgoritmiin, joka erottelee eri puhujille kuuluvat signaalit toisistaan.

Erottelun tuloksena testiaineistolla saavutettiin parhaimmillaan 5,99 dB parannus signaali-särösuhteessa kahden vastakkaista sukupuolta olevan aiemmin nähdyn puhujan erottelussa. Uusien puhujien erottelussa vastaava arvo on 5,60 dB. Koska tulokset saatiin käyttäen LibriSpeech-kieliaineistoa yleisen puheenerotteluun käytetyn WSJ0-aineiston sijasta, arvot eivät ole täysin vertailukelpoisia vastaavanlaisten tutkimusten kanssa. Vaikka saadut tulokset ovat parempia kuin joillain tavanomaisilla yksikanavaisilla puheenerottelumenetelmillä saavutetut arvot, kehitetyn puheenerottelujärjestelmän ei nähdä yltävän käytännön tilanteiden vaatimaan suorituskykyyn. Järjestelmä tarjoaa kuitenkin hyvän lähtökohdan robotin puheenerottelulle.

Speech separation system solution for InMoov robot

Abstract

Machine hearing systems and their subcomponents have been researched for decades; however, there are still problems that are preventing the system from reaching human-like performance. One of the problems is separating multiple speakers from a speech mixture into separate signals, which is called the cocktail party problem. Even though it is easy for humans to locate and separate different speakers from a group of multiple simultaneous speakers, achieving this kind of performance in a machine has proven to be a challenging task. Often the proposed solutions use an array of multiple microphones, which open up the possibility of using multichannel dereverberation and noise suppression techniques and directions of sound sources to aid the separating process. Recent years have also seen increasing research of solutions using deep learning, which have given promising results.

In this thesis, a speech separating system using the uPIT deep learning technique for InMoov humanoid robot is presented. The goal of the thesis is to see whether the speech separating system brings any meaningful improvements to the machine hearing system in the system’s ability to process speech. The developed component provides the other components of the system an interface for accessing separated speech signals and an estimate of the azimuth direction of one of the speakers. The solution utilizes Seeed Studio’s ReSpeaker Mic Array v2.0 microphone array, which provides built-in functionality for dereverberation and noise suppression, beamforming, and estimation of the direction of sound sources. The recorded and processed sound signals are sent to a deep learning speech separation system trained with utterance level permutation invariant training, which separates the different speech signals.

The separation system achieved at most a 5.99 dB improvement in signal-to-distortion ratio with two speakers of different genders in closed condition. In open condition, the improvement was 5.60 dB. Because the results were acquired using the LibriSpeech dataset, instead of the more common WSJ0 dataset, as the training data of the model, the results are not comparable to other similar studies. Even though the SDR values show improvement in results over some of the other single-channel separation methods, the performance of the system was not deemed good enough to meet the requirements of real-world applications. However, the system is still a good starting point for further development of the robot’s hearing system.

see all

Subjects:
Copyright information: © Kalle Palokangas; Ville Rompasaari, 2020. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.