University of Oulu

Puhesynteesin ja suun liikkeen toteutus robotille

Saved in:
Author: Käpylä, Santtu1; Leinonen, Tiia1
Organizations: 1University of Oulu, Faculty of Information Technology and Electrical Engineering, Department of Computer Science and Engineering, Computer Science
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 15.2 MB)
Pages: 44
Persistent link: http://urn.fi/URN:NBN:fi:oulu-202008272889
Language: Finnish
Published: Oulu : S. Käpylä; T. Leinonen, 2020
Publish Date: 2020-08-27
Thesis type: Bachelor's thesis
Description:

Tiivistelmä

Ihmiset kommunikoivat keskenään sekä verbaalisesti, että nonverbaalisesti. Ihmisten verbaalisen viestinnän, eli puheen, ja ihmisäänen tutkimusta kutsutaan fonetiikaksi ja sitä hyödynnetään robotiikassa keinotekoisen puheen eli puhesynteesin toteuttamisessa. Sosiaalisten robottien yleistyessä on tärkeää, että ihminen-robotti-vuorovaikutus olisi mahdollisimman luontevaa. Varsinkin kasvot ovat avainasemassa vuorovaikutuksessa, ja robotin visuaalinen suu tekee vuorovaikutuksesta ihmiselle mielekkäämpää, sekä auttaa puheen ymmärtämisessä. Myös robotin puheen ja leuan liikkeen synkronointi on tärkeässä roolissa ’uncanny valley’ -ilmiön välttämisessä.

Tässä projektissa toteutettiin puhesynteesi ja leuan liike InMoov-robotille. Leuan liike toteutettiin Dynamixel XL-320-servolla, jota kontrolloitiin Arduino UNO:lla. Puhesynteeseinä toteutettiin formanttisynteesi ja konkatenaatiosynteesi sekä mies-, että naisäänellä. Molempia puhesynteesejä sekä puheen ja suun liikkeen synkronisaatiota arvioitiin subjektiivisesti itse kehitetyillä numeerisilla asteikoilla. Konkatenaatiosynteesi saavutti arvosanan 3/5, mikä tarkoittaa, että puheen välittämä viesti on ymmärrettävissä, formanttisynteesi arvosanan 2/5, mikä tarkoittaa, että puheen välittämä viesti jää epäselväksi, ja synkronisaatio arvosanan 3/4, mikä tarkoittaa, että synkronisaatio on suurimman osan ajasta hyvä.

Projektissa hyödynnettiin apuna metakäyttöjärjestelmää Robot Operating System (ROS). Ohjelmistokomponenteista toteutettiin ROS-paketti, jonka toiminnallisuus koostuu kahdesta keskenään kommunikoivasta ROS-solmusta, joista toinen vastaa servon kontrolloimisesta ja toinen puhesynteesistä. Projektissa toteutettuja komponentteja voidaan hyödyntää tulevaisuudessa esimerkiksi ihminen-robotti-vuorovaikutuksen tutkimiseen ja erilaisten havaintoesitysten toteuttamiseen. Jatkossa puhesynteesin ja leuan liikkeen synkronisaatiota voitaisiin parantaa toteuttamalla monipuolisempia leuan asentoja sekä selkeyttämällä puhesynteesejä.

Abstract

Humans communicate with each other both verbally and non-verbally. The research of verbal human communication and human voice is called phonetics and it can be utilized in robotics to produce artificial speech, ergo speech synthesis. As social robots become more common it is important for human-robot interaction to be as natural as possible. Especially faces are key components in interaction and robot’s visual mouth makes the interaction more pleasant to humans and helps them in understanding speech better. The synchronisation of the robot’s speech and mouth movement also plays an important role in avoiding the ’uncanny valley’ phenomenon.

In this project two speech syntheses and motion of jaw were implemented for InMoov-robot. The motion of the jaw was implemented with Dynamixel’s XL-320 servomotor controlled by Arduino UNO. Two different speech syntheses were implemented: formant synthesis and concatenation synthesis with both female and male voices. Both of the speech syntheses and the synchronization of the speech and mouth movement were evaluated on self-made subjective numerical scales. The concatenation synthesis accomplished a grade of 3/5, which means that the speech was comprehensible. The formant synthesis accomplished a grade of 2/5, which means the speech was quite incoherent. Last but not least, the synchronization accomplished a grade of 3/4, which means the synchronization was good most of the time.

The project utilizes a meta-operating system called Robot Operating System (ROS). The two software components implemented in this project comprise a ROS package consisting of two ROS nodes; one responsible for servo control and the other for speech synthesis. In the future these components can be utilized in research of human-robot interaction and in different demonstrations. The synchronisation of the jaw movement and speech could be improved by implementing more options for the position of the jaw and by enhancing the speech syntheses to sound more natural.

see all

Subjects:
Copyright information: © Santtu Käpylä; Tiia Leinonen, 2020. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.