Puhesynteesin ja suun liikkeen toteutus robotille

Käpylä, Santtu; Leinonen, Tiia

Puhesynteesin ja suun liikkeen toteutus robotille

Käpylä, Santtu; Leinonen, Tiia (2020-08-25)

Avaa tiedosto

nbnfioulu-202008272889.pdf (15.23Mt)

nbnfioulu-202008272889_pdfa_report.xml (344.0Kt)

nbnfioulu-202008272889_mods.xml (14.03Kt)

nbnfioulu-202008272889_solr.xml (34.04Kt)

Lataukset:

Käpylä, Santtu

Leinonen, Tiia

S. Käpylä; T. Leinonen

25.08.2020

© 2020 Santtu Käpylä, Tiia Leinonen. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202008272889

Tiivistelmä

Ihmiset kommunikoivat keskenään sekä verbaalisesti, että nonverbaalisesti. Ihmisten verbaalisen viestinnän, eli puheen, ja ihmisäänen tutkimusta kutsutaan fonetiikaksi ja sitä hyödynnetään robotiikassa keinotekoisen puheen eli puhesynteesin toteuttamisessa. Sosiaalisten robottien yleistyessä on tärkeää, että ihminen-robotti-vuorovaikutus olisi mahdollisimman luontevaa. Varsinkin kasvot ovat avainasemassa vuorovaikutuksessa, ja robotin visuaalinen suu tekee vuorovaikutuksesta ihmiselle mielekkäämpää, sekä auttaa puheen ymmärtämisessä. Myös robotin puheen ja leuan liikkeen synkronointi on tärkeässä roolissa ’uncanny valley’ -ilmiön välttämisessä.

Tässä projektissa toteutettiin puhesynteesi ja leuan liike InMoov-robotille. Leuan liike toteutettiin Dynamixel XL-320-servolla, jota kontrolloitiin Arduino UNO:lla. Puhesynteeseinä toteutettiin formanttisynteesi ja konkatenaatiosynteesi sekä mies-, että naisäänellä. Molempia puhesynteesejä sekä puheen ja suun liikkeen synkronisaatiota arvioitiin subjektiivisesti itse kehitetyillä numeerisilla asteikoilla. Konkatenaatiosynteesi saavutti arvosanan 3/5, mikä tarkoittaa, että puheen välittämä viesti on ymmärrettävissä, formanttisynteesi arvosanan 2/5, mikä tarkoittaa, että puheen välittämä viesti jää epäselväksi, ja synkronisaatio arvosanan 3/4, mikä tarkoittaa, että synkronisaatio on suurimman osan ajasta hyvä.

Projektissa hyödynnettiin apuna metakäyttöjärjestelmää Robot Operating System (ROS). Ohjelmistokomponenteista toteutettiin ROS-paketti, jonka toiminnallisuus koostuu kahdesta keskenään kommunikoivasta ROS-solmusta, joista toinen vastaa servon kontrolloimisesta ja toinen puhesynteesistä. Projektissa toteutettuja komponentteja voidaan hyödyntää tulevaisuudessa esimerkiksi ihminen-robotti-vuorovaikutuksen tutkimiseen ja erilaisten havaintoesitysten toteuttamiseen. Jatkossa puhesynteesin ja leuan liikkeen synkronisaatiota voitaisiin parantaa toteuttamalla monipuolisempia leuan asentoja sekä selkeyttämällä puhesynteesejä.

Humans communicate with each other both verbally and non-verbally. The research of verbal human communication and human voice is called phonetics and it can be utilized in robotics to produce artificial speech, ergo speech synthesis. As social robots become more common it is important for human-robot interaction to be as natural as possible. Especially faces are key components in interaction and robot’s visual mouth makes the interaction more pleasant to humans and helps them in understanding speech better. The synchronisation of the robot’s speech and mouth movement also plays an important role in avoiding the ’uncanny valley’ phenomenon.

In this project two speech syntheses and motion of jaw were implemented for InMoov-robot. The motion of the jaw was implemented with Dynamixel’s XL-320 servomotor controlled by Arduino UNO. Two different speech syntheses were implemented: formant synthesis and concatenation synthesis with both female and male voices. Both of the speech syntheses and the synchronization of the speech and mouth movement were evaluated on self-made subjective numerical scales. The concatenation synthesis accomplished a grade of 3/5, which means that the speech was comprehensible. The formant synthesis accomplished a grade of 2/5, which means the speech was quite incoherent. Last but not least, the synchronization accomplished a grade of 3/4, which means the synchronization was good most of the time.

The project utilizes a meta-operating system called Robot Operating System (ROS). The two software components implemented in this project comprise a ROS package consisting of two ROS nodes; one responsible for servo control and the other for speech synthesis. In the future these components can be utilized in research of human-robot interaction and in different demonstrations. The synchronisation of the jaw movement and speech could be improved by implementing more options for the position of the jaw and by enhancing the speech syntheses to sound more natural.

Kokoelmat

Avoin saatavuus [31996]