Learning-based human action and affective gesture analysis |
|
Author: | Shi, Henglin1,2 |
Organizations: |
1University of Oulu Graduate School 2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS) |
Format: | ebook |
Version: | published version |
Access: | open |
Online Access: | PDF Full Text (PDF, 2.4 MB) |
Persistent link: | http://urn.fi/urn:isbn:9789526235615 |
Language: | English |
Published: |
Oulu : University of Oulu,
2023
|
Publish Date: | 2023-01-20 |
Thesis type: | Doctoral Dissertation |
Defence Note: | Academic dissertation to be presented, with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu, for public defence in the Wetteri auditorium (IT115), Linnanmaa, on 27 January 2023, at 12 noon |
Tutor: |
Professor Guoying Zhao |
Reviewer: |
Professor Li Cheng Professor Catherine Pelachaud |
Opponent: |
Associate Professor Giovanna Varni |
Description: |
AbstractHuman behavior understanding is an essential capability for developing applications and technologies for assisting our daily lives and work. Machines are expected to understand humans comprehensively from both activity and emotion aspects. This thesis is devoted to investigating computer vision and machine learning techniques for human behavior analysis. The study is conducted through three consecutive stages: (1) human action recognition through gestures; (2) human affective gesture recognition; and (3) human gesture detection. Firstly, this thesis investigates robust human action recognition using skeleton data. Skeleton data has been widely used for human behavior understanding recently, since its large-scale extraction at low cost has become feasible. However, the reliability of the extracted skeleton is a concern among researchers due to the possible inaccurate results caused by dynamic illumination, occlusion, and so on. To solve this problem, two noise-resistant skeleton-based action recognition methods are developed. Secondly, the thesis investigates human emotion understanding from body gestures. On the one hand, the problem of recognizing expressed emotion from body gestures is studied. For this purpose, a multi-scale graph convolution network that can effectively model the temporal dynamics for emotion recognition is developed. On the other hand, the thesis explores the recognition of micro-gestures for identifying human suppressed emotions. As a result, we collect a multi-modal micro-gesture dataset and propose an unsupervised micro-gesture recognition method. Lastly, this thesis studies the problem of human gesture detection. In real-world scenarios, a given video may contain an arbitrary number of gestures, and their start/end times are also unknown. Consequently, recognition methods on their own cannot be directly applied. Thus, an anchor-free gesture detector equipped with the attention-guided boundary refining module is developed that can localize the temporal locations of possible gestures and simultaneously recognize their types. In the last chapter, this thesis discusses the contributions and limitations of the work. Alongside this, we also discuss the future research direction of body gesture analysis, and propose its potential applications in human activity analysis and emotion understanding. see all
TiivistelmäIhmisen käyttäytymisen ymmärtäminen on olennainen kyky sovellusten ja teknologioiden kehitykseen, jotka auttavat päivittäisessä elämässä ja töissä. Koneiden oletetaan ymmärtävän kattavasti sekä ihmisen toimintoja että tunteita. Tässä väitöskirjassa tutkitaan konenäön ja -oppimisen tekniikoita ihmisen käyttäytymisen analysointiin. Tutkimus tehdään kolmessa peräkkäisessä vaiheessa: (1) ihmisen toimintojen tunnistus eleiden avulla; (2) ihmisen affektiivinen eleiden tunnistaminen; ja (3) ihmisen eleiden ajallinen tunnistaminen. Ensimmäiseksi väitöskirjassa tutkitaan robustia ihmisen toimintojen tunnistusta käyttäen luurankodataa. Laajamittainen luurankodatan talteenotto pienillä kustannuksilla on tehnyt siitä suositun viime aikoina. Automaattisesti kerätyn luurankodatan luotettavuus on kuitenkin huolenaihe mahdollisten epätarkkuuksien vuoksi kuten vaihteleva valaistus, näköesteet ja niin edelleen. Ongelman korjaamiseksi kehitetään kaksi kohinan kestävää luurankodataan perustuvaa toiminnontunnistusmenetelmää. Toiseksi väitöskirjassa tutkitaan ihmisen tunteiden ymmärtämistä kehon eleistä. Tunteiden tunnistamiseen kehon eleistä kehitetään multi-skaala graafikonvoluutiomalli, joka pystyy tehokkaasti mallintamaan ajallista vaihtelua. Sen lisäksi tutkitaan mikroeleiden tunnistamista tukahdettujen tunteiden tunnistamiseen. Näiden seurauksena kerätään multimodaalinen mikroeleiden tietokanta ja kehitetään ohjaamattoman oppimisen mikroeleidentunnistusmenetelmä. Lopuksi väitöskirjassa tutkitaan ihmisen eleiden ajallista tunnistamista. Käytännön tilanteissa videoissa voi olla mielivaltainen määrä eleitä ja niiden aloitus- ja lopetusajankohdat ovat tietämättömiä. Tämän seurauksena pelkkä eleiden tunnistus tekniikka ei riitä. Täten kehitetään ankkuriton eleidentunnistin tarkkaivaisuusohjatulla rajantarkennusmoduulilla, joka pystyy samanaikaisesti tunnistamaan sekä eleiden ajanhetket että tyypit. Väitöskirjan viimeisessä kappaleessa keskustellaan työn vaikutuksista ja rajoitteista. Sen lisäksi keskustellaan tulevaisuuden tutkimussuunnista eleiden analyysiin ja niiden sovelluksista ihmisen toiminnon analyysiin ja tunteiden ymmärtämiseen. see all
Osajulkaisut / Original papersOsajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.
see all
|
Series: |
Acta Universitatis Ouluensis. C, Technica |
ISSN: | 0355-3213 |
ISSN-E: | 1796-2226 |
ISSN-L: | 0355-3213 |
ISBN: | 978-952-62-3561-5 |
ISBN Print: | 978-952-62-3560-8 |
Issue: | 866 |
Type of Publication: |
G5 Doctoral dissertation (articles) |
Field of Science: |
113 Computer and information sciences |
Subjects: | |
Copyright information: |
© University of Oulu, 2023. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. |