University of Oulu

Learning-based human action and affective gesture analysis

Saved in:
Author: Shi, Henglin1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 2.4 MB)
Persistent link: http://urn.fi/urn:isbn:9789526235615
Language: English
Published: Oulu : University of Oulu, 2023
Publish Date: 2023-01-20
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented, with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu, for public defence in the Wetteri auditorium (IT115), Linnanmaa, on 27 January 2023, at 12 noon
Tutor: Professor Guoying Zhao
Reviewer: Professor Li Cheng
Professor Catherine Pelachaud
Opponent: Associate Professor Giovanna Varni
Description:

Abstract

Human behavior understanding is an essential capability for developing applications and technologies for assisting our daily lives and work. Machines are expected to understand humans comprehensively from both activity and emotion aspects. This thesis is devoted to investigating computer vision and machine learning techniques for human behavior analysis. The study is conducted through three consecutive stages: (1) human action recognition through gestures; (2) human affective gesture recognition; and (3) human gesture detection.

Firstly, this thesis investigates robust human action recognition using skeleton data. Skeleton data has been widely used for human behavior understanding recently, since its large-scale extraction at low cost has become feasible. However, the reliability of the extracted skeleton is a concern among researchers due to the possible inaccurate results caused by dynamic illumination, occlusion, and so on. To solve this problem, two noise-resistant skeleton-based action recognition methods are developed.

Secondly, the thesis investigates human emotion understanding from body gestures. On the one hand, the problem of recognizing expressed emotion from body gestures is studied. For this purpose, a multi-scale graph convolution network that can effectively model the temporal dynamics for emotion recognition is developed. On the other hand, the thesis explores the recognition of micro-gestures for identifying human suppressed emotions. As a result, we collect a multi-modal micro-gesture dataset and propose an unsupervised micro-gesture recognition method.

Lastly, this thesis studies the problem of human gesture detection. In real-world scenarios, a given video may contain an arbitrary number of gestures, and their start/end times are also unknown. Consequently, recognition methods on their own cannot be directly applied. Thus, an anchor-free gesture detector equipped with the attention-guided boundary refining module is developed that can localize the temporal locations of possible gestures and simultaneously recognize their types.

In the last chapter, this thesis discusses the contributions and limitations of the work. Alongside this, we also discuss the future research direction of body gesture analysis, and propose its potential applications in human activity analysis and emotion understanding.

see all

Tiivistelmä

Ihmisen käyttäytymisen ymmärtäminen on olennainen kyky sovellusten ja teknologioiden kehitykseen, jotka auttavat päivittäisessä elämässä ja töissä. Koneiden oletetaan ymmärtävän kattavasti sekä ihmisen toimintoja että tunteita. Tässä väitöskirjassa tutkitaan konenäön ja -oppimisen tekniikoita ihmisen käyttäytymisen analysointiin. Tutkimus tehdään kolmessa peräkkäisessä vaiheessa: (1) ihmisen toimintojen tunnistus eleiden avulla; (2) ihmisen affektiivinen eleiden tunnistaminen; ja (3) ihmisen eleiden ajallinen tunnistaminen.

Ensimmäiseksi väitöskirjassa tutkitaan robustia ihmisen toimintojen tunnistusta käyttäen luurankodataa. Laajamittainen luurankodatan talteenotto pienillä kustannuksilla on tehnyt siitä suositun viime aikoina. Automaattisesti kerätyn luurankodatan luotettavuus on kuitenkin huolenaihe mahdollisten epätarkkuuksien vuoksi kuten vaihteleva valaistus, näköesteet ja niin edelleen. Ongelman korjaamiseksi kehitetään kaksi kohinan kestävää luurankodataan perustuvaa toiminnontunnistusmenetelmää.

Toiseksi väitöskirjassa tutkitaan ihmisen tunteiden ymmärtämistä kehon eleistä. Tunteiden tunnistamiseen kehon eleistä kehitetään multi-skaala graafikonvoluutiomalli, joka pystyy tehokkaasti mallintamaan ajallista vaihtelua. Sen lisäksi tutkitaan mikroeleiden tunnistamista tukahdettujen tunteiden tunnistamiseen. Näiden seurauksena kerätään multimodaalinen mikroeleiden tietokanta ja kehitetään ohjaamattoman oppimisen mikroeleidentunnistusmenetelmä.

Lopuksi väitöskirjassa tutkitaan ihmisen eleiden ajallista tunnistamista. Käytännön tilanteissa videoissa voi olla mielivaltainen määrä eleitä ja niiden aloitus- ja lopetusajankohdat ovat tietämättömiä. Tämän seurauksena pelkkä eleiden tunnistus tekniikka ei riitä. Täten kehitetään ankkuriton eleidentunnistin tarkkaivaisuusohjatulla rajantarkennusmoduulilla, joka pystyy samanaikaisesti tunnistamaan sekä eleiden ajanhetket että tyypit.

Väitöskirjan viimeisessä kappaleessa keskustellaan työn vaikutuksista ja rajoitteista. Sen lisäksi keskustellaan tulevaisuuden tutkimussuunnista eleiden analyysiin ja niiden sovelluksista ihmisen toiminnon analyysiin ja tunteiden ymmärtämiseen.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. Shi, H., Liu, X., Hong, X., & Zhao, G. (2018). Bidirectional long short-term memory variational autoencoder. In Proceedings of the British Machine Vision Conference 2018 (BMVC), 165.

  2. Shi, H., Peng, W., Liu, X., & Zhao, G. (2021). Graph adversarial learning for noisy skeleton-based action recognition. Electronic Imaging, 33(10), 239-1–239-7. https://doi.org/10.2352/ISSN.2470-1173.2021.10.IPAS-239

    Rinnakkaistallennettu versio / Self-archived version

  3. Shi, H., Peng, W., Chen, H., Liu, X., & Zhao, G. (2022). Multiscale 3D-shift graph convolution network for emotion recognition from human actions. IEEE Intelligent Systems, 37(4), 103–110. https://doi.org/10.1109/MIS.2022.3147585

    Rinnakkaistallennettu versio / Self-archived version

  4. Liu, X., Shi, H., Chen, H., Yu, Z., Li, X., & Zhao, G. (2021). iMiGUE: An identity-free video dataset for micro-gesture understanding and emotion analysis. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Virtual, 19-25 June 2021 : proceedings, 10626–10637. https://doi.org/10.1109/CVPR46437.2021.01049

    Rinnakkaistallennettu versio / Self-archived version

  5. Shi, H., Chen, H., & Zhao, G. (2023). Attention-guided boundary refinement on anchor-free temporal action detection. Manuscript submitted for publication.

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3561-5
ISBN Print: 978-952-62-3560-8
Issue: 866
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Copyright information: © University of Oulu, 2023. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.