University of Oulu

Human gesture and micro-gesture analysis : datasets, methods, and applications

Saved in:
Author: Chen, Haoyu1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 6.9 MB)
Persistent link: http://urn.fi/urn:isbn:9789526232393
Language: English
Published: Oulu : University of Oulu, 2022
Publish Date: 2022-03-11
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented, with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu, for public defence in the Oulun Puhelin auditorium (L5), Linnanmaa, on 18 March 2022, at 12 noon
Tutor: Professor Guoying Zhao
Reviewer: Professor Gualtiero Volpe
Professor Stefanos Kollias
Opponent: Professor Joni-Kristian Kämäräinen
Description:

Abstract

Exploring the possibility of using machines to achieve body gesture-based activity recognition, and even emotion understanding is a promising topic and drives this research. To facilitate research on this topic with computer vision methods, this thesis makes related contributions via four stages: regular body gesture recognition, micro-gesture dataset and analysis, 3D body gesture transfer and generation, and specific applications.

For regular human gestures, two analysis methods are proposed that aim at temporal segmentation and recognition tasks. The first work proposes a novel temporal hierarchical dictionary for hidden Markov model transition with deep neural networks. Then, the second work extends the proposed temporal hierarchical dictionary to a more robust online segmentation and recognition of gesture dynamics.

Next, we explore the possibility of emotion understanding from human gestures. In the field of psychology, a specific group of body gestures, called micro-gestures (MGs), are used to interpret the inner feelings of humans. To fill the gap in the research of spontaneous emotional gestures, we collect the first spontaneous MG dataset. A comprehensive analysis of MGs is then conducted, leading to interesting insights.

Body gestures transfer and generation is another main research direction in this thesis. We try to achieve the 3D human body gesture transfer that can endow target 3D human models with desired MGs. Then, we research how to learn the disentanglement of 3D human pose and shape in an unsupervised setting. Furthermore, we research the generation of animated 3D sequences of a target human body model by directly taking the driving sequences as inputs.

Lastly, we present an application for collaborative learning with gesture analysis in the education field. Specifically, we present an interdisciplinary work that introduces an explainable AI prototype for collaborative learning that seeks to provide interpretable insights with machine learning-based models.

In summary, we illustrate the contributions of the work and conclude the advantages and limitations of the current work. Potential future work plans are also discussed.

see all

Tiivistelmä

Ihmisillä on synnynnäinen kyky välittää ja ymmärtää monipuolista tietoa kehonliikkeiden avulla. Tällainen viestintä on läsnä lähes kaikkialla arjen elämässä. Tässä tutkimuksessa tarkastelemme koneen opettamista tunnistamaan toimia ja jopa ymmärtämään tunteita kehon eleiden perusteella. Väitöskirjatutkimuksessa tarkastelemme aihetta konenäkömenetelmillä ja jaamme tulokset neljään kategoriaan: tavanomaisten kehon eleiden tunnistus, mikroeleiden tietoaineisto ja analyysi, kehon eleiden siirtäminen kolmiulotteiseen malliin ja tuottaminen sillä sekä erityiset sovellukset.

Tavanomaisten eleiden analyysia varten ehdotamme kahta menetelmää ajalliseen segmentointiin ja tunnistustoimintoihin. Ensimmäisessä työssä ehdotamme uutta, syviä neuroverkostoja hyödyntävää ajallis-hierarkkista sanastoa Markovin piilomallin siirtymille. Toisessa työssä laajennamme ehdotettua ajallis-hierarkkista sanastoa tehokkaammalla verkkopohjaisella segmentoinnilla ja eledynamiikan tunnistamisella. Viitekehys perustuu tila-ajalliseen tarkkaavaisuusverkostoon. Se hyödyntää Lien ryhmien monimuotoisia esityksiä ja oppii kuviot iteratiivisesti.

Seuraavaksi tutkimme tunteiden ymmärtämistä ihmiseleistä. Psykologiassa kutsutaan mikroeleiksi tietynlaisten, tunteita ilmentävien ruumiineleiden ryhmää. Mikroeleet, kuten nenän koskettaminen, ovat hienovaraisia, spontaaneja ruumiineleitä, jotka voivat tahattomasti välittää tietoa piilotetuista tunteista. Spontaanien tunne-eleiden tutkimuksen aukon täyttämiseksi kokoamme ensimmäisen spontaaneihin mikroeleisiin keskittyvän tietoaineiston. Seuraavaksi suoritamme mikroeleiden kattavan analyysin, joka johtaa mielenkiintoisiin tuloksiin.

Väitöskirjan toinen tärkeä tutkimussuunta on kehon eleiden siirtäminen ja tuottaminen. Yritämme siirtää eleitä kolmiulotteiseen ihmiskehon malliin mahdollistaaksemme haluttujen mikroeleiden tuottamisen. Tämän jälkeen tutkimme koneen opettamista erottamaan kolmiulotteiset asennot ja muodot valvomattomassa ympäristössä. Lisäksi tutkimme animoitujen kolmiulotteisten sekvenssien tuottamista ihmiskehon mallilla käyttämällä ajojaksoja suorina syötteinä.

Lopuksi esittelemme eleiden analysointia hyödyntävän yhteistoiminnallisen oppimisen koulutussovelluksen. Tarkemmin sanottuna tarkastelemme poikkitieteellistä työtä, jossa luomme yhteistoiminnalliseen oppimiseen soveltuvan tekoälyn prototyypin, jonka tarkoitus on tuottaa ymmärrettävää tietoa koneoppimiseen perustuvien mallien avulla.

Tiivistelmäosiossa havainnollistamme työn tuloksia ja pohdimme nykyisen tutkimuksen etuja ja rajoituksia. Lisäksi tarkastelemme mahdollisia jatkotutkimussuunnitelmia, kuten luotettavien tunnemallien hyödyntämistä ihmiseleiden analysoinnissa sekä 3D-teknologian yhdistämistä affektiiviseen laskentaan.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. Chen, H., Liu, X., & Zhao, G. (2018). Temporal hierarchical dictionary with HMM for fast gesture recognition. In 2018 24th International Conference on Pattern Recognition (ICPR), 3378-3383. IEEE. https://doi.org/10.1109/icpr.2018.8546245

    Rinnakkaistallennettu versio / Self-archived version

  2. Chen, H., Liu, X., Shi, J., & Zhao, G. (2020). Temporal hierarchical dictionary guided decoding for online gesture segmentation and recognition. IEEE Transactions on Image Processing, 29, 9689–9702. https://doi.org/10.1109/TIP.2020.3028962

    Rinnakkaistallennettu versio / Self-archived version

  3. Chen, H., Liu, X., Li, X., Shi, H., & Zhao, G. (2019). Analyze spontaneous gestures for emotional stress state recognition: A micro-gesture dataset and analysis with deep learning. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–8. https://doi.org/10.1109/FG.2019.8756513

    Rinnakkaistallennettu versio / Self-archived version

  4. Chen, H., Tang, H., Yu, Z., Sebe, N., & Zhao, G. (2022). Geometry-contrastive transformer for generalized 3D pose transfer. The AAAI Conference on Artificial Intelligence (AAAI). Manuscript submitted for publication.

  5. Chen, H., Tang, H., Shi, H., Peng, W., Sebe, N, & Zhao, G. (2021). Intrinsic-extrinsic preserved GANs for unsupervised 3D pose transfer. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). Manuscript submitted for publication.

  6. Chen, H, Tang, H., Sebe, N., & Zhao, G. (2021). AniFormer: Data-driven 3D animation with transformer. In Proceedings of the British Machine Vision Conference (BMVC), 2021. Manuscript submitted for publication.

  7. Chen, H., Tan, E., Lee, Y., Praharaj, S., Specht, M., & Zhao, G. (2020). Developing AI into explanatory supporting models: An explanation-visualized deep learning prototype for computer supported collaborative learning. In Gresalfi, M. and Horn, I. S. (Eds.), The Interdisciplinarity of the Learning Sciences, 14th International Conference of the Learning Sciences (ICLS) 2020, Volume 2 (pp. 1133-1140). Nashville, Tennessee: International Society of the Learning Sciences.

    Rinnakkaistallennettu versio / Self-archived version

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3239-3
ISBN Print: 978-952-62-3238-6
Issue: 822
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Copyright information: © University of Oulu, 2022. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.