Human gesture and micro-gesture analysis : datasets, methods, and applications
Chen, Haoyu (2022-03-11)
https://urn.fi/URN:ISBN:9789526232393
Kuvaus
Tiivistelmä
Abstract
Exploring the possibility of using machines to achieve body gesture-based activity recognition, and even emotion understanding is a promising topic and drives this research. To facilitate research on this topic with computer vision methods, this thesis makes related contributions via four stages: regular body gesture recognition, micro-gesture dataset and analysis, 3D body gesture transfer and generation, and specific applications.
For regular human gestures, two analysis methods are proposed that aim at temporal segmentation and recognition tasks. The first work proposes a novel temporal hierarchical dictionary for hidden Markov model transition with deep neural networks. Then, the second work extends the proposed temporal hierarchical dictionary to a more robust online segmentation and recognition of gesture dynamics.
Next, we explore the possibility of emotion understanding from human gestures. In the field of psychology, a specific group of body gestures, called micro-gestures (MGs), are used to interpret the inner feelings of humans. To fill the gap in the research of spontaneous emotional gestures, we collect the first spontaneous MG dataset. A comprehensive analysis of MGs is then conducted, leading to interesting insights.
Body gestures transfer and generation is another main research direction in this thesis. We try to achieve the 3D human body gesture transfer that can endow target 3D human models with desired MGs. Then, we research how to learn the disentanglement of 3D human pose and shape in an unsupervised setting. Furthermore, we research the generation of animated 3D sequences of a target human body model by directly taking the driving sequences as inputs.
Lastly, we present an application for collaborative learning with gesture analysis in the education field. Specifically, we present an interdisciplinary work that introduces an explainable AI prototype for collaborative learning that seeks to provide interpretable insights with machine learning-based models.
In summary, we illustrate the contributions of the work and conclude the advantages and limitations of the current work. Potential future work plans are also discussed.
Tiivistelmä
Ihmisillä on synnynnäinen kyky välittää ja ymmärtää monipuolista tietoa kehonliikkeiden avulla. Tällainen viestintä on läsnä lähes kaikkialla arjen elämässä. Tässä tutkimuksessa tarkastelemme koneen opettamista tunnistamaan toimia ja jopa ymmärtämään tunteita kehon eleiden perusteella. Väitöskirjatutkimuksessa tarkastelemme aihetta konenäkömenetelmillä ja jaamme tulokset neljään kategoriaan: tavanomaisten kehon eleiden tunnistus, mikroeleiden tietoaineisto ja analyysi, kehon eleiden siirtäminen kolmiulotteiseen malliin ja tuottaminen sillä sekä erityiset sovellukset.
Tavanomaisten eleiden analyysia varten ehdotamme kahta menetelmää ajalliseen segmentointiin ja tunnistustoimintoihin. Ensimmäisessä työssä ehdotamme uutta, syviä neuroverkostoja hyödyntävää ajallis-hierarkkista sanastoa Markovin piilomallin siirtymille. Toisessa työssä laajennamme ehdotettua ajallis-hierarkkista sanastoa tehokkaammalla verkkopohjaisella segmentoinnilla ja eledynamiikan tunnistamisella. Viitekehys perustuu tila-ajalliseen tarkkaavaisuusverkostoon. Se hyödyntää Lien ryhmien monimuotoisia esityksiä ja oppii kuviot iteratiivisesti.
Seuraavaksi tutkimme tunteiden ymmärtämistä ihmiseleistä. Psykologiassa kutsutaan mikroeleiksi tietynlaisten, tunteita ilmentävien ruumiineleiden ryhmää. Mikroeleet, kuten nenän koskettaminen, ovat hienovaraisia, spontaaneja ruumiineleitä, jotka voivat tahattomasti välittää tietoa piilotetuista tunteista. Spontaanien tunne-eleiden tutkimuksen aukon täyttämiseksi kokoamme ensimmäisen spontaaneihin mikroeleisiin keskittyvän tietoaineiston. Seuraavaksi suoritamme mikroeleiden kattavan analyysin, joka johtaa mielenkiintoisiin tuloksiin.
Väitöskirjan toinen tärkeä tutkimussuunta on kehon eleiden siirtäminen ja tuottaminen. Yritämme siirtää eleitä kolmiulotteiseen ihmiskehon malliin mahdollistaaksemme haluttujen mikroeleiden tuottamisen. Tämän jälkeen tutkimme koneen opettamista erottamaan kolmiulotteiset asennot ja muodot valvomattomassa ympäristössä. Lisäksi tutkimme animoitujen kolmiulotteisten sekvenssien tuottamista ihmiskehon mallilla käyttämällä ajojaksoja suorina syötteinä.
Lopuksi esittelemme eleiden analysointia hyödyntävän yhteistoiminnallisen oppimisen koulutussovelluksen. Tarkemmin sanottuna tarkastelemme poikkitieteellistä työtä, jossa luomme yhteistoiminnalliseen oppimiseen soveltuvan tekoälyn prototyypin, jonka tarkoitus on tuottaa ymmärrettävää tietoa koneoppimiseen perustuvien mallien avulla.
Tiivistelmäosiossa havainnollistamme työn tuloksia ja pohdimme nykyisen tutkimuksen etuja ja rajoituksia. Lisäksi tarkastelemme mahdollisia jatkotutkimussuunnitelmia, kuten luotettavien tunnemallien hyödyntämistä ihmiseleiden analysoinnissa sekä 3D-teknologian yhdistämistä affektiiviseen laskentaan.
Original papers
Original papers are not included in the electronic version of the dissertation.
Chen, H., Liu, X., & Zhao, G. (2018). Temporal hierarchical dictionary with HMM for fast gesture recognition. In 2018 24th International Conference on Pattern Recognition (ICPR), 3378-3383. IEEE. https://doi.org/10.1109/icpr.2018.8546245
Chen, H., Liu, X., Shi, J., & Zhao, G. (2020). Temporal hierarchical dictionary guided decoding for online gesture segmentation and recognition. IEEE Transactions on Image Processing, 29, 9689–9702. https://doi.org/10.1109/TIP.2020.3028962
Chen, H., Liu, X., Li, X., Shi, H., & Zhao, G. (2019). Analyze spontaneous gestures for emotional stress state recognition: A micro-gesture dataset and analysis with deep learning. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–8. https://doi.org/10.1109/FG.2019.8756513
Chen, H., Tang, H., Yu, Z., Sebe, N., & Zhao, G. (2022). Geometry-contrastive transformer for generalized 3D pose transfer. The AAAI Conference on Artificial Intelligence (AAAI). Manuscript submitted for publication.
Chen, H., Tang, H., Shi, H., Peng, W., Sebe, N, & Zhao, G. (2021). Intrinsic-extrinsic preserved GANs for unsupervised 3D pose transfer. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). Manuscript submitted for publication.
Chen, H, Tang, H., Sebe, N., & Zhao, G. (2021). AniFormer: Data-driven 3D animation with transformer. In Proceedings of the British Machine Vision Conference (BMVC), 2021. Manuscript submitted for publication.
Chen, H., Tan, E., Lee, Y., Praharaj, S., Specht, M., & Zhao, G. (2020). Developing AI into explanatory supporting models: An explanation-visualized deep learning prototype for computer supported collaborative learning. In Gresalfi, M. and Horn, I. S. (Eds.), The Interdisciplinarity of the Learning Sciences, 14th International Conference of the Learning Sciences (ICLS) 2020, Volume 2 (pp. 1133-1140). Nashville, Tennessee: International Society of the Learning Sciences.
Osajulkaisut
Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.
Chen, H., Liu, X., & Zhao, G. (2018). Temporal hierarchical dictionary with HMM for fast gesture recognition. In 2018 24th International Conference on Pattern Recognition (ICPR), 3378-3383. IEEE. https://doi.org/10.1109/icpr.2018.8546245
Chen, H., Liu, X., Shi, J., & Zhao, G. (2020). Temporal hierarchical dictionary guided decoding for online gesture segmentation and recognition. IEEE Transactions on Image Processing, 29, 9689–9702. https://doi.org/10.1109/TIP.2020.3028962
Chen, H., Liu, X., Li, X., Shi, H., & Zhao, G. (2019). Analyze spontaneous gestures for emotional stress state recognition: A micro-gesture dataset and analysis with deep learning. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–8. https://doi.org/10.1109/FG.2019.8756513
Chen, H., Tang, H., Yu, Z., Sebe, N., & Zhao, G. (2022). Geometry-contrastive transformer for generalized 3D pose transfer. The AAAI Conference on Artificial Intelligence (AAAI). Manuscript submitted for publication.
Chen, H., Tang, H., Shi, H., Peng, W., Sebe, N, & Zhao, G. (2021). Intrinsic-extrinsic preserved GANs for unsupervised 3D pose transfer. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). Manuscript submitted for publication.
Chen, H, Tang, H., Sebe, N., & Zhao, G. (2021). AniFormer: Data-driven 3D animation with transformer. In Proceedings of the British Machine Vision Conference (BMVC), 2021. Manuscript submitted for publication.
Chen, H., Tan, E., Lee, Y., Praharaj, S., Specht, M., & Zhao, G. (2020). Developing AI into explanatory supporting models: An explanation-visualized deep learning prototype for computer supported collaborative learning. In Gresalfi, M. and Horn, I. S. (Eds.), The Interdisciplinarity of the Learning Sciences, 14th International Conference of the Learning Sciences (ICLS) 2020, Volume 2 (pp. 1133-1140). Nashville, Tennessee: International Society of the Learning Sciences.
Kokoelmat
- Avoin saatavuus [31657]