University of Oulu

Deep learning methods for analyzing vision-based emotion recognition from 3D/4D facial point clouds

Saved in:
Author: Behzad, Muzammil1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 3.1 MB)
Persistent link: http://urn.fi/urn:isbn:9789526233055
Language: English
Published: Oulu : University of Oulu, 2022
Publish Date: 2022-05-10
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented, with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu, for public defence in the Oulun Puhelin auditorium (L5), Linnanmaa, on 17 May 2022, at 12 noon
Tutor: Professor Guoying Zhao
Reviewer: Professor Lijun Yin
Professor Mohamed Chetouani
Opponent: Professor Hui Yu
Description:

Abstract

Facial expressions serve as one of the most vital ways for humans to express and communicate human emotions effectively. Their role on giving emphasis or to clarify something, expressing internal feelings or intentions, and their importance in structuring critical aspects of human interactions are widely acknowledged and are, thus, significantly crucial. With the advent of recently trending state-of-the-art technologies such as, deep learning, the capability of systems for automatically recognizing and analyzing facial expressions from human faces have consequently proved to be exceptionally instrumental in understanding human behavior. This ignites the kick-start of recognition systems that can offer handsome number of applications in a wide range of areas containing, but not limited to, security, psychology, medicine and robotics.

To further improve the performance of such facial expression recognition (FER) systems, the use of 3D/4D facial point clouds has essentially expanded facial expression analysis by amplifying the strength to combat the inherent problems of processing 2D facial images, e.g., issues with out-of-plane motions, head pose variations, and illumination and lighting conditions. In this regard, the release of facial expression datasets containing 3D/4D face scans has allowed effective affect recognition by fetching facial deformation patterns both spatially as well as temporally. At the same time, such data brings along its own inevitable challenges, for instance, its complex data structure and limited size. Therefore, its analysis necessitates the use, extension and introduction of relatively promising approaches to develop successful recognition systems.

This thesis aims to develop and offer a number of deep learning methods to build robust models for analyzing emotion recognition from 3D/4D facial point clouds. Specifically, the thesis first focuses on collaborative emotion recognition where facial multi-views are used along with concentrating additionally on utilizing the facial landmarks. Secondly, it highlights the importance of sparsity-aware affect recognition and its role towards significant deep learning models. Thirdly, it presents a multi-view transformer architecture for learning spatial embeddings by exploiting correlations in the multi-view embeddings along with the formulation of a gradient-friendly loss function. Following on, a novel multi-view facial rendezvous model is discussed that learns to recognize expressions in a self-supervised fashion. Finally, the contributions of this thesis are summarized in the end, and some potential future directions of 3D/4D FER studies are discussed.

see all

Tiivistelmä

Kasvojen ilmeet ovat ihmisille yksi tärkeimmistä tavoista ilmaista ja viestiä tunteita tehokkaasti. Ilmeiden rooli viestin korostamisessa tai selventämisessä, sisäisten tunteiden tai aikomusten ilmaisemisessa, sekä niiden merkitys inhimillisen vuorovaikutuksen kriittisten näkökohtien jäsentämisessä on laajalti tunnustettu, ja ilmeet ovat siksi ratkaisevan tärkeitä. Viime aikoina trendikkäiden huipputekniikoiden, kuten syväoppimisen, myötä ihmisten kasvojen ilmeitä automaattisesti tunnistavien ja analysoivien järjestelmien kyvyt ovat näin ollen osoittautuneet poikkeuksellisen tärkeiksi ihmisten käyttäytymisen ymmärtämisessä. Tämä kannustaa kehittämään tunnistusjärjestelmiä, jotka voivat tarjota suuren määrän sovelluksia monilla aloilla, joihin kuuluvat muun muassa turvallisuus, psykologia, lääketiede ja robotiikka.

Kyseisten ilmeentunnistusjärjestelmien suorituskyvyn parantamiseksi kasvojen 3D/4D-pistepilvien käyttö on laajentanut olennaisesti ilmeanalyysiä välttämällä 2D-kasvokuvien käsittelyyn olennaisesti kuuluvia ongelmia, kuten tason ulkopuolisia liikkeitä, pään asennon vaihteluita sekä valaistusolosuhteita. Tältä osin 3D/4D-kasvoskannauksia sisältävien datajoukkojen julkaiseminen on mahdollistanut tehokkaan affektin tunnistuksen analysoimalla kasvojen muodonmuutoksia sekä spatiaalisesti että ajallisesti. Samalla tällaiseen dataan liittyy väistämättä omat haasteensa, kuten monimutkainen tietorakenne ja rajallinen koko. Siksi sen analyysi edellyttää suhteellisen lupaavien lähestymistapojen käyttöä ja laajentamista onnistuneiden tunnistusjärjestelmien kehittämiseksi.

Tämän opinnäytetyön tavoitteena on kehittää ja tarjota useita syväoppimismenetelmiä, joiden avulla voidaan rakentaa robusteja malleja tunteiden tunnistamisen analysoimiseksi kasvojen 3D/4D-pistepilvestä. Opinnäytetyössä keskitytään erityisesti ensin yhteistyöllä tapahtuvaan tunteiden tunnistamiseen, jossa käytetään kasvojen moninäkymää ja lisäksi keskitytään kasvojen kiintopisteiden hyödyntämiseen. Toiseksi työssä korostetaan harvalukuisuuden huomioivaa affektin tunnistusta sekä sen roolia merkittävien syväoppimismallien kannalta. Kolmanneksi siinä esitellään moninäkymäinen muuntaja-arkkitehtuuri spatiaalisten upotusten oppimista varten hyödyntämällä korrelaatioita usean näkymän upotuksista sekä gradienttiystävällisen häviöfunktion muotoilua. Seuraavaksi esitellään uusi moninäkymäinen kasvojen kohtaamismalli, joka oppii tunnistamaan ilmeitä itseohjatusti. Lopuksi tiivistetään tämän opinnäytetyön tulokset ja käsitellään mahdollisia 3D/4D-ilmeentunnistusjärjestelmien tutkimuksen tulevaisuuden suuntauksia.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. Behzad, M., Vo, N., Li, X., & Zhao, G. (2019). Automatic 4D Facial Expression Recognition via Collaborative Cross-domain Dynamic Image Network. 30th British Machine Vision Conference (BMVC) 2019. https://doi.org/10.48550/arXiv.1905.02319

    Rinnakkaistallennettu versio / Self-archived version

  2. Behzad, M., Vo, N., Li, X., & Zhao, G. (2020). Landmarks-assisted collaborative deep framework for automatic 4D facial expression recognition. 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 1–5. https://doi.org/10.1109/FG47880.2020.00023

    Rinnakkaistallennettu versio / Self-archived version

  3. Behzad, M., Vo, N., Li, X., & Zhao, G. (2021). Towards reading beyond faces for sparsity-aware 3D/4D affect recognition. Neurocomputing, 458, 297–307. https://doi.org/10.1016/j.neucom.2021.06.023

    Rinnakkaistallennettu versio / Self-archived version

  4. Behzad, M., Li, X., & Zhao, G. (2021). Disentangling 3D/4D facial affect recognition with faster multi-view transformer. IEEE Signal Processing Letters, 28, 1913–1917. https://doi.org/10.1109/LSP.2021.3111576

    Rinnakkaistallennettu versio / Self-archived version

  5. Behzad, M., & Zhao, G. (2021). Self-supervised learning via multi-view facial rendezvous for 3D/4D affect recognition. 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2021), 1–5. https://doi.org/10.1109/FG52635.2021.9666942

    Rinnakkaistallennettu versio / Self-archived version

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3305-5
ISBN Print: 978-952-62-3304-8
Issue: 828
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Funding: I would like to pay my thanks to the Institute for Computational and Experimental Research in Mathematics (ICERM) at Brown University, USA for offering me a fully funded research semester. Additionally, I equally appreciate the support and amazing work environment offered by the University College London (UCL), UK for my research placement. Moreover, the financial and computational support from the University of Oulu, CMVS, InfoTech, Academy of Finland, ICERM, CSC - IT Center for Science, Finland, Tauno Tönning Foundation, and Riitta and Jorma J. Takanen Foundation are greatly acknowledged.
Copyright information: © University of Oulu, 2022. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.