Deep learning methods for analyzing vision-based emotion recognition from 3D/4D facial point clouds

Behzad, Muzammil

Deep learning methods for analyzing vision-based emotion recognition from 3D/4D facial point clouds

Behzad, Muzammil (2022-05-10)

Avaa tiedosto

isbn978-952-62-3305-5.pdf (3.112Mt)

isbn978-952-62-3305-5_meta.xml (113.2Kt)

isbn978-952-62-3305-5_solr.xml (99.54Kt)

Lataukset:

Behzad, Muzammil

University of Oulu

10.05.2022

Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526233055

Kuvaus

Academic dissertation to be presented, with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu, for public defence in the Oulun Puhelin auditorium (L5), Linnanmaa, on 17 May 2022, at 12 noon

Tiivistelmä

Abstract

Facial expressions serve as one of the most vital ways for humans to express and communicate human emotions effectively. Their role on giving emphasis or to clarify something, expressing internal feelings or intentions, and their importance in structuring critical aspects of human interactions are widely acknowledged and are, thus, significantly crucial. With the advent of recently trending state-of-the-art technologies such as, deep learning, the capability of systems for automatically recognizing and analyzing facial expressions from human faces have consequently proved to be exceptionally instrumental in understanding human behavior. This ignites the kick-start of recognition systems that can offer handsome number of applications in a wide range of areas containing, but not limited to, security, psychology, medicine and robotics.

To further improve the performance of such facial expression recognition (FER) systems, the use of 3D/4D facial point clouds has essentially expanded facial expression analysis by amplifying the strength to combat the inherent problems of processing 2D facial images, e.g., issues with out-of-plane motions, head pose variations, and illumination and lighting conditions. In this regard, the release of facial expression datasets containing 3D/4D face scans has allowed effective affect recognition by fetching facial deformation patterns both spatially as well as temporally. At the same time, such data brings along its own inevitable challenges, for instance, its complex data structure and limited size. Therefore, its analysis necessitates the use, extension and introduction of relatively promising approaches to develop successful recognition systems.

This thesis aims to develop and offer a number of deep learning methods to build robust models for analyzing emotion recognition from 3D/4D facial point clouds. Specifically, the thesis first focuses on collaborative emotion recognition where facial multi-views are used along with concentrating additionally on utilizing the facial landmarks. Secondly, it highlights the importance of sparsity-aware affect recognition and its role towards significant deep learning models. Thirdly, it presents a multi-view transformer architecture for learning spatial embeddings by exploiting correlations in the multi-view embeddings along with the formulation of a gradient-friendly loss function. Following on, a novel multi-view facial rendezvous model is discussed that learns to recognize expressions in a self-supervised fashion. Finally, the contributions of this thesis are summarized in the end, and some potential future directions of 3D/4D FER studies are discussed.

Tiivistelmä

Kasvojen ilmeet ovat ihmisille yksi tärkeimmistä tavoista ilmaista ja viestiä tunteita tehokkaasti. Ilmeiden rooli viestin korostamisessa tai selventämisessä, sisäisten tunteiden tai aikomusten ilmaisemisessa, sekä niiden merkitys inhimillisen vuorovaikutuksen kriittisten näkökohtien jäsentämisessä on laajalti tunnustettu, ja ilmeet ovat siksi ratkaisevan tärkeitä. Viime aikoina trendikkäiden huipputekniikoiden, kuten syväoppimisen, myötä ihmisten kasvojen ilmeitä automaattisesti tunnistavien ja analysoivien järjestelmien kyvyt ovat näin ollen osoittautuneet poikkeuksellisen tärkeiksi ihmisten käyttäytymisen ymmärtämisessä. Tämä kannustaa kehittämään tunnistusjärjestelmiä, jotka voivat tarjota suuren määrän sovelluksia monilla aloilla, joihin kuuluvat muun muassa turvallisuus, psykologia, lääketiede ja robotiikka.

Kyseisten ilmeentunnistusjärjestelmien suorituskyvyn parantamiseksi kasvojen 3D/4D-pistepilvien käyttö on laajentanut olennaisesti ilmeanalyysiä välttämällä 2D-kasvokuvien käsittelyyn olennaisesti kuuluvia ongelmia, kuten tason ulkopuolisia liikkeitä, pään asennon vaihteluita sekä valaistusolosuhteita. Tältä osin 3D/4D-kasvoskannauksia sisältävien datajoukkojen julkaiseminen on mahdollistanut tehokkaan affektin tunnistuksen analysoimalla kasvojen muodonmuutoksia sekä spatiaalisesti että ajallisesti. Samalla tällaiseen dataan liittyy väistämättä omat haasteensa, kuten monimutkainen tietorakenne ja rajallinen koko. Siksi sen analyysi edellyttää suhteellisen lupaavien lähestymistapojen käyttöä ja laajentamista onnistuneiden tunnistusjärjestelmien kehittämiseksi.

Tämän opinnäytetyön tavoitteena on kehittää ja tarjota useita syväoppimismenetelmiä, joiden avulla voidaan rakentaa robusteja malleja tunteiden tunnistamisen analysoimiseksi kasvojen 3D/4D-pistepilvestä. Opinnäytetyössä keskitytään erityisesti ensin yhteistyöllä tapahtuvaan tunteiden tunnistamiseen, jossa käytetään kasvojen moninäkymää ja lisäksi keskitytään kasvojen kiintopisteiden hyödyntämiseen. Toiseksi työssä korostetaan harvalukuisuuden huomioivaa affektin tunnistusta sekä sen roolia merkittävien syväoppimismallien kannalta. Kolmanneksi siinä esitellään moninäkymäinen muuntaja-arkkitehtuuri spatiaalisten upotusten oppimista varten hyödyntämällä korrelaatioita usean näkymän upotuksista sekä gradienttiystävällisen häviöfunktion muotoilua. Seuraavaksi esitellään uusi moninäkymäinen kasvojen kohtaamismalli, joka oppii tunnistamaan ilmeitä itseohjatusti. Lopuksi tiivistetään tämän opinnäytetyön tulokset ja käsitellään mahdollisia 3D/4D-ilmeentunnistusjärjestelmien tutkimuksen tulevaisuuden suuntauksia.

Original papers

Original papers are not included in the electronic version of the dissertation.

Behzad, M., Vo, N., Li, X., & Zhao, G. (2019). Automatic 4D Facial Expression
Recognition via Collaborative Cross-domain Dynamic Image Network. 30th British
Machine Vision Conference (BMVC) 2019. https://doi.org/10.48550/arXiv.1905.02319
Self-archived version
Behzad, M., Vo, N., Li, X., & Zhao, G. (2020). Landmarks-assisted collaborative deep framework for automatic 4D facial expression recognition. 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 1–5. https://doi.org/10.1109/FG47880.2020.00023
Self-archived version
Behzad, M., Vo, N., Li, X., & Zhao, G. (2021). Towards reading beyond faces for sparsity-aware 3D/4D affect recognition. Neurocomputing, 458, 297–307. https://doi.org/10.1016/j.neucom.2021.06.023
Self-archived version
Behzad, M., Li, X., & Zhao, G. (2021). Disentangling 3D/4D facial affect recognition with faster multi-view transformer. IEEE Signal Processing Letters, 28, 1913–1917. https://doi.org/10.1109/LSP.2021.3111576
Self-archived version
Behzad, M., & Zhao, G. (2021). Self-supervised learning via multi-view facial rendezvous for 3D/4D affect recognition. 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2021), 1–5. https://doi.org/10.1109/FG52635.2021.9666942
Self-archived version

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

Behzad, M., Vo, N., Li, X., & Zhao, G. (2019). Automatic 4D Facial Expression
Recognition via Collaborative Cross-domain Dynamic Image Network. 30th British
Machine Vision Conference (BMVC) 2019. https://doi.org/10.48550/arXiv.1905.02319
Rinnakkaistallennettu versio
Behzad, M., Vo, N., Li, X., & Zhao, G. (2020). Landmarks-assisted collaborative deep framework for automatic 4D facial expression recognition. 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), 1–5. https://doi.org/10.1109/FG47880.2020.00023
Rinnakkaistallennettu versio
Behzad, M., Vo, N., Li, X., & Zhao, G. (2021). Towards reading beyond faces for sparsity-aware 3D/4D affect recognition. Neurocomputing, 458, 297–307. https://doi.org/10.1016/j.neucom.2021.06.023
Rinnakkaistallennettu versio
Behzad, M., Li, X., & Zhao, G. (2021). Disentangling 3D/4D facial affect recognition with faster multi-view transformer. IEEE Signal Processing Letters, 28, 1913–1917. https://doi.org/10.1109/LSP.2021.3111576
Rinnakkaistallennettu versio
Behzad, M., & Zhao, G. (2021). Self-supervised learning via multi-view facial rendezvous for 3D/4D affect recognition. 16th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2021), 1–5. https://doi.org/10.1109/FG52635.2021.9666942
Rinnakkaistallennettu versio

Kokoelmat

Avoin saatavuus [32009]