University of Oulu

Deep representation learning for automatic depression detection from facial expressions

Saved in:
Author: Carneiro de Melo, Wheidima1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 2.7 MB)
Persistent link: http://urn.fi/urn:isbn:9789526233673
Language: English
Published: Oulu : University of Oulu, 2022
Publish Date: 2022-08-05
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 12 August 2022, at 12 noon
Tutor: Associate Professor Miguel Bordallo López
Reviewer: Associate Professor Carlos Roberto del Blanco
Professor Alexandros Iosifidis
Opponent: Docent Heikki Huttunen
Description:

Abstract

Depression is a prevalent mental disorder that severely affects an individual’s quality of life. Traditional diagnostic methods rely on either clinician’s evaluation of symptoms reported by an individual or self-report instruments. These subjective assessments have resulted in difficulties to recognize depression. This scenario has motivated the development of automatic diagnostic systems to provide objective and reliable information about depressive states. Recently, a growing interest has been generated in developing such systems based on facial information since there exists evidence that facial expressions convey valuable information about depression.

This thesis proposes computational models to explore the correlations between facial expressions and depressive states. Such exploration is a challenging task because 1) the difference in facial expressions along different depression levels may be small and 2) the complexities involved in facial analysis. From this perspective, we investigate different deep learning techniques to effectively model facial expressions for automatic depression detection. Specifically, we design architectures that model the appearance and dynamics of facial videos. For that, we analyze structures that explore either a fixed or multiple spatiotemporal ranges. Our findings suggest that the use of a structure with multiscale feature extraction ability contributes to learning depression representation. We also demonstrate that depression distributions increase the robustness of depression estimations.

Another key challenge in this application is the scarcity of labelled data. This limitation leads to the need of efficient representation learning methods. To this end, we first develop a pooling method to encode facial dynamics into an image map, which may be explored by less complex deep models. In addition, we design an architecture to capture different facial expression variations by using a basic structure based on functions that explore features at multiple ranges without using trainable parameters. Finally, we develop an architecture to explore facial expressions related to depression and pain since depressed individuals may experience pain. To build this architecture, we use different strategies to efficiently extract multiscale features. Our experiments indicate that the proposed methods have the potential to generate discriminative representations.

see all

Tiivistelmä

Masennus on yleinen mielenterveyden häiriö, joka heikentää merkittävästi yksilön elämänlaatua. Perinteiset diagnostiset menetelmät nojaavat joko kliinikon arvioon oireista potilaan kertomuksen perusteella tai itsearvioihin. Subjektiivinen arviointi on johtanut vaikeuksiin tunnistaa masennusta. Tämä motivoi kehittämään automaattisia diagnostiikkajärjestelmiä tarjoamaan objektiivista ja luotettavaa tietoa masennustiloista. Viime aikoina kiinnostus hyödyntää kasvoista saatavaa informaatiota kyseisissä järjestelmissä on noussut, sillä on pystytty osoittamaan ilmeiden välittävän arvokasta tietoa masennuksesta.

Tässä väitöskirjassa esitetään laskennallisia malleja tutkimaan korrelaatiota ilmeiden ja masennustilojen välillä. Tehtävä on haastava, sillä: 1) ilmeiden ja masennuksen eri tasojen väliset erot saattavat olla pieniä ja 2) kasvoanalyysiin liittyy monimutkaisuuksia. Tästä näkökulmasta tutkitaan erilaisia syväoppimistekniikoita mallintamaan tehokkaasti ilmeitä masennuksen automaattisessa tunnistuksessa. Erityisesti suunnitellaan arkkitehtuureja, jotka mallintavat kasvoja ja niiden dynamiikkaa videoista. Tätä varten analysoidaan rakenteita, jotka tutkivat kiinteää spatiotemporaalista aluetta sekä spatiotemporaalista moniskaalainformaatiota. Havaintojen pohjalta spatiotemporaalisten moniskaalarakenteiden käyttö parantaa piirteiden irrotuskykyä masennuksen esitystavan oppimisessa. Masennusjakaumien antama lisä masennusestimaattien luotettavuudessa osoitetaan.

Toinen tärkeä sovellushaaste on luokitellun datan niukkuus, mistä seuraa tarve oppia tehokkaita esitystapoja. Tätä varten aluksi kehitetään yhdistämismenetelmä kasvojen dynamiikan koodaamiseksi kuvakartalle, jota voidaan tutkia laskennallisesti kevyillä syväoppimismenetelmillä. Lisäksi suunnitellaan arkkitehtuuri, joka rekisteröi eri ilmeiden vaihtelua. Perusteena ovat funktiot, jotka tutkivat piirteitä useilla arvoalueilla ilman opittavia parametreja. Lopuksi kehitetään arkkitehtuuri tutkimaan masennukseen ja kivun tunteeseen liittyviä ilmeitä, sillä masentuneet ihmiset saattavat kokea kipua. Arkkitehtuurin rakentamisessa käytetään erilaisia strategioita spatiotemporaalisten moniskaalapiirteiden irrottamiseen. Laajat kokeet osoittavat, että esitetyillä menetelmillä on potentiaalia luoda erottelukykyisiä esitystapoja.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. de Melo, W. C., Granger, E., & Hadid, A. (2019). Combining global and local convolutional 3D networks for detecting depression from facial expressions. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–8. https://doi.org/10.1109/FG.2019.8756568

    Rinnakkaistallennettu versio / Self-archived version

  2. de Melo, W. C., Granger, E., & Hadid, A. (2019). Depression detection based on deep distribution learning. 2019 IEEE International Conference on Image Processing (ICIP), 4544–4548. https://doi.org/10.1109/ICIP.2019.8803467

    Rinnakkaistallennettu versio / Self-archived version

  3. Carneiro de Melo, W., Granger, E., & Hadid, A. (2020). A deep multiscale spatiotemporal network for assessing depression from facial dynamics. IEEE Transactions on Affective Computing. Advance online publication. https://doi.org/10.1109/TAFFC.2020.3021755

    Rinnakkaistallennettu versio / Self-archived version

  4. Carneiro de Melo, W., Granger, E., & Lopez, M. B. (2020). Encoding temporal information for automatic depression recognition from facial analysis. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1080–1084. https://doi.org/10.1109/ICASSP40776.2020.9054375

    Rinnakkaistallennettu versio / Self-archived version

  5. Carneiro de Melo, W., Granger, E., & Bordallo Lopez, M. (2021). MDN: A deep maximization-differentiation network for spatio-temporal depression detection. IEEE Transactions on Affective Computing. Advance online publication. https://doi.org/10.1109/TAFFC.2021.3072579

    Rinnakkaistallennettu versio / Self-archived version

  6. de Melo, W. C., Granger, E., & Lopez, M. B. (2022). Facial expression analysis using decomposed multiscale spatiotemporal networks. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2203.11111

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3367-3
ISBN Print: 978-952-62-3366-6
Issue: 837
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Copyright information: © University of Oulu, 2022. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.