Deep representation learning for automatic depression detection from facial expressions

Carneiro de Melo, Wheidima

Deep representation learning for automatic depression detection from facial expressions

Carneiro de Melo, Wheidima (2022-08-05)

Avaa tiedosto

isbn978-952-62-3367-3.pdf (2.692Mt)

isbn978-952-62-3367-3_meta.xml (112.9Kt)

isbn978-952-62-3367-3_solr.xml (102.8Kt)

Lataukset:

Carneiro de Melo, Wheidima

University of Oulu

05.08.2022

Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526233673

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 12 August 2022, at 12 noon

Tiivistelmä

Abstract

Depression is a prevalent mental disorder that severely affects an individual’s quality of life. Traditional diagnostic methods rely on either clinician’s evaluation of symptoms reported by an individual or self-report instruments. These subjective assessments have resulted in difficulties to recognize depression. This scenario has motivated the development of automatic diagnostic systems to provide objective and reliable information about depressive states. Recently, a growing interest has been generated in developing such systems based on facial information since there exists evidence that facial expressions convey valuable information about depression.

This thesis proposes computational models to explore the correlations between facial expressions and depressive states. Such exploration is a challenging task because 1) the difference in facial expressions along different depression levels may be small and 2) the complexities involved in facial analysis. From this perspective, we investigate different deep learning techniques to effectively model facial expressions for automatic depression detection. Specifically, we design architectures that model the appearance and dynamics of facial videos. For that, we analyze structures that explore either a fixed or multiple spatiotemporal ranges. Our findings suggest that the use of a structure with multiscale feature extraction ability contributes to learning depression representation. We also demonstrate that depression distributions increase the robustness of depression estimations.

Another key challenge in this application is the scarcity of labelled data. This limitation leads to the need of efficient representation learning methods. To this end, we first develop a pooling method to encode facial dynamics into an image map, which may be explored by less complex deep models. In addition, we design an architecture to capture different facial expression variations by using a basic structure based on functions that explore features at multiple ranges without using trainable parameters. Finally, we develop an architecture to explore facial expressions related to depression and pain since depressed individuals may experience pain. To build this architecture, we use different strategies to efficiently extract multiscale features. Our experiments indicate that the proposed methods have the potential to generate discriminative representations.

Tiivistelmä

Masennus on yleinen mielenterveyden häiriö, joka heikentää merkittävästi yksilön elämänlaatua. Perinteiset diagnostiset menetelmät nojaavat joko kliinikon arvioon oireista potilaan kertomuksen perusteella tai itsearvioihin. Subjektiivinen arviointi on johtanut vaikeuksiin tunnistaa masennusta. Tämä motivoi kehittämään automaattisia diagnostiikkajärjestelmiä tarjoamaan objektiivista ja luotettavaa tietoa masennustiloista. Viime aikoina kiinnostus hyödyntää kasvoista saatavaa informaatiota kyseisissä järjestelmissä on noussut, sillä on pystytty osoittamaan ilmeiden välittävän arvokasta tietoa masennuksesta.

Tässä väitöskirjassa esitetään laskennallisia malleja tutkimaan korrelaatiota ilmeiden ja masennustilojen välillä. Tehtävä on haastava, sillä: 1) ilmeiden ja masennuksen eri tasojen väliset erot saattavat olla pieniä ja 2) kasvoanalyysiin liittyy monimutkaisuuksia. Tästä näkökulmasta tutkitaan erilaisia syväoppimistekniikoita mallintamaan tehokkaasti ilmeitä masennuksen automaattisessa tunnistuksessa. Erityisesti suunnitellaan arkkitehtuureja, jotka mallintavat kasvoja ja niiden dynamiikkaa videoista. Tätä varten analysoidaan rakenteita, jotka tutkivat kiinteää spatiotemporaalista aluetta sekä spatiotemporaalista moniskaalainformaatiota. Havaintojen pohjalta spatiotemporaalisten moniskaalarakenteiden käyttö parantaa piirteiden irrotuskykyä masennuksen esitystavan oppimisessa. Masennusjakaumien antama lisä masennusestimaattien luotettavuudessa osoitetaan.

Toinen tärkeä sovellushaaste on luokitellun datan niukkuus, mistä seuraa tarve oppia tehokkaita esitystapoja. Tätä varten aluksi kehitetään yhdistämismenetelmä kasvojen dynamiikan koodaamiseksi kuvakartalle, jota voidaan tutkia laskennallisesti kevyillä syväoppimismenetelmillä. Lisäksi suunnitellaan arkkitehtuuri, joka rekisteröi eri ilmeiden vaihtelua. Perusteena ovat funktiot, jotka tutkivat piirteitä useilla arvoalueilla ilman opittavia parametreja. Lopuksi kehitetään arkkitehtuuri tutkimaan masennukseen ja kivun tunteeseen liittyviä ilmeitä, sillä masentuneet ihmiset saattavat kokea kipua. Arkkitehtuurin rakentamisessa käytetään erilaisia strategioita spatiotemporaalisten moniskaalapiirteiden irrottamiseen. Laajat kokeet osoittavat, että esitetyillä menetelmillä on potentiaalia luoda erottelukykyisiä esitystapoja.

Original papers

Original papers are not included in the electronic version of the dissertation.

de Melo, W. C., Granger, E., & Hadid, A. (2019). Combining global and local convolutional 3D networks for detecting depression from facial expressions. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–8. https://doi.org/10.1109/FG.2019.8756568
Self-archived version
de Melo, W. C., Granger, E., & Hadid, A. (2019). Depression detection based on deep distribution learning. 2019 IEEE International Conference on Image Processing (ICIP), 4544–4548. https://doi.org/10.1109/ICIP.2019.8803467
Self-archived version
Carneiro de Melo, W., Granger, E., & Hadid, A. (2020). A deep multiscale spatiotemporal network for assessing depression from facial dynamics. IEEE Transactions on Affective Computing. Advance online publication. https://doi.org/10.1109/TAFFC.2020.3021755
Self-archived version
Carneiro de Melo, W., Granger, E., & Lopez, M. B. (2020). Encoding temporal information for automatic depression recognition from facial analysis. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1080–1084. https://doi.org/10.1109/ICASSP40776.2020.9054375
Self-archived version
Carneiro de Melo, W., Granger, E., & Bordallo Lopez, M. (2021). MDN: A deep maximization-differentiation network for spatio-temporal depression detection. IEEE Transactions on Affective Computing. Advance online publication. https://doi.org/10.1109/TAFFC.2021.3072579
Self-archived version
de Melo, W. C., Granger, E., & Lopez, M. B. (2022). Facial expression analysis using decomposed multiscale spatiotemporal networks. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2203.11111

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

de Melo, W. C., Granger, E., & Hadid, A. (2019). Combining global and local convolutional 3D networks for detecting depression from facial expressions. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–8. https://doi.org/10.1109/FG.2019.8756568
Rinnakkaistallennettu versio
de Melo, W. C., Granger, E., & Hadid, A. (2019). Depression detection based on deep distribution learning. 2019 IEEE International Conference on Image Processing (ICIP), 4544–4548. https://doi.org/10.1109/ICIP.2019.8803467
Rinnakkaistallennettu versio
Carneiro de Melo, W., Granger, E., & Hadid, A. (2020). A deep multiscale spatiotemporal network for assessing depression from facial dynamics. IEEE Transactions on Affective Computing. Advance online publication. https://doi.org/10.1109/TAFFC.2020.3021755
Rinnakkaistallennettu versio
Carneiro de Melo, W., Granger, E., & Lopez, M. B. (2020). Encoding temporal information for automatic depression recognition from facial analysis. ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 1080–1084. https://doi.org/10.1109/ICASSP40776.2020.9054375
Rinnakkaistallennettu versio
Carneiro de Melo, W., Granger, E., & Bordallo Lopez, M. (2021). MDN: A deep maximization-differentiation network for spatio-temporal depression detection. IEEE Transactions on Affective Computing. Advance online publication. https://doi.org/10.1109/TAFFC.2021.3072579
Rinnakkaistallennettu versio
de Melo, W. C., Granger, E., & Lopez, M. B. (2022). Facial expression analysis using decomposed multiscale spatiotemporal networks. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2203.11111

Kokoelmat

Avoin saatavuus [31941]