Efficient spatiotemporal representation learning for pain intensity estimation from facial expressions

Tavakolian, Mohammad

Efficient spatiotemporal representation learning for pain intensity estimation from facial expressions

Tavakolian, Mohammad (2021-07-12)

Avaa tiedosto

isbn978-952-62-2972-0.pdf (15.16Mt)

isbn978-952-62-2972-0_meta.xml (113.3Kt)

isbn978-952-62-2972-0_solr.xml (104.9Kt)

Lataukset:

Tavakolian, Mohammad

University of Oulu

12.07.2021

Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526229720

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 19 July 2021, at 12 noon

Tiivistelmä

Abstract

Pain of any origin usually stems from actual or potential tissue damage in the human body. Hence, reliable pain assessment brings out appropriate treatment, which ameliorates the life quality. In clinical practice, pain is usually assessed via self-report. Due to the subjective and complex nature of pain, self-reporting of pain may not be a reliable assessment technique. Moreover, it cannot be used for uncommunicative people. Observer reports of pain are also subjected to biases and errors, and cannot be used for continuous monitoring purposes. Therefore, it is essential to develop automatic pain assessment methodologies to obtain objective information regarding the health condition of the patient. Hence, automatic pain assessment has received increasing attention in recent years.

Based on medical evidence, facial expressions are a valid indicator of pain. Hence, effective representations of facial expressions can contribute to automatic pain assessment. In this thesis, we focus on analyzing the facial expressions of pain to estimate pain intensity. Due to strong correlations between facial expressions, direct interpretation of the pain intensity levels is non-trivial. Subtle facial expression variations differentiate pain intensity levels from each other. Therefore, we propose spatiotemporal representation learning methods to encode different ranges of variations of the face. For this purpose, we design novel network architectures and develop learning strategies.

Data scarcity hampers effective development of deep learning in pain intensity estimation from facial expressions. To mitigate this issue, we propose data-efficient learning methods to improve the training and inference performance. In particular, we present a cross-architecture transfer learning to leverage the knowledge of pre-trained models for training other network architectures. To the best of our knowledge, we formulate pain intensity estimation as a self-supervised learning problem for the first time to exploit the abundant information of unlabeled data. To increase the computational efficiency, we also introduce a video distillation method to encode the appearance and dynamic of the facial video into one RBG image map. By conducting extensive experiments on benchmark pain datasets, our proposed methods achieve state-of-the-art performance in pain intensity estimation from the face.

Tiivistelmä

Mikä tahansa kipu on yleensä peräisin ihmiskehon todellisesta tai mahdollisesta kudosvauriosta. Luotettava kivun arviointi tuo esille sopivan hoidon, joka kohentaa elämän laatua. Kliinisessä käytännössä kipua arvioidaan yleensä itsearviointiraporteilla. Kivun subjektiivisen ja monimutkaisen luonteen vuoksi itsearviointi ei ole aina luotettavaa. Sitä ei voida myöskään käyttää kommunikaatioon kykenemättömien kanssa. Itsearviointiraportit ovat alttiita ennakkoasenteille ja virheille, eikä niitä voida käyttää jatkuvaan seurantaan. Objektiivisten potilaan terveydentilatiteojen saamiseksi on välttämätöntä kehittää automaattisia kivun arviointimenetelmiä ja tähän kiinnitetty kasvavaa huomiota viime vuosina.

Lääketieteellisen aineiston perusteella kasvonilmeet ovat käypä indikaattori kivusta. Kasvonilmeiden tehokkaat esitystavat voivat edistää automaattista kivun arviointia. Tässä väitöskirjassa keskitymme analysoimaan kivun aiheuttamia ilmeitä kivun voimakkuuden arvioimiseksi. Kivun voimakkuustasojen tulkinta ei ole helppoa kasvonilmeiden voimakkaiden korrelaatioiden ja samankaltaisuuksien vuoksi. Ilmeiden pienetkin vaihtelut erottavat kivun voimakkuusasteet toisistaan. Siksi ehdotamme spatiotemporaaliseen esitystapaan perustuvia oppimismenetelmiä koodaamaan kasvojen eriasteisia vaihteluita. Suunnittelemme uusia neuroverkkoarkkitehtuureja ja kehitämme oppimisstrategioita tähän tehtävään.

Opetusdatan niukkuus vaikeuttaa tehokasta syväoppimismenetelmien kehittämistä kivun voimakkuuden arvioimiseksi kasvonilmeistä. Tämän heikkouden lieventämiseksi ehdotamme datatehokkaita oppimismenetelmiä parantamaan opetusprosessin ja päättelyn suorituskykyä. Erityisesti esitämme arkkitehtuurien välisen siirto-oppimisratkaisun, joka mahdollistaa etukäteen opetettujen mallien käyttämisen muiden verkkoarkkitehtuurien opettamisessa. Parhaan tietomme mukaan tässä työssä muotoiltu kipuintensiteetin estimointi itseohjautuvaksi oppimisongelmaksi hyödyntää ensimmäistä kertaa leimaamattomien tietojen runsasta käyttöä. Laskennallisen tehokkuuden lisäämiseksi esittelemme menetelmän, joka koodaa kasvovideon ulkoasun ja dynamiikan yhdeksi RGB-kuvakartaksi. Osoitamme laajoilla kokeellisilla vertailuilla, käyttäen kipuun liittyviä testitietokantoja, että ehdottamamme menetelmät saavuttavat kärkitasoa edustavan suorituskyvyn kasvoista tehtävän kivun voimakkuuden arvioinnissa.

Original papers

Original papers are not included in the electronic version of the dissertation.

Tavakolian, M., & Hadid, A. (2018, October). Deep Binary Representation of Facial Expressions: A Novel Framework for Automatic Pain Intensity Recognition. 2018 25th IEEE International Conference on Image Processing (ICIP). https://doi.org/10.1109/icip.2018.8451681
Self-archived version
Tavakolian, M., & Hadid, A. (2018). Deep Discriminative Model for Video Classification. In Ferrari V., Hebert M., Sminchisescu C., & Weiss Y. (Eds.). Computer Vision – ECCV 2018. Lecture Notes in Computer Science 11208, 401–418. https://doi.org/10.1007/978-3-030-01225-0_24
Self-archived version
Tavakolian, M., & Hadid, A. (2018, August). Deep Spatiotemporal Representation of the Face for Automatic Pain Intensity Estimation. 2018 24th International Conference on Pattern Recognition (ICPR). https://doi.org/10.1109/icpr.2018.8545324
Self-archived version
Tavakolian, M., & Hadid, A. (2019). A Spatiotemporal Convolutional Neural Network for Automatic Pain Intensity Estimation from Facial Dynamics. International Journal of Computer Vision, 127(10), 1413–1425. https://doi.org/10.1007/s11263-019-01191-3
Self-archived version
Tavakolian, M., Tavakoli, H. R., & Hadid, A. (2019, October). AWSD: Adaptive Weighted Spatiotemporal Distillation for Video Representation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/iccv.2019.00811
Self-archived version
Tavakolian, M., Bordallo Lopez, M., & Liu, L. (2020). Self-supervised pain intensity estimation from facial videos via statistical spatiotemporal distillation. Pattern Recognition Letters, 140, 26–33. https://doi.org/10.1016/j.patrec.2020.09.012
Self-archived version

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

Tavakolian, M., & Hadid, A. (2018, October). Deep Binary Representation of Facial Expressions: A Novel Framework for Automatic Pain Intensity Recognition. 2018 25th IEEE International Conference on Image Processing (ICIP). https://doi.org/10.1109/icip.2018.8451681
Rinnakkaistallennettu versio
Tavakolian, M., & Hadid, A. (2018). Deep Discriminative Model for Video Classification. In Ferrari V., Hebert M., Sminchisescu C., & Weiss Y. (Eds.). Computer Vision – ECCV 2018. Lecture Notes in Computer Science 11208, 401–418. https://doi.org/10.1007/978-3-030-01225-0_24
Rinnakkaistallennettu versio
Tavakolian, M., & Hadid, A. (2018, August). Deep Spatiotemporal Representation of the Face for Automatic Pain Intensity Estimation. 2018 24th International Conference on Pattern Recognition (ICPR). https://doi.org/10.1109/icpr.2018.8545324
Rinnakkaistallennettu versio
Tavakolian, M., & Hadid, A. (2019). A Spatiotemporal Convolutional Neural Network for Automatic Pain Intensity Estimation from Facial Dynamics. International Journal of Computer Vision, 127(10), 1413–1425. https://doi.org/10.1007/s11263-019-01191-3
Rinnakkaistallennettu versio
Tavakolian, M., Tavakoli, H. R., & Hadid, A. (2019, October). AWSD: Adaptive Weighted Spatiotemporal Distillation for Video Representation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV). https://doi.org/10.1109/iccv.2019.00811
Rinnakkaistallennettu versio
Tavakolian, M., Bordallo Lopez, M., & Liu, L. (2020). Self-supervised pain intensity estimation from facial videos via statistical spatiotemporal distillation. Pattern Recognition Letters, 140, 26–33. https://doi.org/10.1016/j.patrec.2020.09.012
Rinnakkaistallennettu versio

Kokoelmat

Avoin saatavuus [31930]