University of Oulu

Automatic neural network learning for human behavior understanding

Saved in:
Author: Peng, Wei1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 1.5 MB)
Persistent link: http://urn.fi/urn:isbn:9789526232591
Language: English
Published: Oulu : University of Oulu, 2022
Publish Date: 2022-04-07
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Training Committee of Technology and Natural Sciences of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 14 April 2022, at 12 noon
Tutor: Professor Guoying Zhao
Reviewer: Professor Matthew Turk
Professor Alex Kot
Opponent: Professor Albert Ali Salah
Description:

Abstract

Understanding human behavior is one of the most pivotal steps toward real-world Artificial Intelligence (AI) or even Artificial general intelligence (AGI). However, this task is challenging as human social attributes make human beings unique, leading to various and complicated behaviors. Moreover, real-life behavior data are normally high-dimensional with dynamic changes or even non-Euclidean structures, involving multiple modalities. Currently, one of the first alternatives to addressing these challenges is using deep neural networks or deep learning, which has brought revolutionary changes in data computation and computer sciences. Nevertheless, expert knowledge of both neural architecture design and human behavior analysis is expected more than ever before in this interdisciplinary research field. All these issues spur the current deep learning studies towards automatic deep neural network learning, which could automatically sketch a neural architecture for a given behavior analysis task. In line with this topic, this thesis explores the automatic neural network learning approach for human behavior understanding from the most representative behaviors, including human facial expression and actions, step by step. First, manually designed computational models are proposed for human facial expression and actions with dynamic information and graph structures. Based on this, to free humans from the exhausting process, more advanced methods, i.e., automatic neural network learning, are presented. Extensive experiments on benchmark facial expression datasets and action recognition datasets are conducted and comparison results prove the effectiveness of the proposed methods.

see all

Tiivistelmä

Ihmisten käyttäytymisen ymmärtäminen on yksi keskeisistä askeleista kohti todellista tekoälyä (AI) tai jopa yleistä tekoälyä (AGI). Tämä tehtävä on kuitenkin haastava, sillä ihmisen sosiaaliset ominaisuudet tekevät ihmisistä ainutlaatuisia, mikä johtaa erilaisiin ja monimutkaisiin käyttäytymismalleihin. Lisäksi tosielämän käyttäytymisdata on yleensä korkeaulotteinen, ja siinä on dynaamisia muutoksia tai jopa ei-euklidisia rakenteita, joihin liittyy useita modaliteetteja. Tällä hetkellä yksi ensimmäisistä vaihtoehdoista haasteisiin vastaamiseksi on syvän neuroverkon tai syväoppimisen käyttö, joka on tuonut mukanaan Vallankumoukselliset muutokset tietojen laskennassa ja tietojenkäsittelytieteissä. Asiantuntijatietoa sekä hermoarkkitehtuurin suunnittelusta että ihmisen käyttäytymisen analysoinnista odotetaan kuitenkin enemmän kuin koskaan aiemmin tällä tieteidenvälisellä tutkimusalueella. Kaikki nämä kysymykset kannustavat nykyisiä syväoppimistutkimuksia kohti automaattista syvän neuroverkon oppimista, joka voisi automaattisesti luonnostella hermoarkkitehtuurin tietylle käyttäytymisanalyysille Tämän aiheen mukaisesti opinnäytetyössä tutkitaan vaihe vaiheelta automaattista neuroverk- kooppimisen lähestymistapaa ihmisen käyttäytymisen ymmärtämiseen edustavimmista käyttäytymismalleista, mukaan lukien ihmisen ilmeet ja toiminnot. Ensin ehdotetaan manuaalisesti suunniteltuja laskennallisia malleja ihmisen ilmeille ja toiminnalle dynaamisilla tiedoilla ja graafirakenteilla, joiden pohjalta ihmisen uuvuttavasta edistymisestä vapauttamiseksi esitetään edistyneempiä menetelmiä, ie, automaattinen hermoverkkooppiminen. Kattavia kokeita benchmark ME-tietosarjoista ja toiminnantunnistustietosarjoista tehdään ja vertailutulokset osoittavat ehdotettujen menetelmien tehokkuuden.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. Peng, W., Hong, X., Xu, Y., & Zhao, G. (2019). A boost in revealing subtle facial expressions: A consolidated eulerian framework. 2019 14th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2019), 1–5. https://doi.org/10.1109/FG.2019.8756541

    Rinnakkaistallennettu versio / Self-archived version

  2. Peng, W., Hong, X., Zhao, G., & Cambria, E. (2021). Adaptive modality distillation for separable multimodal sentiment analysis. IEEE Intelligent Systems, 36(3), 82–89. https://doi.org/10.1109/MIS.2021.3057757

    Rinnakkaistallennettu versio / Self-archived version

  3. Xia, Z., Peng, W., Khor, H.-Q., Feng, X., & Zhao, G. (2020). Revealing the invisible with model and data shrinking for composite-database micro-expression recognition. IEEE Transactions on Image Processing, 29, 8590–8605. https://doi.org/10.1109/TIP.2020.3018222

    Rinnakkaistallennettu versio / Self-archived version

  4. Peng, W., Hong, X., & Zhao, G. (2019). Video action recognition via neural architecture searching. 2019 IEEE International Conference on Image Processing (ICIP), 11–15. https://doi.org/10.1109/ICIP.2019.8802919

    Rinnakkaistallennettu versio / Self-archived version

  5. Peng, W., Shi, J., & Zhao, G. (2021). Spatial temporal graph deconvolutional network for skeleton-based human action recognition. IEEE Signal Processing Letters, 28, 244–248. https://doi.org/10.1109/LSP.2021.3049691

    Rinnakkaistallennettu versio / Self-archived version

  6. Peng, W., Hong, X., & Zhao, G. (2021). Tripool: Graph triplet pooling for 3D skeleton-based action recognition. Pattern Recognition, 115, 107921. https://doi.org/10.1016/j.patcog.2021.107921

    Rinnakkaistallennettu versio / Self-archived version

  7. Peng, W., Shi, J., Varanka, T., & Zhao, G. (2021). Rethinking the ST-GCNs for 3D skeleton-based human action recognition. Neurocomputing, 454, 45–53. https://doi.org/10.1016/j.neucom.2021.05.004

    Rinnakkaistallennettu versio / Self-archived version

  8. Peng, W., Varanka, T., Mostafa, A., Shi, H., & Zhao, G. (2021). Hyperbolic deep neural networks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1–1. https://doi.org/10.1109/TPAMI.2021.3136921

    Rinnakkaistallennettu versio / Self-archived version

  9. Peng, W., Hong, X., Chen, H., & Zhao, G. (2020). Learning graph convolutional network for skeleton-based human action recognition by neural searching. Proceedings of the AAAI Conference on Artificial Intelligence, 34(03), 2669–2676. https://doi.org/10.1609/aaai.v34i03.5652

    Rinnakkaistallennettu versio / Self-archived version

  10. Peng, W., Shi, J., Xia, Z., & Zhao, G. (2020). Mix dimension in poincaré geometry for 3d skeleton-based action recognition. Proceedings of the 28th ACM International Conference on Multimedia, 1432–1440. https://doi.org/10.1145/3394171.3413910

    Rinnakkaistallennettu versio / Self-archived version

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3259-1
ISBN Print: 978-952-62-3258-4
Issue: 824
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Copyright information: © University of Oulu, 2022. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.