University of Oulu

Video representation and deep learning techniques for face presentation attack detection

Saved in:
Author: Muhammad, Usman1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 2.7 MB)
Persistent link: http://urn.fi/urn:isbn:9789526237480
Language: English
Published: Oulu : University of Oulu, 2023
Publish Date: 2023-08-04
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 11 August 2023, at 2 p.m.
Tutor: Associate Professor Mourad Oussalah
Reviewer: Professor PC Yuen
Professor Florent Retraint
Opponent: Professor Moncef Gabbouj
Description:

Abstract

Facial recognition technology has been rapidly employed in a wide range of security applications such as airport passenger screening, mobile phones, banking, and law enforcement surveillance. Unfortunately, recent studies show that face recognition systems can be vulnerable to spoofing, known as a presentation attack. For instance, false facial verification by using a photo, a silicone mask, a replay of video, or even a 3D mask to fraudulently access the biometric system. In recent years there has been a considerable effort to develop software or hardware-based methods but their performances degrade drastically under real-world variations (such as lighting conditions, variations in illumination, user demographics, and input cameras).

This thesis pays attention to the very latest developments in face anti-spoofing methods. Specifically, we propose video representation and deep learning techniques to explore spatial and temporal information between bona fide and attack videos. Such exploration is a challenging task because 1) both real and fake videos contain spatiotemporal information and 2) the challenge posed by data labeling. From this perspective, we aim to investigate feature fusion methods to calculate feature importance because the better a model’s features are, the more accurate it is. Our findings suggest that hybrid deep learning provides stronger discrimination ability than single-model deep features. Moreover, a mechanism called sample learning for feature augmentation is presented. We show that the direct integration of convolutional features into a recurrent neural network can cause the risk of interference information (e.g., mutual exclusion and redundancy), which can limit the performance of PAD.

Another key challenge is to provide powerful deep feature learning without depending on human-labeled data. This demands the research community to put more focus on the development of robust face PAD countermeasures. To this end, we develop two countermeasures under the framework of self-supervised learning and alleviate the annotation bottleneck where the models get supervision from the data itself. Finally, the generalization ability is taken into account where the proposed method based on global motion encodes complex patterns from PAD videos to obtain discriminative representations.

see all

Tiivistelmä

Kasvontunnistusteknologia on otettu käyttöön laajasti eri turvallisuussovelluksissa kuten lentokentillä, puhelimissa, pankeissa ja valvontaan viranomaisten toimesta. Valitettavasti viimeaikaiset tutkimukset ovat näyttäneet kasvontunnistusjärjestelmien olevan haavoittuvaisia hyökkäyksille. Esimerkkejä hyökkäyksistä ovat väärä kasvojen varmistus käyttäen kuvaa, silikoonimaskia, videota tai jopa 3-ulotteista maskia vilpilliseen varmistukseen biometriselta järjestelmältä. Viime vuosina on kehitetty huomattavalla vaivannäöllä sekä ohjelmisto- että laitteistopohjaisia ratkaisuja, mutta niiden suorituskyvyt heikkenevät huomattavasti käytännön tilanteissa (kuten vaihteleva valaistus, käyttäjä demografia ja käytetyt kamerat).

Tämä väitöskirja käyttää hyväkseen viimeisimpiä kehityksiä kasvontunnistusjärjestelmän huijauksen torjumiseen. Erityisesti keskitytään esitettyyn videon piirre- ja syväoppimismenetelmiin, joilla voidaan selvittää sekä spatiaalista että temporaalista informaatiota oikeiden videoiden ja hyökkäysvideoiden välillä. Kyseinen selvitys on kuitenkin vaikeaa sillä 1) molemmat, oikeat videot ja hyökkäysvideot sisältävät spatiotemporaalista tietoa ja 2) datan luokittelu on haastavaa. Tämä perspektiivi ottaen huomioon tutkitaan piirreyhdistystekniikoita piirteiden tärkeyden laskemiseen, sillä mitä paremmat mallin piirteet ovat, sitä tarkempi se on. Tulokset osoittavat, että hybridi syväoppiminen tarjoaa vahvemman erottelukyvyn kuin yksittäisen syvämallin piirteet. Sen lisäksi esitetään mekanismi piirteiden augmentointiin käyttäen näytteiden oppimista. Näytetään, että konvoluutiopiirteiden suora integraatio rekursiiviseen neuroverkkoon voi luoda interferenssiä (esim. molemminpuolinen poissulku ja redundanssi), joka rajoittaa menetelmän tehokkuutta.

Toinen suuri ongelma on syväoppimismallien kehittäminen ilman ihmisten luokiteltua dataa. Tämä vaatii tutkimusyhteisöltä erityistä huomiota robustien kasvontunnistusjärjestelmän huijaamisen havaitsemisen tekniikoiden kehitystä. Kaksi tekniikkaa kehitetään vähentääkseen riippuvuutta luokitellusta datasta käyttäen itseohjattua oppimista, jossa mallit saavat ohjaussignaalit puhtaasti datasta. Lopuksi mallien generalisaatio otetaan huomioon esitetyssä mallissa, jossa globaali liike koodaa komplekseja havaintoja videoista, jotta saadaan mahdollisimman eroavaisia piirteitä.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. Muhammad, U., & Hadid, A. (2019). Face anti-spoofing using hybrid residual learning framework. In 2019 International Conference on Biometrics (ICB), 8987283. https://doi.org/10.1109/ICB45273.2019.8987283

    Rinnakkaistallennettu versio / Self-archived version

  2. Muhammad, U., Holmberg, T., Carneiro de Melo, W., & Hadid, A. (2019). Face anti-spoofing via sample learning based recurrent neural network (RNN). In The British Machine Vision Conference 2019 (BMVC), 1-12.

    Rinnakkaistallennettu versio / Self-archived version

  3. Muhammad, U., Yu, Z., & Komulainen, J. (2022). Self-supervised 2D face presentation attack detection via temporal sequence sampling. Pattern Recognition Letters, 156, 15–22. https://doi.org/10.1016/j.patrec.2022.03.001

    Rinnakkaistallennettu versio / Self-archived version

  4. Muhammad, U., & Oussalah, M. (2023). Self-supervised face presentation attack detection with dynamic grayscale snippets. In 2023 IEEE 17th International Conference on Automatic Face and Gesture Recognition (FG), 1–6. https://doi.org/10.1109/FG57933.2023.10042547

    Rinnakkaistallennettu versio / Self-archived version

  5. Muhammad, U., Zhang, J., Liu, L., & Oussalah, M. (2022). An adaptive spatio-temporal global sampling for presentation attack detection. IEEE Transactions on Circuits and Systems II: Express Briefs. Advance online publication. https://doi.org/10.1109/TCSII.2022.3169435

    Rinnakkaistallennettu versio / Self-archived version

  6. Muhammad, U., & Oussalah, M. (2023). Face anti‐spoofing from the perspective of data sampling. Electronics Letters, 59(1), e12692. https://doi.org/10.1049/ell2.12692

    Rinnakkaistallennettu versio / Self-archived version

  7. Muhammad, U., Beddiar, D. R., & Oussalah, M. (2023). Domain generalization via ensemble stacking for face presentation attack detection. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2301.02145

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3748-0
ISBN Print: 978-952-62-3747-3
Issue: 892
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Funding: The financial support provided by Walter Ahlström, the Riitta and Jorma J. Takanen Foundation, the Tauno Tönning, the Nokia foundation, the CMVS travel grant, and the UNIOGS travel grant is fully acknowledged.
Copyright information: © University of Oulu, 2023. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.