Video representation and deep learning techniques for face presentation attack detection

Muhammad, Usman

Video representation and deep learning techniques for face presentation attack detection

Muhammad, Usman (2023-08-04)

Avaa tiedosto

isbn978-952-62-3748-0.pdf (2.678Mt)

isbn978-952-62-3748-0_meta.xml (113.3Kt)

isbn978-952-62-3748-0_solr.xml (106.5Kt)

Lataukset:

Muhammad, Usman

University of Oulu

04.08.2023

Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526237480

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 11 August 2023, at 2 p.m.

Tiivistelmä

Abstract

Facial recognition technology has been rapidly employed in a wide range of security applications such as airport passenger screening, mobile phones, banking, and law enforcement surveillance. Unfortunately, recent studies show that face recognition systems can be vulnerable to spoofing, known as a presentation attack. For instance, false facial verification by using a photo, a silicone mask, a replay of video, or even a 3D mask to fraudulently access the biometric system. In recent years there has been a considerable effort to develop software or hardware-based methods but their performances degrade drastically under real-world variations (such as lighting conditions, variations in illumination, user demographics, and input cameras).

This thesis pays attention to the very latest developments in face anti-spoofing methods. Specifically, we propose video representation and deep learning techniques to explore spatial and temporal information between bona fide and attack videos. Such exploration is a challenging task because 1) both real and fake videos contain spatiotemporal information and 2) the challenge posed by data labeling. From this perspective, we aim to investigate feature fusion methods to calculate feature importance because the better a model’s features are, the more accurate it is. Our findings suggest that hybrid deep learning provides stronger discrimination ability than single-model deep features. Moreover, a mechanism called sample learning for feature augmentation is presented. We show that the direct integration of convolutional features into a recurrent neural network can cause the risk of interference information (e.g., mutual exclusion and redundancy), which can limit the performance of PAD.

Another key challenge is to provide powerful deep feature learning without depending on human-labeled data. This demands the research community to put more focus on the development of robust face PAD countermeasures. To this end, we develop two countermeasures under the framework of self-supervised learning and alleviate the annotation bottleneck where the models get supervision from the data itself. Finally, the generalization ability is taken into account where the proposed method based on global motion encodes complex patterns from PAD videos to obtain discriminative representations.

Tiivistelmä

Kasvontunnistusteknologia on otettu käyttöön laajasti eri turvallisuussovelluksissa kuten lentokentillä, puhelimissa, pankeissa ja valvontaan viranomaisten toimesta. Valitettavasti viimeaikaiset tutkimukset ovat näyttäneet kasvontunnistusjärjestelmien olevan haavoittuvaisia hyökkäyksille. Esimerkkejä hyökkäyksistä ovat väärä kasvojen varmistus käyttäen kuvaa, silikoonimaskia, videota tai jopa 3-ulotteista maskia vilpilliseen varmistukseen biometriselta järjestelmältä. Viime vuosina on kehitetty huomattavalla vaivannäöllä sekä ohjelmisto- että laitteistopohjaisia ratkaisuja, mutta niiden suorituskyvyt heikkenevät huomattavasti käytännön tilanteissa (kuten vaihteleva valaistus, käyttäjä demografia ja käytetyt kamerat).

Tämä väitöskirja käyttää hyväkseen viimeisimpiä kehityksiä kasvontunnistusjärjestelmän huijauksen torjumiseen. Erityisesti keskitytään esitettyyn videon piirre- ja syväoppimismenetelmiin, joilla voidaan selvittää sekä spatiaalista että temporaalista informaatiota oikeiden videoiden ja hyökkäysvideoiden välillä. Kyseinen selvitys on kuitenkin vaikeaa sillä 1) molemmat, oikeat videot ja hyökkäysvideot sisältävät spatiotemporaalista tietoa ja 2) datan luokittelu on haastavaa. Tämä perspektiivi ottaen huomioon tutkitaan piirreyhdistystekniikoita piirteiden tärkeyden laskemiseen, sillä mitä paremmat mallin piirteet ovat, sitä tarkempi se on. Tulokset osoittavat, että hybridi syväoppiminen tarjoaa vahvemman erottelukyvyn kuin yksittäisen syvämallin piirteet. Sen lisäksi esitetään mekanismi piirteiden augmentointiin käyttäen näytteiden oppimista. Näytetään, että konvoluutiopiirteiden suora integraatio rekursiiviseen neuroverkkoon voi luoda interferenssiä (esim. molemminpuolinen poissulku ja redundanssi), joka rajoittaa menetelmän tehokkuutta.

Toinen suuri ongelma on syväoppimismallien kehittäminen ilman ihmisten luokiteltua dataa. Tämä vaatii tutkimusyhteisöltä erityistä huomiota robustien kasvontunnistusjärjestelmän huijaamisen havaitsemisen tekniikoiden kehitystä. Kaksi tekniikkaa kehitetään vähentääkseen riippuvuutta luokitellusta datasta käyttäen itseohjattua oppimista, jossa mallit saavat ohjaussignaalit puhtaasti datasta. Lopuksi mallien generalisaatio otetaan huomioon esitetyssä mallissa, jossa globaali liike koodaa komplekseja havaintoja videoista, jotta saadaan mahdollisimman eroavaisia piirteitä.

Original papers

Original papers are not included in the electronic version of the dissertation.

Muhammad, U., & Hadid, A. (2019). Face anti-spoofing using hybrid residual learning framework. In 2019 International Conference on Biometrics (ICB), 8987283. https://doi.org/10.1109/ICB45273.2019.8987283
Self-archived version
Muhammad, U., Holmberg, T., Carneiro de Melo, W., & Hadid, A. (2019). Face anti-spoofing via sample learning based recurrent neural network (RNN). In The British Machine Vision Conference 2019 (BMVC), 1-12.
Self-archived version
Muhammad, U., Yu, Z., & Komulainen, J. (2022). Self-supervised 2D face presentation attack detection via temporal sequence sampling. Pattern Recognition Letters, 156, 15–22. https://doi.org/10.1016/j.patrec.2022.03.001
Self-archived version
Muhammad, U., & Oussalah, M. (2023). Self-supervised face presentation attack detection with dynamic grayscale snippets. In 2023 IEEE 17th International Conference on Automatic Face and Gesture Recognition (FG), 1–6. https://doi.org/10.1109/FG57933.2023.10042547
Self-archived version
Muhammad, U., Zhang, J., Liu, L., & Oussalah, M. (2022). An adaptive spatio-temporal global sampling for presentation attack detection. IEEE Transactions on Circuits and Systems II: Express Briefs. Advance online publication. https://doi.org/10.1109/TCSII.2022.3169435
Self-archived version
Muhammad, U., & Oussalah, M. (2023). Face anti‐spoofing from the perspective of data sampling. Electronics Letters, 59(1), e12692. https://doi.org/10.1049/ell2.12692
Self-archived version
Muhammad, U., Beddiar, D. R., & Oussalah, M. (2023). Domain generalization via ensemble stacking for face presentation attack detection. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2301.02145

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

Muhammad, U., & Hadid, A. (2019). Face anti-spoofing using hybrid residual learning framework. In 2019 International Conference on Biometrics (ICB), 8987283. https://doi.org/10.1109/ICB45273.2019.8987283
Rinnakkaistallennettu versio
Muhammad, U., Holmberg, T., Carneiro de Melo, W., & Hadid, A. (2019). Face anti-spoofing via sample learning based recurrent neural network (RNN). In The British Machine Vision Conference 2019 (BMVC), 1-12.
Rinnakkaistallennettu versio
Muhammad, U., Yu, Z., & Komulainen, J. (2022). Self-supervised 2D face presentation attack detection via temporal sequence sampling. Pattern Recognition Letters, 156, 15–22. https://doi.org/10.1016/j.patrec.2022.03.001
Rinnakkaistallennettu versio
Muhammad, U., & Oussalah, M. (2023). Self-supervised face presentation attack detection with dynamic grayscale snippets. In 2023 IEEE 17th International Conference on Automatic Face and Gesture Recognition (FG), 1–6. https://doi.org/10.1109/FG57933.2023.10042547
Rinnakkaistallennettu versio
Muhammad, U., Zhang, J., Liu, L., & Oussalah, M. (2022). An adaptive spatio-temporal global sampling for presentation attack detection. IEEE Transactions on Circuits and Systems II: Express Briefs. Advance online publication. https://doi.org/10.1109/TCSII.2022.3169435
Rinnakkaistallennettu versio
Muhammad, U., & Oussalah, M. (2023). Face anti‐spoofing from the perspective of data sampling. Electronics Letters, 59(1), e12692. https://doi.org/10.1049/ell2.12692
Rinnakkaistallennettu versio
Muhammad, U., Beddiar, D. R., & Oussalah, M. (2023). Domain generalization via ensemble stacking for face presentation attack detection. Manuscript submitted for publication. https://doi.org/10.48550/ARXIV.2301.02145

Kokoelmat

Avoin saatavuus [32150]