Machine learning for audio-visual kinship verification

Wu, Xiaoting

Machine learning for audio-visual kinship verification

Wu, Xiaoting (2022-10-14)

Avaa tiedosto

isbn978-952-62-3424-3.pdf (2.668Mt)

isbn978-952-62-3424-3_meta.xml (113.2Kt)

isbn978-952-62-3424-3_solr.xml (90.00Kt)

Lataukset:

Wu, Xiaoting

University of Oulu

14.10.2022

Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:9789526234243

Kuvaus

Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in Auditorium IT116, Linnanmaa, on 21 October 2022, at 12 noon

Tiivistelmä

Abstract

Human faces implicitly indicate the family linkage, showing the perceived facial resemblance in people who are biologically related. Psychological studies found that humans have the ability to discriminate the parent-child pairs from unrelated pairs, just by observing facial images. Inspired by this finding, automatic facial kinship verification has emerged in the field of computer vision and pattern recognition, and many advanced computational models have been developed to assess the facial similarity between kinship pairs. Compared to human perception ability, automatic kinship verification methods can effectively and objectively capture subtle kin similarities such as shape and color. While many efforts have been devoted to improving the verification performance from human faces, multimodal exploration of kinship verification has not been properly addressed. This thesis proposes, for the first time, the combination of human faces and voices to verify kinship, which is referred to as audio-visual kinship verification, establishing the first comprehensive audio-visual kinship datasets, which consist of multiple videos of kin-related people speaking to the camera. Extensive experiments on these newly collected datasets are conducted, detailing the comparative performance of both audio and visual modalities and their combination using novel deep-learning fusion methods. The experimental results indicate the effectiveness of the proposed methods and that audio (voice) information is complementary and useful for the kinship verification problem.

Tiivistelmä

Ihmiskasvot osoittavat implisiittisesti perhesidonnaisuuden, mikä osoittaa biologisesti sukua olevien ihmisten koettua kasvojen samankaltaisuutta. Psykologiset tutkimukset havaitsivat, että ihmisillä on kyky erottaa vanhempi-lapsi-parit toisistaan riippumattomista pareista pelkästään kasvojen kuvien avulla. Tämän löydön innoittamana automaattinen kasvojen sukulaisuuden todentaminen on syntynyt tietokonenäön ja hahmontunnistuksen alalla, ja monia kehittyneitä laskennallisia malleja on kehitetty arvioimaan kasvojen samankaltaisuutta sukulaisparien välillä. Verrattuna ihmisen havainnointikykyyn automaattiset sukulaisuuden todentamismenetelmät voivat tehokkaasti ja objektiivisesti havaita hienovaraisia sukulaisyhteyksiä, kuten kasvojen muotoa ja ihonväriä. Vaikka monia ponnisteluja on tehty pyrkimyksenä parantaa ihmiskasvojen todentamista, sukulaisuuden todentamisen multimodaalista tutkimista ei ole käsitelty kunnolla. Tässä opinnäytetyössä ehdotetaan ensimmäistä kertaa ihmiskasvojen ja äänen yhdistämistä sukulaisuuden todentamiseksi tavalla, jota kutsutaan audiovisuaaliseksi sukulaisuustodentamiseksi. Näin luodaan ensimmäiset kattavat audiovisuaaliset sukulaisuustietojoukot, jotka koostuvat useista videoista, joissa esiintyy kameralle puhuvia sukulaisia. Näillä äskettäin kerätyillä tietojoukoilla tehdään laajoja kokeita, joissa kuvataan yksityiskohtaisesti sekä ääni että visuaalisten modaliteettien vertailevaa suorituskykyä ja niiden yhdistelmää käyttämällä uusia syvän oppimisen fuusiomenetelmiä. Kokeelliset tulokset osoittavat ehdotettujen menetelmien tehokkuuden ja sen, että ääni- (ääni)informaatio on täydentävää ja hyödyllistä sukulaisuuden todentamisongelmassa.

Original papers

Original papers are not included in the electronic version of the dissertation.

Wu, X., Feng, X., Cao, X., Xu, X., Hu, D., Bordallo López, M., & Liu, L. (2022). Facial kinship verification: A comprehensive review and outlook. International Journal of Computer Vision, 130(6), 1494–1525. https://doi.org/10.1007/s11263-022-01605-9
Self-archived version
Wu, X., Boutellaa, E., Feng, X., & Hadid, A. (2016). Kinship verification from faces: Methods, databases and challenges. 2016 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), 1–6. https://doi.org/10.1109/ICSPCC.2016.7753700
Wu, X., Boutellaa, E., Bordallo López, M., Feng, X., & Hadid, A. (2016). On the usefulness of color for kinship verification from face images. 2016 IEEE International Workshop on Information Forensics and Security (WIFS), 1–6. https://doi.org/10.1109/WIFS.2016.7823901
Self-archived version
Wu, X., Feng, X., Boutellaa, E., & Hadid, A. (2018). Kinship verification using color features and extreme learning machine. 2018 IEEE 3rd International Conference on Signal and Image Processing (ICSIP), 187–191. https://doi.org/10.1109/SIPROCESS.2018.8600423
Self-archived version
Wu, X., Granger, E., Kinnunen, T. H., Feng, X., & Hadid, A. (2019). Audio-visual kinship verification in the wild. 2019 International Conference on Biometrics (ICB), 1–8. https://doi.org/10.1109/ICB45273.2019.8987241
Self-archived version
Wu, X., Feng, X., Zhang, X., Bordallo López, M., & Liu, Li. (2022). Audio-visual kinship verification: a new dataset and a unified adaptive adversarial multimodal learning approach. Manuscript submitted for publication.

Osajulkaisut

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon.

Wu, X., Feng, X., Cao, X., Xu, X., Hu, D., Bordallo López, M., & Liu, L. (2022). Facial kinship verification: A comprehensive review and outlook. International Journal of Computer Vision, 130(6), 1494–1525. https://doi.org/10.1007/s11263-022-01605-9
Rinnakkaistallennettu versio
Wu, X., Boutellaa, E., Feng, X., & Hadid, A. (2016). Kinship verification from faces: Methods, databases and challenges. 2016 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC), 1–6. https://doi.org/10.1109/ICSPCC.2016.7753700
Wu, X., Boutellaa, E., Bordallo López, M., Feng, X., & Hadid, A. (2016). On the usefulness of color for kinship verification from face images. 2016 IEEE International Workshop on Information Forensics and Security (WIFS), 1–6. https://doi.org/10.1109/WIFS.2016.7823901
Rinnakkaistallennettu versio
Wu, X., Feng, X., Boutellaa, E., & Hadid, A. (2018). Kinship verification using color features and extreme learning machine. 2018 IEEE 3rd International Conference on Signal and Image Processing (ICSIP), 187–191. https://doi.org/10.1109/SIPROCESS.2018.8600423
Rinnakkaistallennettu versio
Wu, X., Granger, E., Kinnunen, T. H., Feng, X., & Hadid, A. (2019). Audio-visual kinship verification in the wild. 2019 International Conference on Biometrics (ICB), 1–8. https://doi.org/10.1109/ICB45273.2019.8987241
Rinnakkaistallennettu versio
Wu, X., Feng, X., Zhang, X., Bordallo López, M., & Liu, Li. (2022). Audio-visual kinship verification: a new dataset and a unified adaptive adversarial multimodal learning approach. Manuscript submitted for publication.

Kokoelmat

Avoin saatavuus [31928]