University of Oulu

Image and video analysis by local descriptors and deformable image registration

Saved in:
Author: Guo, Yimo1,2,3
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Technology, Department of Computer Science and Engineering
3University of Oulu, Infotech Oulu
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 1.4 MB)
Persistent link: http://urn.fi/urn:isbn:9789526201412
Language: English
Published: Oulu : University of Oulu, 2013
Publish Date: 2013-06-03
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Training Committee of Technology and Natural Sciences of the University of Oulu for public defence in Auditorium TS101, Linnanmaa, on 13 June 2013, at 12 noon
Tutor: Professor Matti Pietikäinen
Docent Guoying Zhao
Reviewer: Professor Majid Mirmehdi
Docent Jorma Laaksonen
Description:

Abstract

Image description plays an important role in representing inherent properties of entities and scenes in static images. Within the last few decades, it has become a fundamental issue of many practical vision tasks, such as texture classification, face recognition, material categorization, and medical image processing. The study of static image analysis can also be extended to video analysis, such as dynamic texture recognition, classification and synthesis.

This thesis contributes to the research and development of image and video analysis from two aspects.

In the first part of this work, two image description methods are presented to provide discriminative representations for image classification. They are designed in unsupervised (i.e., class labels of texture images are not available) and supervised (i.e., class labels of texture images are available) manner, respectively. First, a supervised model is developed to learn discriminative local patterns, which formulates the image description as an integrated three-layered model to estimate an optimal pattern subset of interest by simultaneously considering the robustness, discriminative power and representation capability of features. Second, in the case that class labels of training images are unavailable, a linear configuration model is presented to describe microscopic image structures in an unsupervised manner, which is subsequently combined together with a local descriptor: local binary pattern (LBP). This description is theoretically verified to be rotation invariant and is able to provide a discriminative complement to the conventional LBPs.

In the second part of the thesis, based on static image description and deformable image registration, video analysis is studied for the applications of dynamic texture description, synthesis and recognition. First, a dynamic texture synthesis model is proposed to create a continuous and infinitely varying stream of images given a finite input video, which stitches video clips in the time domain by selecting proper matching frames and organizing them into a logical order. Second, a method for the application of facial expression recognition, which formulates the dynamic facial expression recognition problem as the construction of longitudinal atlases and groupwise image registration problem, is proposed.

see all

Tiivistelmä

Kuvan deskriptiolla on tärkeä rooli staattisissa kuvissa esiintyvien luontaisten kokonaisuuksien ja näkymien kuvaamisessa. Viime vuosikymmeninä se on tullut perustavaa laatua olevaksi ongelmaksi monissa käytännön konenäön tehtävissä, kuten tekstuurien luokittelu, kasvojen tunnistaminen, materiaalien luokittelu ja lääketieteellisten kuvien analysointi. Staattisen kuva-analyysin tutkimusala voidaan myös laajentaa videoanalyysiin, kuten dynaamisten tekstuurien tunnistukseen, luokitteluun ja synteesiin.

Tämä väitöskirjatutkimus myötävaikuttaa kuva- ja videoanalyysin tutkimukseen ja kehittymiseen kahdesta näkökulmasta.

Työn ensimmäisessä osassa esitetään kaksi kuvan deskriptiomenetelmää erottelukykyisten esitystapojen luomiseksi kuvien luokitteluun. Ne suunnitellaan ohjaamattomiksi (eli tekstuurikuvien luokkien leimoja ei ole käytettävissä) tai ohjatuiksi (eli luokkien leimat ovat saatavilla). Aluksi kehitetään ohjattu malli oppimaan erottelukykyisiä paikallisia kuvioita, mikä formuloi kuvan deskriptiomenetelmän integroituna kolmikerroksisena mallina - tavoitteena estimoida optimaalinen kiinnostavien kuvioiden alijoukko ottamalla samanaikaisesti huomioon piirteiden robustisuus, erottelukyky ja esityskapasiteetti. Seuraavaksi, sellaisia tapauksia varten, joissa luokkaleimoja ei ole saatavilla, esitetään työssä lineaarinen konfiguraatiomalli kuvaamaan kuvan mikroskooppisia rakenteita ohjaamattomalla tavalla. Tätä käytetään sitten yhdessä paikallisen kuvaajan, eli local binary pattern (LBP) –operaattorin kanssa. Teoreettisella tarkastelulla osoitetaan kehitetyn kuvaajan olevan rotaatioinvariantti ja kykenevän tuottamaan erottelukykyistä, täydentävää informaatiota perinteiselle LBP-menetelmälle.

Työn toisessa osassa tutkitaan videoanalyysiä, perustuen staattisen kuvan deskriptioon ja deformoituvaan kuvien rekisteröintiin – sovellusaloina dynaamisten tekstuurien kuvaaminen, synteesi ja tunnistaminen. Aluksi ehdotetaan sellainen malli dynaamisten tekstuurien synteesiin, joka luo jatkuvan ja äärettömän kuvien virran annetusta äärellisen mittaisesta videosta. Menetelmä liittää yhteen videon pätkiä aika-avaruudessa valitsemalla keskenään yhteensopivia kuvakehyksiä videosta ja järjestämällä ne loogiseen järjestykseen. Seuraavaksi työssä esitetään sellainen uusi menetelmä kasvojen ilmeiden tunnistukseen, joka formuloi dynaamisen kasvojen ilmeiden tunnistusongelman pitkittäissuuntaisten kartastojen rakentamisen ja ryhmäkohtaisen kuvien rekisteröinnin ongelmana.

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-0141-2
ISBN Print: 978-952-62-0140-5
Issue: 451
Subjects:
Copyright information: © University of Oulu, 2013. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.