LBP inspired efficient deep convolutional neural networks for visual representation learning |
|
Author: | Su, Zhuo1,2 |
Organizations: |
1University of Oulu Graduate School 2University of Oulu, Faculty of Information Technology and Electrical Engineering, Communications Engineering, CWC - Networks and Systems (CWC-NS) |
Format: | ebook |
Version: | published version |
Persistent link: | http://urn.fi/urn:isbn:9789526238098 |
Language: | English |
Published: |
Oulu : University of Oulu,
2023
|
Publish Date: | 2023-10-09 |
Thesis type: | Doctoral Dissertation |
Defence Note: | Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 16 October 2023, at 12 noon |
Tutor: |
Doctor Li Liu |
Reviewer: |
Professor Diana Marculescu Associate Professor Vishal M. Patel |
Opponent: |
Professor Karen Eguiazarian |
Description: |
AbstractIn the past decades, deep neural networks (DNNs) have revolutionized the computer vision community with their significant success in a wide range of computer vision tasks. Recent work has focused intensely on accuracy, which has resulted in a large number of huge and complex models designed in the community. However, with the ubiquitous use of edge devices like mobile phones, robots, and embedded systems, efficiency is gradually becoming more and more important for modern computer vision models. In computer vision, the quality of feature representation learning directly determines the quality of the whole machine learning model. The core challenge is to develop feature representation learning algorithms both effectively and efficiently. In this thesis, we put our efforts into the following matters to meet the challenge. On the one hand, we take the merit of traditional local binary pattern (LBP) descriptors of being computationally simple and efficient, and propose improvement in the learnability of LBP to extract more discriminative features. On the other hand, taking advantage of DNNs of high representational capacity, we target building compact DNN modules with less computational cost and model size. These two aspects are either separately developed or combined, and both are considered in this thesis. We start by extending traditional LBP to learnable descriptors, allowing the new descriptors to be learned from the data rather than handcrafted. Based on that, our model obtains a better trade-off than earlier LBP variants including distinctiveness, computational cost, and robustness. Next, we propose two novel types of convolutions that combine LBP and the convolution operation. The new convolutions enjoy the following benefits: capturing higher-order local differential information, being computationally efficient, and being able to be integrated well into existing DNNs. Then, we propose an efficient convolutional neural network (CNN) module that benefits from group convolution and dynamic execution. It shares the efficiency of the standard group convolution without losing representational ability. Finally, we develop a novel binary DNN module for robust point cloud analysis. The proposed point cloud models achieve both running efficiencies through network binarization and rotation invariance at the same time. see all
TiivistelmäViime vuosikymmeninä syvät neuroverkot ovat mullistaneet konenäköä suurella menestyksellä useissa eri tehtävissä. Viimeaikaisin tutkimus on keskittynyt menetelmien tarkkuuteen, mikä on johtanut suuren määrään valtavan kokoisia ja kompleksisia malleja. Kaikella läsnä olevalla tekniikalla, kuten puhelimilla, roboteilla ja sulautetuilla järjestelmillä konenäkö on kasvavassa määrin tärkeämpää ja täten mallien tehokkuus on myös tärkeämpää. Konenäössä piirteiden oppiminen määrittää suoraan koko konenäkö mallin laadun. Keskeinen haaste on kehittää piirteiden oppimisalgoritmeja tehokkaasti. Tässä väitöskirjassa esitetään seuraavia ratkaisuja mallien tehokkuuden ongelmaan. Ensiksi parannetaan laskennallisesti tehokasta ja yksinkertaista paikallista binäärikuva -menetelmää lisäämällä sen piirteiden määrää. Toiseksi hyödynnetään suurta neuroverkkojen piirteiden kapasiteettia kehittämällä laskennallisesti tehokkaampia ja pienempiä moduuleja. Kumpiakin tekniikkoja käytetään erikseen ja yhdessä tässä väitöskirjassa. Perinteisestä paikallisesta binäärikuvio -menetelmästä tehdään oppiva, jolloin uusia piirteitä voidaan oppia datasta, sen sijaan että ne määriteltäisiin algoritmillisesti. Uusi kehitetty oppiva versio on laskennallisesti tehokkaampi, robustimpi ja erottelevaisempi. Seuraavaksi esitellään tekniikka, joka yhdistää paikallisen binäärikuvion ja konvoluution. Kehitetty konvoluutio pystyy irrottamaan korkeamman asteen paikallista informaatiota, se on laskennallisesti tehokas ja se voidaan integroida olemassa oleviin neuroverkkoihin vaivattomasti. Sen jälkeen esitellään konvoluutioneuroverkon moduuli, joka käyttää hyväkseen ryhmäkonvoluutiota ja dynaamista suoritusta. Moduuli pitää normaalin konvoluution piirteidenirrotus kyvyn ollen kuitenkin yhtä tehokas ryhmäkonvoluution kanssa laskennallisesti. Lopuksi esitetään binäärineuroverkko moduuli robustiin pistepilven analyysiin. Kehitetty moduuli parantaa laskennallista tehokkuutta hyödyntämällä sekä binarisointia että pyörimis-invarianttia konvoluutiota. see all
Osajulkaisut / Original papersOsajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.
see all
|
Series: |
Acta Universitatis Ouluensis. C, Technica |
ISSN: | 0355-3213 |
ISSN-E: | 1796-2226 |
ISSN-L: | 0355-3213 |
ISBN: | 978-952-62-3809-8 |
ISBN Print: | 978-952-62-3808-1 |
Issue: | 901 |
Type of Publication: |
G5 Doctoral dissertation (articles) |
Field of Science: |
113 Computer and information sciences |
Subjects: |