University of Oulu

From 3D sensing to dense prediction

Saved in:
Author: Huynh, Lam1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering, Center for Machine Vision and Signal Analysis (CMVS)
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 2.2 MB)
Persistent link: http://urn.fi/urn:isbn:9789526235165
Language: English
Published: Oulu : University of Oulu, 2022
Publish Date: 2022-12-02
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Programme Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in Auditorium IT116, Linnanmaa, on 9 December 2022, at 12 noon
Tutor: Professor Janne Heikkilä
Associate Professor Esa Rahtu
Reviewer: Professor Theo Gevers
Professor Takayuki Okatani
Opponent: Professor Michael Felsberg
Description:

Abstract

This thesis introduces novel learning-based approaches for improving 3D sensing and dense prediction. In recent years, deep neural networks (DNNs) have thrived on various vision tasks. Nonetheless, current developments indicate a compromise between accuracy, network size, and architectural engineering cost. This work proposes accurate and lightweight DNNs by exploiting prior knowledge, integrating self-attention, leveraging multi-scale 2D-3D representations fusion, and presenting efficient neural architecture search (NAS) strategies.

Recent monocular depth estimation approaches exhibit impressive results. However, these are often achieved with bulky network architectures employing up to hundreds of millions of parameters and using massive training data. This thesis introduces architectures that exploit geometric constraints and non-local self-attention mechanisms to improve performance. Moreover, the methods achieve state-of-the-art results while using at least ten times less parameters than competing approaches.

Depth completion aims to densify sparse input depth measurements. Best performing depth completion methods only work for cases with relatively high 3D point density. This work proposes a novel multi-scale framework that operates directly on both 2D and 3D feature spaces. Unlike previous approaches, the method performs well on extremely sparse and unevenly distributed 3D points. The proposed architecture is also very compact and works with an arbitrary source of the input 3D points.

Dense prediction resolves mapping problems at the pixel level, comprising many sub-tasks such as depth estimation, semantic segmentation, optical flow prediction, and image restoration. Existing methods usually use human-engineering DNNs or focus on a single sub-task. This thesis presents a novel approach utilizing NAS towards more general dense prediction problems that enable holistic scene understanding.

see all

Tiivistelmä

Tämä väitöskirja esittelee uusia koneoppimiseen perustuvia lähestymistapoja 3D-havainnoinnin ja tiheän ennustuksen parantamiseen. Viime vuosina syvät neuroverkot (DNN) ovat suoriutuneet hyvin erilaisissa konenäkötehtävissä. Siitä huolimatta nykyinen kehitys on johtanut kompromissiin tarkkuuden, verkon koon ja arkkitehtuuriin liittyvien suunnittelukustannusten välillä. Tässä työssä ehdotetaan tarkkoja ja kevyitä DNN:iä hyödyntämällä aiempaa tietoa, integroimalla ns. itsehuomio, käyttämällä monen skaalan 2D-3D-esitysten fuusiota ja esittämällä tehokkaita neuroarkkitehtuurihakustrategioita (NAS).

Viimeaikaisilla monokulaarisen syvyyden estimointimenetelmillä on saavutettu vaikuttavia tuloksia. Niihin on kuitenkin päästy usein suurilla verkkoarkkitehtuureilla, jotka käyttävät jopa satoja miljoonia parametreja ja massiivista määrää opetusdataa. Tämä väitöskirjatyö esittelee arkkitehtuureja, jotka hyödyntävät geometrisia rajoituksia ja ei-paikallisia itsehuomiomekanismeja suorituskyvyn parantamiseen. Lisäksi menetelmillä saavutetaan huippuluokan tuloksia käyttämällä vähintään kymmenen kertaa vähemmän parametreja kuin kilpailevilla lähestymistavoilla.

Syvyyden täydentämisen tarkoituksena on tihentää harvat syvyyssyötemittaukset. Parhaat syvyyden täydennysmenetelmät toimivat vain tapauksissa, joissa 3D-pistetiheys on suhteellisen korkea. Tämä työ esittää puitteet uudelle monen skaalan lähestymistavalle, joka toimii suoraan sekä 2D- että 3D-piirreavaruuksissa. Toisin kuin aikaisemmat lähestymistavat, menetelmä sopii hyvin äärimmäisen harvoille ja epätasaisesti jakautuneille 3D-pisteille. Ehdotettu arkkitehtuuri on myös erittäin kompakti ja toimii millä tahansa lähteellä tuotettujen 3D-syötepisteiden kanssa.

Tiheä ennustus ratkaisee pikselitasolla muunnosongelmia, jotka voivat muodostua monista osatehtävistä kuten syvyyden estimointi, semanttinen segmentointi, optisen vuon ennustaminen ja kuvan entistäminen. Nykyiset menetelmät käyttävät yleensä käsin suunniteltuja DNN:iä tai keskittyvät yhteen osatehtävään. Tämä väitöskirja esittelee uuenlaisen lähestymistavan hyödyntäen NAS:ia yleisempiin tiheisiin ennustusongelmiin, jotka mahdollistavat kokonaisvaltaisen näkymän ymmärtämisen.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.

  1. Huynh, L., Nguyen-Ha, P., Matas, J., Rahtu, E., & Heikkilä, J. (2020). Guiding monocular depth estimation using depth-attention volume. In A. Vedaldi, H. Bischof, T. Brox, & J.-M. Frahm (Eds.), Computer Vision – ECCV 2020, Lecture Notes in Computer Science, 12371 (pp. 581–597). Springer International Publishing. https://doi.org/10.1007/978-3-030-58574-7_35

    Rinnakkaistallennettu versio / Self-archived version

  2. Huynh, L., Pedone, M., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2021). Monocular depth estimation primed by salient point detection and normalized Hessian loss. 2021 International Conference on 3D Vision (3DV), 228–238. https://doi.org/10.1109/3DV53792.2021.00033

    Rinnakkaistallennettu versio / Self-archived version

  3. Huynh, L., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2021). Boosting monocular depth estimation with lightweight 3D point fusion. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 12747–12756. https://doi.org/10.1109/ICCV48922.2021.01253

    Rinnakkaistallennettu versio / Self-archived version

  4. Huynh, L., Nguyen, P., Matas, J., Rahtu, E., & Heikkilä, J. (2022). Lightweight monocular depth with a novel neural architecture search method. 2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 326–336. https://doi.org/10.1109/WACV51458.2022.00040

    Rinnakkaistallennettu versio / Self-archived version

  5. Huynh, L., Rahtu, E., Matas, J., & Heikkilä, J. (2022). Fast neural architecture search for lightweight dense prediction networks. Manuscript submitted for publication.

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-3516-5
ISBN Print: 978-952-62-3515-8
Issue: 858
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Funding: The work is part of the vision-based 3D perception for mixed reality applications project funded by Infotech Oulu and the Faculty of Information Technology and Electrical Engineering.
Copyright information: © University of Oulu, 2022. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.