Uncertainty of classification on limited data |
|
Author: | Alasalmi, Tuomo1,2 |
Organizations: |
1University of Oulu Graduate School 2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering |
Format: | ebook |
Version: | published version |
Access: | open |
Online Access: | PDF Full Text (PDF, 1.4 MB) |
Persistent link: | http://urn.fi/urn:isbn:9789526227115 |
Language: | English |
Published: |
Oulu : University of Oulu,
2020
|
Publish Date: | 2020-09-08 |
Thesis type: | Doctoral Dissertation |
Defence Note: | Academic dissertation to be presented with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 18 September 2020, at 12 noon |
Tutor: |
Professor Juha Röning Professor Jaakko Suutala Docent Heli Koskimäki |
Reviewer: |
Professor James T. Kwok Docent Charles Elkan |
Opponent: |
Professor Henrik Boström |
Description: |
AbstractIt is common knowledge that even simple machine learning algorithms can improve in performance with large, good quality data sets. However, limited data sets, be it because of limited size or incomplete instances, are surprisingly common in many real-world modeling problems. In addition to the overall classification accuracy of a model, it is often of interest to know the uncertainty of each individual prediction made by the model. Quantifying this uncertainty of classification models is discussed in this thesis from the perspective of limited data. When some feature values are missing, uncertainty regarding the classification result is increased, but this is not captured in the metrics that quantify uncertainty using traditional methods. To tackle this shortcoming, a method is presented that, in addition to making incomplete data sets usable for any classifier, makes it possible to quantify the uncertainty stemming from missing feature values. In addition, in the case of complete but limited sized data sets, the ability of several commonly used classifiers to produce reliable uncertainty, i.e. probability, estimates, is studied. Two algorithms are presented that can potentially improve probability estimate calibration when data set size is limited. It is shown that the traditional approach to calibration often fails on these limited sized data sets, but using these algorithms still allows improvement in classifier probability estimates with calibration. To support the usefulness of the proposed methods and to answer the proposed research questions, main results from the original publications are presented in this compiling part of the thesis. Implications of the findings are discussed and conclusions drawn. see all
TiivistelmäYleisesti tiedetään, että yksinkertaistenkin koneoppimismenetelmien tuloksia saadaan parannettua, jos käytettävissä on paljon hyvälaatuista aineistoa. Vaillinaiset aineistot, joiden puutteet johtuvat aineiston vähäisestä määrästä tai puuttuvista arvoista, ovat kuitenkin varsin yleisiä. Pelkän luokittelutarkkuuden lisäksi mallin yksittäisten ennusteiden epävarmuus on usein hyödyllistä tietoa. Tässä väitöskirjassa tarkastellaan luokittimien epävarmuuden määrittämistä silloin, kun saatavilla oleva aineisto on vaillinainen. Kun aineistosta puuttuu arvoja joistakin piirteistä, luokittelutulosten epävarmuus lisääntyy, mutta tämä lisääntynyt epävarmuus jää huomioimatta perinteisillä puuttuvien arvojen käsittelymenetelmillä. Asian korjaamiseksi tässä väitöskirjassa esitetään menetelmä, jolla puuttuvista arvoista johtuva epävarmuuden lisääntyminen voidaan huomioida. Lisäksi tämä menetelmä mahdollistaa minkä tahansa luokittimen käytön, vaikka luokitin ei muutoin tukisi puuttuvia arvoja sisältävien aineistojen käsittelyä. Tämän lisäksi väitöskirjassa käsitellään useiden yleisesti käytettyjen luokittimien kykyä tuottaa hyviä arvioita ennusteiden luotettavuudesta, eli todennäköisyysarvioita, kun käytettävissä oleva aineisto on pieni. Tässä väitöskirjassa esitetään kaksi algoritmia, joiden avulla voi olla mahdollista parantaa näiden todennäköisyysarvioiden kalibraatiota, vaikka käytettävissä oleva aineisto on pieni. Esitetyistä tuloksista ilmenee, että perinteinen tapa kalibrointiin ei pienillä aineistoilla onnistu, mutta esitettyjen algoritmien avulla kalibrointi tulee mahdolliseksi. Alkuperäisten artikkeleiden tuloksia esitetään tässä kokoomaväitöskirjassa tukemaan esitettyjä väittämiä ja vastaamaan asetettuihin tutkimuskysymyksiin. Lopuksi pohditaan esitettyjen tulosten merkitystä ja vedetään johtopäätökset. see all
Osajulkaisut / Original papersOsajulkaisut eivät sisälly väitöskirjan elektroniseen versioon / Original papers are not included in the electronic version of the dissertation.
see all
|
Series: |
Acta Universitatis Ouluensis. C, Technica |
ISSN: | 0355-3213 |
ISSN-E: | 1796-2226 |
ISSN-L: | 0355-3213 |
ISBN: | 978-952-62-2711-5 |
ISBN Print: | 978-952-62-2710-8 |
Issue: | 759 |
Type of Publication: |
G5 Doctoral dissertation (articles) |
Field of Science: |
113 Computer and information sciences |
Subjects: | |
Copyright information: |
© University of Oulu, 2020. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. |