University of Oulu

Uncertainty of classification on limited data

Saved in:
Author: Alasalmi, Tuomo1,2
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 1.4 MB)
Persistent link: http://urn.fi/urn:isbn:9789526227115
Language: English
Published: Oulu : University of Oulu, 2020
Publish Date: 2020-09-08
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 18 September 2020, at 12 noon
Tutor: Professor Juha Röning
Professor Jaakko Suutala
Docent Heli Koskimäki
Reviewer: Professor James T. Kwok
Docent Charles Elkan
Opponent: Professor Henrik Boström
Description:

Abstract

It is common knowledge that even simple machine learning algorithms can improve in performance with large, good quality data sets. However, limited data sets, be it because of limited size or incomplete instances, are surprisingly common in many real-world modeling problems.

In addition to the overall classification accuracy of a model, it is often of interest to know the uncertainty of each individual prediction made by the model. Quantifying this uncertainty of classification models is discussed in this thesis from the perspective of limited data. When some feature values are missing, uncertainty regarding the classification result is increased, but this is not captured in the metrics that quantify uncertainty using traditional methods. To tackle this shortcoming, a method is presented that, in addition to making incomplete data sets usable for any classifier, makes it possible to quantify the uncertainty stemming from missing feature values. In addition, in the case of complete but limited sized data sets, the ability of several commonly used classifiers to produce reliable uncertainty, i.e. probability, estimates, is studied. Two algorithms are presented that can potentially improve probability estimate calibration when data set size is limited. It is shown that the traditional approach to calibration often fails on these limited sized data sets, but using these algorithms still allows improvement in classifier probability estimates with calibration.

To support the usefulness of the proposed methods and to answer the proposed research questions, main results from the original publications are presented in this compiling part of the thesis. Implications of the findings are discussed and conclusions drawn.

see all

Tiivistelmä

Yleisesti tiedetään, että yksinkertaistenkin koneoppimismenetelmien tuloksia saadaan parannettua, jos käytettävissä on paljon hyvälaatuista aineistoa. Vaillinaiset aineistot, joiden puutteet johtuvat aineiston vähäisestä määrästä tai puuttuvista arvoista, ovat kuitenkin varsin yleisiä.

Pelkän luokittelutarkkuuden lisäksi mallin yksittäisten ennusteiden epävarmuus on usein hyödyllistä tietoa. Tässä väitöskirjassa tarkastellaan luokittimien epävarmuuden määrittämistä silloin, kun saatavilla oleva aineisto on vaillinainen. Kun aineistosta puuttuu arvoja joistakin piirteistä, luokittelutulosten epävarmuus lisääntyy, mutta tämä lisääntynyt epävarmuus jää huomioimatta perinteisillä puuttuvien arvojen käsittelymenetelmillä. Asian korjaamiseksi tässä väitöskirjassa esitetään menetelmä, jolla puuttuvista arvoista johtuva epävarmuuden lisääntyminen voidaan huomioida. Lisäksi tämä menetelmä mahdollistaa minkä tahansa luokittimen käytön, vaikka luokitin ei muutoin tukisi puuttuvia arvoja sisältävien aineistojen käsittelyä. Tämän lisäksi väitöskirjassa käsitellään useiden yleisesti käytettyjen luokittimien kykyä tuottaa hyviä arvioita ennusteiden luotettavuudesta, eli todennäköisyysarvioita, kun käytettävissä oleva aineisto on pieni. Tässä väitöskirjassa esitetään kaksi algoritmia, joiden avulla voi olla mahdollista parantaa näiden todennäköisyysarvioiden kalibraatiota, vaikka käytettävissä oleva aineisto on pieni. Esitetyistä tuloksista ilmenee, että perinteinen tapa kalibrointiin ei pienillä aineistoilla onnistu, mutta esitettyjen algoritmien avulla kalibrointi tulee mahdolliseksi.

Alkuperäisten artikkeleiden tuloksia esitetään tässä kokoomaväitöskirjassa tukemaan esitettyjä väittämiä ja vastaamaan asetettuihin tutkimuskysymyksiin. Lopuksi pohditaan esitettyjen tulosten merkitystä ja vedetään johtopäätökset.

see all

Osajulkaisut / Original papers

Osajulkaisut eivät sisälly väitöskirjan elektroniseen versioon / Original papers are not included in the electronic version of the dissertation.

  1. Alasalmi, T., Koskimaki, H., Suutala, J., & Roning, J. (2015, December). Classification Uncertainty of Multiple Imputed Data. Classification Uncertainty of Multiple Imputed Data. 2015 IEEE Symposium Series on Computational Intelligence (SSCI). https://doi.org/10.1109/ssci.2015.32

  2. Alasalmi, T., Koskimäki, H., Suutala, J., & Röning, J. (2016). Instance Level Classification Confidence Estimation. In Distributed Computing and Artificial Intelligence, 13th International Conference (pp. 275–282). Springer International Publishing. https://doi.org/10.1007/978-3-319-40162-1_30

  3. Alasalmi, T., Koskimäki, H., Suutala, J., & Röning, J. (2018). Getting More Out of Small Data Sets - Improving the Calibration Performance of Isotonic Regression by Generating More Data. Proceedings of the 10th International Conference on Agents and Artificial Intelligence. https://doi.org/10.5220/0006576003790386

    Rinnakkaistallennettu versio / Self-archived version

  4. Tuomo, A., Suutala, J., Röning, J., & Koskimäki, H. (2020). Better Classifier Calibration for Small Datasets. ACM Transactions on Knowledge Discovery from Data, 14(3), 1–19. https://doi.org/10.1145/3385656

    Rinnakkaistallennettu versio / Self-archived version

  5. Alasalmi T., Suutala J., Koskimäki H., & Röning J. (2020). Better Multi-class Probability Estimates for Small Data Sets. Manuscript in preparation.

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-2711-5
ISBN Print: 978-952-62-2710-8
Issue: 759
Type of Publication: G5 Doctoral dissertation (articles)
Field of Science: 113 Computer and information sciences
Subjects:
Copyright information: © University of Oulu, 2020. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.