Datan esikäsittely- ja visualisointityökalu
Multamäki, Markus (2020-09-03)
Multamäki, Markus
M. Multamäki
03.09.2020
© 2020 Markus Multamäki. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202009042905
https://urn.fi/URN:NBN:fi:oulu-202009042905
Tiivistelmä
Koneoppimismenetelmien tehokkaaksi hyödyntämiseksi on tärkeää, että käyttäjällä on tietoa datajoukosta ja sen rakenteista. Tämän takia tavallinen ensimmäinen askel uuden datan tapauksessa on turvautua erilaisiin visualisointimenetelmiin. Visualisoinnin tarkoituksena on löytää samankaltaisuussuhteita datasta ja muodostaa alustavaa käsitystä sen rakenteista. Kiinnostavaa on esimerkiksi tietää datan jakautumisesta erilaisiin ryhmiin.
Ennen visualisointia moniulotteinen data on kuitenkin saatava pudotettua kahteen tai kolmeen ulottuvuuteen, jotta ihminen voisi tehdä siitä havaintoja. Tähän vastataan dimensionaalisuuden vähentämismenetelmillä. Dimensionaalisuuden vähentämisellä on visualisoinnin lisäksi roolinsa koneoppimisessa myös piirteiden tehostamisessa.
Dimensionaalisuuden aiheuttamien ongelmien lisäksi useimmat koneoppimismenetelmät vaativat datan skaalausta tai normalisointia ennen niiden käyttöä. Skaalaus tai normalisointi on yleisesti tärkeää, sillä useassa tapauksessa datan piirteiden arvoalueet poikkeavat toisistaan huomattavasti.
Tässä kandidaatintyössä on perehdytty datan skaalauksiin ja normalisointeihin, sekä dimensionaalisuuden vähentämiseen erilaisilla menetelmillä. Lisäksi on tutkittu erilaisten data-aineistojen rakennetta käsittelemällä niitä edellä mainituin keinoin. Työn tarkoituksena on valaista data-aineistoon perehtymisen tärkeyttä ja esitellä menetelmiä, joilla koneoppimisen tuloksia voidaan parantaa.
Työssä on kehitetty Python-kielinen työkalu, jonka avulla datan käsittely ja visualisointi onnistuu helposti graafisen käyttöliittymän avulla. Se on ensisijaisesti tarkoitettu opetustarkoituksiin. For effective utilization of machine learning methods, it is important that the user has information about the dataset and its structures. Therefore, it is common to use visualization as the first step when dealing with new data. The purpose of visualization is to find similarities in data and to get insight about its structures. For example, it is interesting to find out whether the data is clustered.
Before visualization, the data needs to be transformed into two or three dimensions so that humans can make observations from it. This is the step where dimensionality reduction is used. In addition, dimensionality reduction plays role in machine learning when features are required to be more efficient.
On top of the problems caused by dimensionality, many machine learning methods require input data to be somehow scaled or normalized. Scaling or normalization is important because it is common that features in datasets are in different scales and distributions.
This bachelor’s thesis introduces and experiments with different methods for data scaling, normalization and dimensionality reduction. Various real-life datasets and their structures are explored with these methods. The purpose of this is to underline the importance of gaining familiarity with new datasets and to introduce some common methods that can be used to improve results of machine learning methods.
The concrete contribution of this thesis is a data analysis tool developed using Python programming language. The tool is primarily intended for educational purposes and it makes data handling and visualization easier with the use of a graphical user interface.
Ennen visualisointia moniulotteinen data on kuitenkin saatava pudotettua kahteen tai kolmeen ulottuvuuteen, jotta ihminen voisi tehdä siitä havaintoja. Tähän vastataan dimensionaalisuuden vähentämismenetelmillä. Dimensionaalisuuden vähentämisellä on visualisoinnin lisäksi roolinsa koneoppimisessa myös piirteiden tehostamisessa.
Dimensionaalisuuden aiheuttamien ongelmien lisäksi useimmat koneoppimismenetelmät vaativat datan skaalausta tai normalisointia ennen niiden käyttöä. Skaalaus tai normalisointi on yleisesti tärkeää, sillä useassa tapauksessa datan piirteiden arvoalueet poikkeavat toisistaan huomattavasti.
Tässä kandidaatintyössä on perehdytty datan skaalauksiin ja normalisointeihin, sekä dimensionaalisuuden vähentämiseen erilaisilla menetelmillä. Lisäksi on tutkittu erilaisten data-aineistojen rakennetta käsittelemällä niitä edellä mainituin keinoin. Työn tarkoituksena on valaista data-aineistoon perehtymisen tärkeyttä ja esitellä menetelmiä, joilla koneoppimisen tuloksia voidaan parantaa.
Työssä on kehitetty Python-kielinen työkalu, jonka avulla datan käsittely ja visualisointi onnistuu helposti graafisen käyttöliittymän avulla. Se on ensisijaisesti tarkoitettu opetustarkoituksiin.
Before visualization, the data needs to be transformed into two or three dimensions so that humans can make observations from it. This is the step where dimensionality reduction is used. In addition, dimensionality reduction plays role in machine learning when features are required to be more efficient.
On top of the problems caused by dimensionality, many machine learning methods require input data to be somehow scaled or normalized. Scaling or normalization is important because it is common that features in datasets are in different scales and distributions.
This bachelor’s thesis introduces and experiments with different methods for data scaling, normalization and dimensionality reduction. Various real-life datasets and their structures are explored with these methods. The purpose of this is to underline the importance of gaining familiarity with new datasets and to introduce some common methods that can be used to improve results of machine learning methods.
The concrete contribution of this thesis is a data analysis tool developed using Python programming language. The tool is primarily intended for educational purposes and it makes data handling and visualization easier with the use of a graphical user interface.
Kokoelmat
- Avoin saatavuus [31928]