Aikasarjojen luokittelu koneoppimismenetelmiä käyttäen |
|
Author: | Hautamäki, Tuomas1 |
Organizations: |
1University of Oulu, Faculty of Science, Mathematics |
Format: | ebook |
Version: | published version |
Access: | open |
Online Access: | PDF Full Text (PDF, 0.9 MB) |
Pages: | 51 |
Persistent link: | http://urn.fi/URN:NBN:fi:oulu-202305312058 |
Language: | Finnish |
Published: |
Oulu : T. Hautamäki,
2023
|
Publish Date: | 2023-06-01 |
Thesis type: | Master's thesis |
Tutor: |
Sillanpää, Mikko |
Reviewer: |
Laitinen, Erkki Sillanpää, Mikko |
Description: |
Tiivistelmä Tässä tutkielmassa perehdytään aikasarjojen luokitteluun koneoppimismenetelmiä käyttäen. Menetelmiksi valikoitui K-lähinaapurimenetelmä, jonka etäisyysmittoina käytetään euklidista etäisyyttä, dynaamista aikavääristymää ja dynaamisen aikavääristymän derivaatallista sekä painotettua versiota, sekä aikasarjametsä, joka pohjautuu satunnaismetsään. Lisäksi tutkitaan, onko aineiston muuntamisella shapelet-muunnoksella vaikutusta luokittelun tarkkuuteen, kun luokittelijana käytetään satunnaismetsää. K-lähinaapurimenetelmää, jonka etäisyysmittana käytetään dynaamista aikavääristymää, pidetään aikasarjojen luokittelussa oletusmenetelmänä, johon muita menetelmiä verrataan. Satunnaismetsä on puolestaan suosittu ja useimmiten hyvin toimiva menetelmä muiden kuin aikasarja-aineistojen luokittelussa, joten nämä kaksi menetelmää valittiin tutkielmaan näillä perusteilla. Aineiston esikäsittelyllä sekä erilaisilla muunnoksilla on vaikutusta luokittelijoiden toimintaan, joten shapelet-muunnos valittiin tutkielmaan edustamaan tätä osaa aikasarjojen luokittelusta. Käytännön luokittelutestien aineistona tutkielmassa käytettiin Iso-Britanniassa kerättyä sähkölaitteiden sähkönkulutuksesta koottua aikasarja-aineistoa, joka sisältää seitsemän erilaisen kodinkoneen sähkönkulutuksesta muodostettuja tasamittaisia, 96 havaintoa sisältäviä aikasarjoja. Aineiston valintakriteereinä olivat riittävän suuri koko, jotta koneoppimismenetelmien malleilla on riittävästi opetusmateriaalia, moniluokkaisuus sekä aikasarjojen kohtuullinen pituus. Parhaiten toiminut menetelmä oli shapelet-muunnos, jonka kanssa käytettiin satunnaismetsäluokittelijaa. Menetelmän normaali tarkkuus oli noin 73 prosenttia ja tasapainotettu tarkkuus noin 63 prosenttia. Aikasarjametsän molemmat tarkkuudet olivat noin 4 prosenttiyksikköä matalammat kuin shapelet-muunnoksen avulla saavutetut, mutta aikasarjametsä oli ajallisesti tehokkain menetelmä. Mallin sovitus opetusaineistoon ja testiaineiston luokittelu kesti yhteensä vain noin 30 sekuntia. Shapelet-muunnoksen sovittaminen kesti nopeimmillaankin noin 50 minuuttia, ja parhaiten toimineen muunnoksen sovittaminen vaati melkein vuorokauden. K-lähinaapurimenetelmän tarkkuudet jäivät heikoimmaksi, ja luokitteluun kuluneet ajat olivat euklidisen etäisyyden vajaasta minuutista painotetun dynaamisen aikavääristymän 76 minuuttiin. see all
|
Subjects: | |
Copyright information: |
© Tuomas Hautamäki, 2023. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. |