Aikasarjojen luokittelu koneoppimismenetelmiä käyttäen
Hautamäki, Tuomas (2023-05-31)
Hautamäki, Tuomas
T. Hautamäki
31.05.2023
© 2023 Tuomas Hautamäki. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202305312058
https://urn.fi/URN:NBN:fi:oulu-202305312058
Tiivistelmä
Tässä tutkielmassa perehdytään aikasarjojen luokitteluun koneoppimismenetelmiä käyttäen. Menetelmiksi valikoitui K-lähinaapurimenetelmä, jonka etäisyysmittoina käytetään euklidista etäisyyttä, dynaamista aikavääristymää ja dynaamisen aikavääristymän derivaatallista sekä painotettua versiota, sekä aikasarjametsä, joka pohjautuu satunnaismetsään. Lisäksi tutkitaan, onko aineiston muuntamisella shapelet-muunnoksella vaikutusta luokittelun tarkkuuteen, kun luokittelijana käytetään satunnaismetsää.
K-lähinaapurimenetelmää, jonka etäisyysmittana käytetään dynaamista aikavääristymää, pidetään aikasarjojen luokittelussa oletusmenetelmänä, johon muita menetelmiä verrataan. Satunnaismetsä on puolestaan suosittu ja useimmiten hyvin toimiva menetelmä muiden kuin aikasarja-aineistojen luokittelussa, joten nämä kaksi menetelmää valittiin tutkielmaan näillä perusteilla. Aineiston esikäsittelyllä sekä erilaisilla muunnoksilla on vaikutusta luokittelijoiden toimintaan, joten shapelet-muunnos valittiin tutkielmaan edustamaan tätä osaa aikasarjojen luokittelusta.
Käytännön luokittelutestien aineistona tutkielmassa käytettiin Iso-Britanniassa kerättyä sähkölaitteiden sähkönkulutuksesta koottua aikasarja-aineistoa, joka sisältää seitsemän erilaisen kodinkoneen sähkönkulutuksesta muodostettuja tasamittaisia, 96 havaintoa sisältäviä aikasarjoja. Aineiston valintakriteereinä olivat riittävän suuri koko, jotta koneoppimismenetelmien malleilla on riittävästi opetusmateriaalia, moniluokkaisuus sekä aikasarjojen kohtuullinen pituus.
Parhaiten toiminut menetelmä oli shapelet-muunnos, jonka kanssa käytettiin satunnaismetsäluokittelijaa. Menetelmän normaali tarkkuus oli noin 73 prosenttia ja tasapainotettu tarkkuus noin 63 prosenttia. Aikasarjametsän molemmat tarkkuudet olivat noin 4 prosenttiyksikköä matalammat kuin shapelet-muunnoksen avulla saavutetut, mutta aikasarjametsä oli ajallisesti tehokkain menetelmä. Mallin sovitus opetusaineistoon ja testiaineiston luokittelu kesti yhteensä vain noin 30 sekuntia. Shapelet-muunnoksen sovittaminen kesti nopeimmillaankin noin 50 minuuttia, ja parhaiten toimineen muunnoksen sovittaminen vaati melkein vuorokauden. K-lähinaapurimenetelmän tarkkuudet jäivät heikoimmaksi, ja luokitteluun kuluneet ajat olivat euklidisen etäisyyden vajaasta minuutista painotetun dynaamisen aikavääristymän 76 minuuttiin.
K-lähinaapurimenetelmää, jonka etäisyysmittana käytetään dynaamista aikavääristymää, pidetään aikasarjojen luokittelussa oletusmenetelmänä, johon muita menetelmiä verrataan. Satunnaismetsä on puolestaan suosittu ja useimmiten hyvin toimiva menetelmä muiden kuin aikasarja-aineistojen luokittelussa, joten nämä kaksi menetelmää valittiin tutkielmaan näillä perusteilla. Aineiston esikäsittelyllä sekä erilaisilla muunnoksilla on vaikutusta luokittelijoiden toimintaan, joten shapelet-muunnos valittiin tutkielmaan edustamaan tätä osaa aikasarjojen luokittelusta.
Käytännön luokittelutestien aineistona tutkielmassa käytettiin Iso-Britanniassa kerättyä sähkölaitteiden sähkönkulutuksesta koottua aikasarja-aineistoa, joka sisältää seitsemän erilaisen kodinkoneen sähkönkulutuksesta muodostettuja tasamittaisia, 96 havaintoa sisältäviä aikasarjoja. Aineiston valintakriteereinä olivat riittävän suuri koko, jotta koneoppimismenetelmien malleilla on riittävästi opetusmateriaalia, moniluokkaisuus sekä aikasarjojen kohtuullinen pituus.
Parhaiten toiminut menetelmä oli shapelet-muunnos, jonka kanssa käytettiin satunnaismetsäluokittelijaa. Menetelmän normaali tarkkuus oli noin 73 prosenttia ja tasapainotettu tarkkuus noin 63 prosenttia. Aikasarjametsän molemmat tarkkuudet olivat noin 4 prosenttiyksikköä matalammat kuin shapelet-muunnoksen avulla saavutetut, mutta aikasarjametsä oli ajallisesti tehokkain menetelmä. Mallin sovitus opetusaineistoon ja testiaineiston luokittelu kesti yhteensä vain noin 30 sekuntia. Shapelet-muunnoksen sovittaminen kesti nopeimmillaankin noin 50 minuuttia, ja parhaiten toimineen muunnoksen sovittaminen vaati melkein vuorokauden. K-lähinaapurimenetelmän tarkkuudet jäivät heikoimmaksi, ja luokitteluun kuluneet ajat olivat euklidisen etäisyyden vajaasta minuutista painotetun dynaamisen aikavääristymän 76 minuuttiin.
Kokoelmat
- Avoin saatavuus [32150]