Real-time data quality monitoring and improvement in energy networks
Välikangas, Henri (2021-09-21)
Välikangas, Henri
H. Välikangas
21.09.2021
© 2021 Henri Välikangas. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-202109249050
https://urn.fi/URN:NBN:fi:oulu-202109249050
Tiivistelmä
Data quality monitoring is an important aspect in real-time data-based operation and of growing interest. Studying the different methods and approaches in real-time data quality monitoring, in the context of the energy systems, can yield some highly beneficial improvements in the ever-growing demand for material efficiency and energy savings. Quality flags, based on appropriate quality dimensions, can improve the decision making of systems in real time. The goal of this study is to find out, how this can be applied, utilizing the varied and large volumes of energy industry data.
The concept of data quality was first dissected at a theoretical level, to understand what meaningful data quality dimensions in the energy systems could be, in terms of possible sources of data and what aspects of it are meaningful for the quality of the processes. Based on the gathered understanding from the related theoretical section, an understanding of essential data quality dimensions was formed, helping in the choice of data quality dimensions for this study. After this, the potential data quality pre-processing and analyzing methods were inspected. The goal was to apply simple methods to see what results could be achieved with them when the data quality flagging algorithm was formed. Selected seven quality dimensions were Accessibility, Interpretability, Completeness, Consistency, Timeliness, Accuracy and Believability. Data was generated with imputed errors, and the data quality flagging algorithm performance was tested on it, simulating three signals producing sensor readings, one with redundant readings, two without.
The data flagging results were correct in all simulated cases, but the accuracy of the estimated values varied. High precision data quality description about the data compared to the actual value was achieved consistently with the signals that had redundant values utilizing the chosen simple methods. On the other hand, algorithm produced less accurate estimation value with the signals without the redundant readings, depending on the error type. Drifting error type was challenging to handle if only one signal was available, without more sophisticated estimation methods.
Most data quality checks studied in this thesis are applicable in real time operation, but changes are needed in the estimation methods for the individual signals. The selected methods were simple to ease the load on real-time data quality monitoring requirements. Further research should concentrate in finding better methods to deal with the errors that caused a lot of estimation challenges in this study. Datan laadun varmistaminen on tärkeä osa sen reaaliaikaisessa hyödyntämisessä ja kasvavan kiinnostuksen kohde. Energiateollisuuden kontekstissa datan laadun reaaliaikaisten monitorointimenetelmien tutkiminen voi tuottaa hyödyllisiä tuloksia tehokkuusvaatimusten jatkuvan tarpeen kasvaessa. Dataa hyödyntävien järjestelmien päätöksentekoa voidaan parantaa reaaliaikaisella laatuliputuksella, joka kertoo käsiteltävän datan laadun sidottuna sen tärkeisiin laatudimensioihin. Tämän tutkimuksen tavoite oli selvittää, miten tämä voidaan toteuttaa monimuotoisella ja runsaslukuisella energiajärjestelmien datalla.
Työ alkoi datan laadun määrityksestä perustasolla, että ymmärrys datan laadusta energiateollisuuden kontekstissa voitiin muodostaa. Tähän liittyi datan laatudimensioiden tunnistaminen ja niiden soveltaminen energiajärjestelmissä. Valittaviin laatudimensioihin vaikuttavat datan alkuperä, sen määrä ja tyyppi. Tämän jälkeen arvioitiin mahdollisia esikäsittely ja analyysimenetelmiä datan laadun valvonnan kannalta, kehitettävää reaaliaikaista algoritmia varten. Seitsemän datan laatudimensiota, joita tässä työssä käytettiin algoritmin määrityksessä, olivat esteettömyys, tulkittavuus, täydellisyys, johdonmukaisuus, ajallisuus, tarkkuus ja uskottavuus. Kehitettyä algoritmia testattiin simuloidulla datalla, johon oli lisätty virhettä tietyille aikaväleille ja satunnaisia virheitä. Simuloituja signaaleja oli kolme, joista yhdessä oli redundantteja datajoukkoja.
Simulointitulosten perusteella datan liputusarvot olivat oikein kaikissa tilanteissa, toisaalta estimaattien tarkkuus hetkellisestä arvosta vaihteli. Korkea selitystarkkuus datan hetkellisestä laadusta verrattuna datan oikeaan arvoon saavutettiin johdonmukaisesti signaaleissa, missä oli redundantteja mittausarvoja ja kun sovellettiin yksinkertaisia menetelmiä. Signaalien ryömintävirhe aiheutti haasteita yksittäisiin mittausarvoihin perustuvilla estimaattoreilla, joka viittaa kehittyneemmän estimointimenetelmän tarpeesta tulevaisuuden tutkimuksen kannalta.
Tulosten perusteella suurin osa työssä testatuista datan laatutarkastuksista soveltuvat reaaliaikaiseen monitorointiin, mutta estimaattien tarkkuuden parannus vaatii muutoksia estimaattimetodeihin etenkin, jos saatavilla on vain yksi mittausarvo. Yksinkertaisten menetelmien valinnan syy oli helpottaa reaaliaikaisen laatuliputuksen asettamia vaatimuksia datan laadun monitoroinnissa. Jatkotutkimus puuttuvien ja virheellisten arvojen estimaattien parantamiseen on tärkeää.
The concept of data quality was first dissected at a theoretical level, to understand what meaningful data quality dimensions in the energy systems could be, in terms of possible sources of data and what aspects of it are meaningful for the quality of the processes. Based on the gathered understanding from the related theoretical section, an understanding of essential data quality dimensions was formed, helping in the choice of data quality dimensions for this study. After this, the potential data quality pre-processing and analyzing methods were inspected. The goal was to apply simple methods to see what results could be achieved with them when the data quality flagging algorithm was formed. Selected seven quality dimensions were Accessibility, Interpretability, Completeness, Consistency, Timeliness, Accuracy and Believability. Data was generated with imputed errors, and the data quality flagging algorithm performance was tested on it, simulating three signals producing sensor readings, one with redundant readings, two without.
The data flagging results were correct in all simulated cases, but the accuracy of the estimated values varied. High precision data quality description about the data compared to the actual value was achieved consistently with the signals that had redundant values utilizing the chosen simple methods. On the other hand, algorithm produced less accurate estimation value with the signals without the redundant readings, depending on the error type. Drifting error type was challenging to handle if only one signal was available, without more sophisticated estimation methods.
Most data quality checks studied in this thesis are applicable in real time operation, but changes are needed in the estimation methods for the individual signals. The selected methods were simple to ease the load on real-time data quality monitoring requirements. Further research should concentrate in finding better methods to deal with the errors that caused a lot of estimation challenges in this study.
Työ alkoi datan laadun määrityksestä perustasolla, että ymmärrys datan laadusta energiateollisuuden kontekstissa voitiin muodostaa. Tähän liittyi datan laatudimensioiden tunnistaminen ja niiden soveltaminen energiajärjestelmissä. Valittaviin laatudimensioihin vaikuttavat datan alkuperä, sen määrä ja tyyppi. Tämän jälkeen arvioitiin mahdollisia esikäsittely ja analyysimenetelmiä datan laadun valvonnan kannalta, kehitettävää reaaliaikaista algoritmia varten. Seitsemän datan laatudimensiota, joita tässä työssä käytettiin algoritmin määrityksessä, olivat esteettömyys, tulkittavuus, täydellisyys, johdonmukaisuus, ajallisuus, tarkkuus ja uskottavuus. Kehitettyä algoritmia testattiin simuloidulla datalla, johon oli lisätty virhettä tietyille aikaväleille ja satunnaisia virheitä. Simuloituja signaaleja oli kolme, joista yhdessä oli redundantteja datajoukkoja.
Simulointitulosten perusteella datan liputusarvot olivat oikein kaikissa tilanteissa, toisaalta estimaattien tarkkuus hetkellisestä arvosta vaihteli. Korkea selitystarkkuus datan hetkellisestä laadusta verrattuna datan oikeaan arvoon saavutettiin johdonmukaisesti signaaleissa, missä oli redundantteja mittausarvoja ja kun sovellettiin yksinkertaisia menetelmiä. Signaalien ryömintävirhe aiheutti haasteita yksittäisiin mittausarvoihin perustuvilla estimaattoreilla, joka viittaa kehittyneemmän estimointimenetelmän tarpeesta tulevaisuuden tutkimuksen kannalta.
Tulosten perusteella suurin osa työssä testatuista datan laatutarkastuksista soveltuvat reaaliaikaiseen monitorointiin, mutta estimaattien tarkkuuden parannus vaatii muutoksia estimaattimetodeihin etenkin, jos saatavilla on vain yksi mittausarvo. Yksinkertaisten menetelmien valinnan syy oli helpottaa reaaliaikaisen laatuliputuksen asettamia vaatimuksia datan laadun monitoroinnissa. Jatkotutkimus puuttuvien ja virheellisten arvojen estimaattien parantamiseen on tärkeää.
Kokoelmat
- Avoin saatavuus [31941]