University of Oulu

Acute myeloid leukemia risk group prediction from gene expression data with feed-forward neural networks

Saved in:
Author: Leskelä, Heli1
Organizations: 1University of Oulu, Faculty of Science, Mathematics
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 1.2 MB)
Pages: 55
Persistent link: http://urn.fi/URN:NBN:fi:oulu-202208223352
Language: English
Published: Oulu : H. Leskelä, 2022
Publish Date: 2022-08-24
Thesis type: Master's thesis
Tutor: Sillanpää, Mikko
Izzi, Valerio
Kontio, Juho
Reviewer: Sillanpää, Mikko
Waldmann, Patrik
Description:

Abstract

Predicting from gene expression data remains a complex task due to it characteristically having large dimensionality and small sample sizes. Creating classifiers in these settings is a non-trivial task, which is complicated by the presence of multi-class imbalance. The imbalance hinders the feed-forward neural network’s ability to learn patterns from the data, and the multi-class structure makes common evaluation metrics hide the network’s poor performance in the minority classes. For Acute Myeloid Leukemia (AML) these issues are magnified by the fact that the underlying molecular factors are heterogeneous from patient to patient, which makes treatment and prognosis difficult.

Having limited resources has a direct impact on which methods can be used to tackle these problems. In this thesis, the goal is to find cost-effective methods to balance the data, remove unnecessary features and to create a multi-class classifier for AML risk group. The risk group is created using two variables based on survival times. In total six scenarios are compared for creating the optimal feed-forward neural network. First, the original gene expressions are used as the predictors without any pre-processing. The following two scenarios fix the class imbalance using SMOTE and ADASYN. Finally, RFE is used to reduce dimensions in all previous scenarios to get the last three data sets.

The feed-forward neural network is tuned separately for each scenario. In total 100 parameter combinations are chosen randomly from around 3000 possible model configurations, and the resulting models are evaluated based on overall accuracy and F1 score for each class. The results show that while ADASYN, SMOTE, and RFE help the networks yield better results, having the right network structure is just as important. This is demonstrated by the fact that some models using the unprocessed data set were found among the best-performing models. Furthermore, based on high accuracy in classification, predicting the new AML risk category based only on genes seems possible even with limited resources.

Akuutin myelooisen leukemian riskiryhmän ennustaminen geeniekpressiodatasta eteenpäinsyöttävillä neuroverkoilla

Tiivistelmä

Geeniekpressiodatalle on tyypillistä, että muuttujia on kerätty kymmeniä tuhansia, kun taas havaintoja on vain muutama sata. Tämän takia luokkien ennustaminen geeniekpressioista on monimutkainen tehtävä, jota vaikeuttaa epätasapaino enemmistö- ja vähemmistöluokkien välillä. Epätasapaino vaikeuttaa geenien välisten yhteyksien oppimista, ja kun luokkia on useampi, yleisesti käytetyt arviointimenetelmät piilottavat huonon luokittelukyvyn vähemmistöluokille. Näiden ongelmien lisäksi akuutti myelooinen leukemia (AML) tuo omat haasteensa potilaiden välillä olevien molekyylisten tekijöiden heterogeenisyyden vuoksi. Tämän seurauksena ennusteiden tekeminen ja hoitokeinojen suunnittelu geenien pohjalta on haastavaa.

Menetelmien valitseminen edellä mainittujen ongelmien ratkaisemiseksi riippuu suoraan käytettävissä olevista resursseista. Tämän työn tavoite on löytää kustannustehokkaat menetelmät datan epätasapainon korjaamiseen ja ylimääräisten muuttujien poistamiseen, sekä luoda useamman luokan luokittelija uudelle AML riskiryhmälle. Uusi riskiryhmä luodaan kahdesta muusta muuttujasta selviytymisaikojen perusteella. Yhteensä kuutta eri tilannetta tarkastellaan eteenpäinsyöttävillä neuroverkoilla. Ensin alkuperäistä AML geeniekspressiodataa käytetään ennustamaan riskiryhmä ilman aineiston esikäsittelyä. Tämän jälkeen aineiston epätasapaino korjataan simuloimalla vähemmistöluokalle uusia havaintoja käyttäen SMOTE- ja ADASYN-algoritmeja. Viimeiset kolme aineistoa saadaan pudottamalla muuttujia edellisistä aineistoista RFE-algoritmia hyödyntäen.

Eteenpäinsyöttävien neuroverkkojen optimaaliset hyperparametrien arvot haetaan 100:sta parmetrikombinaatiosta, jotka on valittu satunnaisesti noin 3000:n kombinaation ryhmästä. Valittujen neuroverkkojen tuloksia verrataan kokonaistarkkuuden, sekä jokaisesta ryhmästä erikseen saatavan F1-suureen perusteella. Parhaimpien mallien joukosta löytyi esikäsiteltyjen aineistojen lisäksi prosessoimattomia aineistoja, mikä viittaa siihen, että neuroverkkojen oikean rakenteen valitseminen on yhtä tärkeää kuin datan esikäsittely. Uuden riskiryhmän luokittelu antoi lupaavia tuloksia, joten ennustaminen pelkästään geenien pohjalta näyttäisi olevan mahdollista myös vähäisillä resursseilla.

see all

Subjects:
Copyright information: © Heli Leskelä, 2022. Except otherwise noted, the reuse of this document is authorised under a Creative Commons Attribution 4.0 International (CC-BY 4.0) licence (https://creativecommons.org/licenses/by/4.0/). This means that reuse is allowed provided appropriate credit is given and any changes are indicated. For any use or reproduction of elements that are not owned by the author(s), permission may need to be directly from the respective right holders.
  https://creativecommons.org/licenses/by/4.0/