Transkriptiotekijöiden sitoutumiskohtien laskennallisesta määrittämisestä : ETS-faktorit ERG ja SPDEF

Tuusa, Jussi

Transkriptiotekijöiden sitoutumiskohtien laskennallisesta määrittämisestä : ETS-faktorit ERG ja SPDEF

Tuusa, Jussi (2013-04-08)

Avaa tiedosto

nbnfioulu-201305131259.pdf (19.48Mt)

nbnfioulu-201305131259_pdfa_report.xml (164.5Kt)

nbnfioulu-201305131259_supplementary_agreement.pdf (45.78Kt)

nbnfioulu-201305131259_mods.xml (17.79Kt)

nbnfioulu-201305131259_solr.xml (43.92Kt)

Lataukset:

Tuusa, Jussi

J. Tuusa

08.04.2013

© 2013 Jussi Tuusa. Tämä Kohde on tekijänoikeuden ja/tai lähioikeuksien suojaama. Voit käyttää Kohdetta käyttöösi sovellettavan tekijänoikeutta ja lähioikeuksia koskevan lainsäädännön sallimilla tavoilla. Muunlaista käyttöä varten tarvitset oikeudenhaltijoiden luvan.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:oulu-201305131259

Tiivistelmä

Tässä opinnäytetyössä tarkasteltiin ja sovellettiin laskennallisia menetelmiä transkriptiotekijöiden (TF) sitoutumiskohtien (TFBS) määrittämiseen. TF:t ovat geenien säätelyyn osallistuvia proteiineja, jotka tunnistavat spesifisen nukleotidijärjestyksen sisältävän DNA-jakson eli TFBS:n sitoutuen siihen. Saman TF:n eri TFBS:t eivät ole identtisiä, vaan ainoastaan samankaltaisia. Laskennallisten menetelmät perustuvat malleihin, joissa DNA:n rakenneosasten eli nukleotidien esiintyminen kussakin TFBS:n paikassa noudattaa jotakin todennäköisyysjakaumaa.

Opinnäytetyö jakaantuu kirjallisuus- ja soveltavaan osaan. Ensimmäisessä luodaan yleiskatsaus tutkimusaiheen biologiseen taustaan, esitetään aiheen kannalta keskeisiä matemaattisia määritelmiä ja kaavoja sekä perehdytään erilaisiin TFBS-määrittelyihin, kuten konsensussekvenssi, paikkapainomatriisi (PWM) ja Markov-matriisimallit. TFBS-määrittelyn löytämiseksi kehitetyistä algoritmeista esitellään MEME-menetelmä. Toiseksi kuvataan pistemääräfunktio, jonka avulla etsitään uusia sitoutumiskohtia tunnetun TFBS-määrittelyn avulla ja jota hyödynnetään sovelletun osan MATCH-algoritmissa. Esimerkkinä laskennallisten menetelmien matemaattisesta pätevyydestä esitetään MEME-menetelmän käyttämän EM-(odotusarvo-maksimointi)-algoritmin suppenemistarkastelu todistuksineen. Tämän tarkastelun päälähde on ’Wu, C. (1983) On the Convergence Properties of the EM Algorithm. The Annals of Statistics, 11: 95–103.’

Tutkielman soveltavassa osassa tutkittiin MATCH-algoritmin käyttökelpoisuutta paikannettaessa ETS-transkriptiotekijöiden ERG ja SPDEF sitoutumiskohtia joukosta kromosomaalisia DNA-sekvenssejä, joiden tiedettiin sitovan kyseisiä transkriptiotekijöitä ihmisen eturauhassyöpäsoluissa CHIP-seq-analyysin perusteella (Wei et al.(2010), EMBO J., 29: 2147–2160.) MATCH-algoritmi perustuu oletukseen TFBS:n nukleotidien multinomisesta ja toisistaan riippumattomasta jakaantumisesta. Tri Gonghong Wei ystävällisesti auttoi algoritmissa käytettyjen, alunperin MEME-algoritmilla in vitro (koeputki) -sidontakokeiden tuloksista määritettyjen PWM-matriisien hankkimisessa. Datan analyysissä käytetyt skriptit ja funktiot laadittiin itse Matlab-ympäristössä. Olennaisena osana tähän kuului MATCH-algoritmin lisäksi permutaatioanalyysi, jonka avulla arvioitiin löydettyjen TFBS-kandidaattien tilastollista merkitsevyyttä.

Tutkimuksessa analysoitiin 195 ERG-tekijän ja 193 SPDEF-tekijän sitomaa sekvenssiä analysoimalla DNA:n kumpikin juoste erikseeen. Tilastollisesti merkitseviä ERG-TFBS:iä löydettiin vain kaksi ja SPDEF-TFBS:iä viisi kappaletta kaikki eri sekvensseistä. Kun ERG-sekvenssien analyysissä käytettiin in vitro -sidontakokeista saadun PWM:n sijasta in vivo (solussa tapahtuva) -määritettyä edellisestä hieman poikkeavaa PWM:ää, tilastollisesti merkitseviä TFBS-kandidaatteja löydettiin 50 sekvenssistä yhteensä 58 kappaletta.

ETS-transkriptiotekijöiden sitomat DNA-sekvenssit sisältävät ainoastaan viiden nukleotidin mittaisen (C/A)GGA(A/T) -ydinjakson, joka on yhteinen suurimmalle osalle näiden proteiinien sitoutumiskohtia. Koska käytetyssä mallissa oletettiin nukleotidien esiintymisen todennäköisyysjakauma riippumattomaksi ympäröivistä nukleotideista, on ymmärrettävää, että MATCH-algoritmi tuottaa tilastollisesti merkitseviä löydöksiä vain, jos kohdesekvenssi on hyvin lähellä PWM-matriisin määräämää konsensussekvenssiä. Tällöin menetetään TFBS- kandidaatit, joissa ydinjakson ulkopuolisten nukleotidien yhteisesiintyminen puhtaasti sattumalta on epätodennäköistä, vaikka erillisinä tapahtumina, riippumattomuusoletuksen vallitessa, esiintyminen ei poikkea tilastollisesti merkitsevästi taustasta. Täten tämä tutkimus vahvistaa käsitystä, että uusia TFBS-kandidaatteja etsittäessä olisi syytä käyttää malleja, jotka sallivat riippuvuuden TFBS:n eri nukleotidipaikkojen välillä.

The computational methods used in the analysis of transcription factor binding sites were reviewed and utilized in this Pro gradu thesis. Transcription factors (TF) are proteins that regulate the activity of genes. They bind specific DNA sequences, hereafter transcription factor binding sites (TFBS), which share the similar but usually not identical sequences of DNA building block nucleotides. Computational methods are based on models, where the presence of certain nucleotide at the specific position of the TFBS obeys some probability distribution.

The thesis consists of a literature review and an applied study. First, a general review of biological background and key mathematical definitions and formulas are given. Secondly, different TFBS definitions like a consensus sequence, a position weight matrix (PWM) and markovian matrix models are presented. MEME is described as an example of an algorithm for extracting matrix form TFBS definition from DNA sequences which are known to bind a specific transcription factor. The solidity of the mathematical basis of MEME is illustrated by showing the proof for the convergence of the EM-algorithm used in MEME. Finally the principles of using a scoring function in the search of novel TFBS are presented.

In the applied part of this thesis, the MATCH algorithm is used in the search for human ERG and SPDEF transcription factor binding sites in chromosomal DNA. The analysed sequences come from CHIP-seq analysis (Wei et al.(2010), EMBO J., 29: 2147–2160.) which represent real binding events in human cells. The MATCH algorithm is based on the assumption of independent and multinomial distribution of nucleotides in each TFBS position. Dr Gonghong Wei kindly helped to access the ERG and SPDEF specific PWMs used in this study. These PWMs have been produced by the MEME analysis of in vitro binding data. All the scripts and functions used in the data analysis were written in Matlab environment. In addition to the MATCH algorithm, the permutation analysis was compiled and used to estimate the statistical significance of found TFBS candidates.

Altogether 195 ERG specific and 193 SPDEF specific sequences were analysed (both strands). Only two ERG TFBSs and five SPDEF TFBSs were found with statistical significance. When the in vitro PWM was replaced with an in vivo PWM which originated from CHIP-seq analysis, the analysis of ERG specific sequences provided 58 TFBS from 50 different sequences.

The poor efficiency of the MATCH algorithm is obviously a consequence from the pre-assumptions of the algorithm. In contrast to the independent distribution of nucleotides postulated in the MATCH algorithm, the binding specificities of ETS-factors are likely dependent on the co-presence of multiple nucleotides. Therefore, models which take account the dependence between the nucleotide positions in the TFBS, should be preferred in the future analysis.

Kokoelmat

Avoin saatavuus [32049]