Demographic inference and affect estimation of microbloggers |
|
Author: | Pandya, Abhinay1,2 |
Organizations: |
1University of Oulu Graduate School 2University of Oulu, Faculty of Information Technology and Electrical Engineering, Computer Science and Engineering |
Format: | ebook |
Version: | published version |
Access: | open |
Online Access: | PDF Full Text (PDF, 3.2 MB) |
Persistent link: | http://urn.fi/urn:isbn:9789526227467 |
Language: | English |
Published: |
Oulu : University of Oulu,
2020
|
Publish Date: | 2020-11-13 |
Thesis type: | Doctoral Dissertation |
Defence Note: | Academic dissertation to be presented with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the Tönning auditorium (L4), Linnanmaa, on 20 November 2020, at 12 noon |
Tutor: |
Professor Mourad Oussalah Docent Susanna Pirttikangas Doctor Panos Kostakos |
Reviewer: |
Professor Atte Joonas Oksanen Assistant Professor Panagiotis Karampelas |
Opponent: |
Professor Stephan Oepen |
Description: |
AbstractOwing to the peculiar nature of the discourse on Twitter, developing analytical frameworks to derive useful insights from Twitter remains challenging as evidenced by the poor performance at tasks such as reliable demographic inference, affect estimation, and event detection. One of the focal problems lies in analyzing short texts in general, and tweets in particular. The analysis is as such made difficult because of the vagaries of the linguistic expressions and Twitter further exacerbates this by enabling the use of emojis, hashtags, URLs, and embedded media. While the previous research has demonstrated ways of extracting useful information from individual tweet-texts to some extent, a detailed and thorough investigation of the role of metadata has not yet been systematically performed. Furthermore, a majority of the previous work has paid little or no attention to the emerging role of deep learning approaches in Twitter-based analytics. These observations motivate this thesis, which aims to enhance machine understanding of tweets towards deriving deeper insights from the public data on Twitter and inform the scientific objectives of this thesis. First, this thesis sets out to empirically investigate the impact and efficacy of deep learning approaches integrating message-text and metadata leveraging on the distributed semantic representations of textual entities. Second, the thesis contributes towards improving capturing enhanced semantics from tweets by harnessing external, open-sourced knowledge graphs and other crowd-sourced lexical resources. Third, the role of the user-created metadata, such as hashtags and URLs, in machine understanding of tweets is examined and quantified. At the same time, computational models are introduced to derive conversational, topical, and temporal contexts of tweets and utilize them in machine learning models to improve Twitter-based analytics. Validation of the proposed novel machine learning models integrating the diverse footprints of users’ online activity/behavior is achieved by employing them in various case study applications. In addition, the datasets and the tools developed during this thesis have been made available publicly for the scientific community. see all
TiivistelmäTwitter-pohjainen analytiikka on noussut useiden tieteenalojen työkalupakkiin viime vuosina. Kuitenkin, järjestelmällisten analyysikokonaisuuksien kehitys on mikroblog-keskustelujen erityisluonteen vuoksi haastavaa. Analysointimenetelmien heikko suorituskyky on todettu useissa sovelluskohteissa, kuten kirjoittajien väestörakenne- ja tunnetila-analyyseissa taikka tehtävissä, joissa mikrobloggauksista pyritään havaitsemaan tärkeitä tapahtumia. Analyysit pitäisi suorittaa hyvin lyhyistä tekstipätkistä, tässä tutkimuksessa erityisesti mikroblogauksista. Omalaatuisten ja persoonallisten kielellisten ilmaisujen, mutta myös Twitterin emojien, metatietotagien, ulkoisten linkkien (url) ja upotettujen kuvien sekä videoiden käyttö monipuolistaa ongelmakenttää. Aikaisemmissa tutkimuksissa on onnistuttu johtamaan hyödyllistä tietoa yksittäisistä mikroblogauksista jossain määrin, mutta metatietojen roolia ja merkitystä ei ole vielä järjestelmällisesti eikä yksityiskohtaisesti tutkittu. Lisäksi syväoppimisen hyödyntämistä Twitter-pohjaisten datojen analyyseissa on tutkittu vähän tai ei ollenkaan. Tämän väitöskirjan tavoitteena on parantaa tietokoneiden valmiuksia käsitellä mikroblogauksia siten, että nykyistä parempi ja merkityksellisempi julkisten Twitter-aineistojen koneellinen ymmärtäminen olisi mahdollista. Ensinnäkin, tutkimuksessa testataan empiirisesti syväoppivan mallin vaikuttavuutta sekä tehokkuutta ym. tekstikokonaisuuksien hajautetun semanttisen esitysmuodon integroinnissa. Toiseksi, työssä parannetaan mikroblogauksien sisältöanalyysia ulkoisten, avoimen lähdekoodin tietograafien sekä muiden joukkoistettujen sanastojen avulla. Kolmanneksi tutkitaan ja kvantifioidaan käyttäjien luomien metadatojen, kuten metatietotagien ja ulkoisten linkkien roolit analyysikehikoissa. Työssä esitellään laskennalliset mallit mikroblogauksien keskusteluun, aihepiiriin sekä aikaan liittyvien asiayhteyksien päättelemiseksi ja käytetään näitä malleja koneoppimismallien suorituskyvyn parantamiseksi Twitter-dataan pohjautuvassa analytiikassa. Mikroblogaajien verkkokäyttäytymisen perusteella saadun monimuotoisen aineiston integrointi tapahtuu koneoppivien mallien avulla. Työssä käytetyt aineistot sekä tutkimuksessa kehitetyt työkalut on saatettu julkiseksi tiedeyhteisön käyttöön. see all
Osajulkaisut / Original papersOsajulkaisut eivät sisälly väitöskirjan elektroniseen versioon. / Original papers are not included in the electronic version of the dissertation.
see all
|
Series: |
Acta Universitatis Ouluensis. C, Technica |
ISSN: | 0355-3213 |
ISSN-E: | 1796-2226 |
ISSN-L: | 0355-3213 |
ISBN: | 978-952-62-2746-7 |
ISBN Print: | 978-952-62-2745-0 |
Issue: | 763 |
Type of Publication: |
G5 Doctoral dissertation (articles) |
Field of Science: |
113 Computer and information sciences |
Subjects: | |
Copyright information: |
© University of Oulu, 2020. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited. |