University of Oulu

A cellular automaton environment for the complex system of speech

Saved in:
Author: Juuso, Ilkka1,2,3
Organizations: 1University of Oulu Graduate School
2University of Oulu, Faculty of Information Technology and Electrical Engineering
3Center for Machine Vision and Signal Analysis
Format: ebook
Version: published version
Persistent link: http://urn.fi/urn:isbn:9789526224046
Language: English
Published: Oulu : University of Oulu, 2019
Publish Date: 2019-12-09
Thesis type: Doctoral Dissertation
Defence Note: Academic dissertation to be presented with the assent of the Doctoral Training Committee of Information Technology and Electrical Engineering of the University of Oulu for public defence in the OP auditorium (L10), Linnanmaa, on 19 December 2019, at 12 noon
Tutor: Professor Tapio Seppänen
Professor William A. Kretzschmar
Reviewer: Professor John Nerbonne
Professor Jack Grieve
Opponent: Professor Marc Alexander
Description:

Abstract

Linguistic data collections, such as representative language and dialect corpora collected over several decades, have in the past 15 years become the focus of extensive digitization efforts. The Linguistic Atlas Project (LAP), containing meticulously curated American language survey data from the past 90 years, is a prime example of such a corpus. The scholarly use of such bodies has traditionally relied heavily on the linguist researcher’s intuition in observing patterns and producing maps of the data to answer questions on language use across time and space. Some solutions have been offered by statistical methods and Geographic Information Systems (GIS), but the high learning curves involved in these techniques have limited their appeal in dialectology. At the same time, the spatially and temporally scattered nature of language datasets, and the lack of longitudinal data in particular, has hindered the modeling of language change in dialectology.

This thesis aims to provide solutions for both visualizing spatial variation in language and modeling its temporal change. The framework adopted for this work is the theory of the complex system of speech, and the method of implementation that of the Cellular Automaton (CA). A further distinguishing feature of the work is that it uses the extensive data holdings of the Linguistic Atlas Project as a source of real-world language data to base its simulations on. The results obtained through the work are validated in respect to previous linguistic theory, and the complex systems of speech in particular.

The results of the work include the construction of a versatile simulation environment for language, and its successful application to a) the development of a linguistically feasible simulation of language change, and b) the development of an objective, straightforward process for region estimation of linguistic features.

see all

Tiivistelmä

Lingvistiset kokoelmat kuten vuosikymmenten yli kerätyt kieli- ja murrekorpukset ovat viimeisen 15 vuoden aikana päätyneet mittavien digitointitoimien kohteeksi. Malliesimerkki tällaisesta korpuksesta on The Linguistic Atlas Project (LAP), jonka aineisto pohjautuu viimeisen 90 vuoden aikana kerättyyn ja huolella kuratoituun Yhdysvaltojen kielikartoitukseen. Tämänkaltaisten aineistojen tutkimuskäyttö on perinteisesti nojannut lingvistitutkijan intuitioon, jonka avulla kielen ajallisen ja alueellisen käytön rakenteet on voitu muuntaa tiettyihin kysymyksiin vastaaviksi kartoiksi. Tilastolliset menetelmät ja paikkatietojärjestelmät ovat tarjonneet työhön ratkaisuja, mutta näiden huomattava oppimiskynnys on rajoittanut menetelmien houkuttelevuutta murretutkimuksen parissa. Samaan aikaan kieliaineistojen ajallinen ja alueellinen hajaantuneisuus, sekä erityisesti aikasarjojen puutteellisuus, ovat haitanneet kielen muutoksen mallintamista murretutkimuksessa.

Tämän väitöskirjan tavoitteena on tarjota ratkaisuja sekä kielen alueellisen variaation visualisointiin että kielen ajallisen muutoksen mallintamiseen. Työn teoreettinen tausta pohjautuu kielen kompleksisen järjestelmän käsitteeseen ja toteutus solukoneeseen (CA, Cellular Automaton). Lisäksi työn luonnetta määrittelee sen pureutuminen mittavan LAP-aineiston tarjoamaan todelliseen dataan, jota työ käyttää kaikkien simulaatioiden taustalla. Työn tuloksia tarkastellaan aiemman lingvistisen tiedon sekä erityisesti kielen kompleksisen järjestelmän käsitteeseen kautta.

Työn tuloksena on kielen monipuolinen simulointiympäristö, jota sovelletaan a) lingvistisen teorian valossa uskottavaan kielen muutoksen mallinnukseen ja b) kielen ominaisuuksien alueellisuuden tutkimukseen objektiivisen ja suoraviivaisen prosessin kautta.

see all

Series: Acta Universitatis Ouluensis. C, Technica
ISSN: 0355-3213
ISSN-E: 1796-2226
ISSN-L: 0355-3213
ISBN: 978-952-62-2404-6
ISBN Print: 978-952-62-2403-9
Issue: 723
Subjects: