University of Oulu

Perspectives on the utility of linguistic knowledge in English word prediction

Saved in:
Author: Väyrynen, Pertti1,2
Organizations: 1University of Oulu, Faculty of Humanities, Department of English
2University of Oulu, Faculty of Technology, Department of Electrical and Information Engineering
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 1.8 MB)
Persistent link: http://urn.fi/urn:isbn:951427850X
Language: English
Published: 2005
Publish Date: 2005-11-11
Thesis type: Doctoral Dissertation
Defence Note: Academic Dissertation to be presented with the assent of the Faculty of Humanities, University of Oulu, for public discussion in Raahensali (Auditorium L10), Linnanmaa, on November 19th, 2005, at 12 noon
Reviewer: Docent Sheri Hunnicutt
Professor Stefan Werner
Description:

Abstract

The problem addressed in the present thesis is the utility of linguistic knowledge in one domain of language technology, word prediction. An important characteristic of any practical language technology application is its level of performance, and it is therefore essential to be able to measure this quantitatively. The main questions in the present thesis are the following: (1) how can a significant improvement in performance be obtained in practical language technology products, and (2) what is the cost of improved performance in terms of the sources of linguistic knowledge that should be incorporated in them? On a more general level, the major findings suggest that the practical utility of linguistic knowledge in language technology should generally be evaluated from at least three larger perspectives: (1) language, (2) technology, and (3) the user of the application. From these three perspectives, a variety of constraints can be identified which either increase or decrease the usefulness of linguistic knowledge in practical language technology applications. A statistical state-of-the-art word prediction system was developed and tested in the empirical part of this work, and testing the performance of a few prediction methods that utilise sources of linguistic knowledge showed that they can perform just as well as some existing state-of-the-art statistical prediction methods. When the syllable-initial characters of the words to be predicted were used, for example, the expected length of the search key in a running text with a prediction list of ten tokens was only 1.59 characters, while the use of information on the parts of speech of the word tokens to be predicted in a system with five lists representing five parts of speech resulted only in a three percent improvement in performance. One of the practical implications of these results for the field of language technology is that a significant improvement in the performance of a word prediction system may be achieved only incrementally. The simultaneous use of several techniques may in turn dilute the real-time operation of the prediction system, so that it is unable to suggest candidate words quickly enough for the user. It can also affect some performance aspects such as the average percentage of keystrokes/characters saved.

see all

Abstrakti

Tässä työssä tutkittiin lingvistisen tiedon hyödyllisyyttä kieliteknologian yhdellä sovellusalueella eli sanan ennakointia englannin kielessä. Sovellus pyrkii ennakoimaan sanan, jota käyttäjä kirjoittaa parhaillaan tai aikoo kirjoittaa seuraavaksi. Nämä sovellukset ovat hyödyllisiä esim. pienissä päätelaitteissa, joissa tekstin tuottaminen on hankalaa. Eräs kieliteknologiasovellusten tärkeimmistä ominaisuuksista on niiden tehokas toiminta ja suorituskyky, jonka tulisi olla kvantitatiivisesti mitattavissa. Oleellisin tutkimuskysymys on näin ollen: (1) miten käytännön kieliteknologiasovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla ja (2) mitä tämä vaatii käytännössä? Yleisellä tasolla tutkimuksen tärkeimmät tulokset ovat seuraavat: lingvistisen tiedon käytännön hyödyllisyyttä pitäisi arvioida ainakin kolmesta näkökulmasta, jotka ovat: (1) kielen näkökulma, (2) teknologian näkökulma ja (3) sovelluksen käyttäjän näkökulma. Näiden kolmen näkökulman avulla voidaan määrittää joukko tekijöitä, jotka joko lisäävät tai vähentävät lingvistisen tiedon hyödyllisyyttä käytännön kieliteknologiasovelluksissa. Työn empiirisessä osassa kehitettiin tilastollinen sananennakointisovellus englannin kieleen hyödyntäen parhaiten toimivia ennakointitekniikoita yhdessä ja samassa järjestelmässä. Kehitetyssä järjestelmässä suorituskyky vastaa täysin aiempien järjestelmien suorituskykyä. Työssä testattiin myös joitakin uusia, lingvististä tietoa hyödyntäviä ennakointitekniikoita, joiden suorituskyky vastasi tiettyjen tilastollisten ennakointimenetelmien suorituskykyä. Tutkimuksen tuloksista voidaan päätellä muun muassa, että sananennakointisovellusten suorituskykyä voidaan parantaa merkittävästi lingvistisen tiedon avulla vain käyttämällä samanaikaisesti useita lingvistisen tiedon lähteitä. Tämä taas saattaa hidastaa sovelluksen reaaliaikaista toimintaa ja vaikuttaa sovelluksen suorituskykyyn silloin kun se mitataan näppäinsäästönä merkkisäästön asemesta.

see all

Series: Acta Universitatis Ouluensis. B, Humaniora
ISSN-E: 1796-2218
ISBN: 951-42-7850-X
ISBN Print: 951-42-7849-6
Issue: 67
Subjects:
Copyright information: This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.