University of Oulu

Pääosin ohjaamaton sanaston poiminta rakenteettomasta tekstistä

Saved in:
Author: Mustonen, Ari1
Organizations: 1University of Oulu, Faculty of Information Technology and Electrical Engineering, Department of Computer Science and Engineering, Computer Science and Engineering
Format: ebook
Version: published version
Access: open
Online Access: PDF Full Text (PDF, 2.2 MB)
Persistent link: http://urn.fi/URN:NBN:fi:oulu-201404081248
Language: Finnish
Published: Oulu : A. Mustonen, 2014
Publish Date: 2014-04-10
Physical Description: 64 p.
Thesis type: Master's thesis (tech)
Tutor: Rautiainen, Mika
Reviewer: Seppänen, Tapio
Rautiainen, Mika
Description:
Sanaston kattavuudella on suuri merkitys monille luonnollista kieltä käsitteleville algoritmeille. Sanaston puute vaikeuttaa tällaisten algoritmien soveltamista esimerkiksi vähemmistökieliin liittyviin ongelmiin. Sanastojen tuottaminen ja laajentaminen perinteisin menetelmin on työlästä ja kallista, joten on tarve kehittää automaattisia, yleiskäyttöisiä ja kieliriippumattomia sanaston kerääjiä. Automaattisia sanaston kerääjiä on olemassa muutamia, mutta niiden yleiskäyttöisyyttä, laatua ja soveltamista useille kielille voidaan vielä parantaa. Kehittyneeseen sanaston keräämiseen voidaan soveltaa uusimpia ohjaamattomia sanojen erottelun, morfologian induktion, ja sanaluokan induktion menetelmiä. Monet kiinnostavimmista menetelmistä hyödyntävät Bayesin menetelmää. Tässä diplomityössä toteutettiin pääosin ohjaamaton, useaa kieltä tukeva sanaston kerääjä. Se otti syötteenä merkitsemättömän korpuksen ja tuotti listan sanoja ja niiden sanaluokkia. Järjestelmän kaikki tärkeimmät osat pohjautuivat ei-parametriseen Bayesin menetelmään: sanojen erottelu ja morfologian induktio toteutettiin hierarkkisella Pitman-Yor-prosesseilla ja sanaluokan induktio Pitman-Yor-prosessin mikstuurimallilla. Toteutus saavutti 16%:n tarkkuuden suomenkielisten sanojen perusmuotojen poiminnassa, kun sanaluokkatietoa ei huomioitu. Sanojen perusmuotojen ja sanaluokkien yhdistelmien poiminnassa tarkkuus oli 3%:a. Toiminnan arvioitiin olevan samaa tasoa englannilla ja japanilla. Ratkaisun eri aliosien suorituskyvyt olivat heikkoja vastaavien osien uusimpiin toteutuksiin verrattuna. Etenkin morfologian ja sanaluokan induktion suorituskykyä voitaisiin kehittää huomattavasti. Parempia tuloksia voitaisiin saavuttaa myös sulauttamalla järjestelmän aliosia tiiviimmin yhteen.
see all

The coverage of the lexicon has great implications on the performance of a number of natural language processing algorithms. Insufficient vocabulary complicates the application of these algorithms on problems that involve, for example, minority languages. Producing and extending lexicons with traditional means is both slow and expensive so there is a need to develop automatic, generic purpose, language independent lexicon acquisition systems. Automatic lexicon acquisition systems exist in small numbers, but there is room to improve their flexibility, quality and applicability to multiple languages. Advanced lexicon acquisition systems can be developed by applying the state-of-the-art methods from word segmentation, morphology induction, and part-of-speech induction to the problem. Many of the most interesting methods are based on the Bayesian approach. In this Master’s thesis, a mostly-unsupervised, multilingual lexicon acquisition system was developed. It accepted as an input an unannotated corpus and generated a list of words and their part-of-speech tags. All the important parts of the system relied on non-parametric Bayesian methods: word segmentation and morphology induction used nested Pitman-Yor processes and part-of-speech induction used a Pitman-Yor process mixture model. The implementation achieved 16% precision in the acquisition task of base forms of Finnish words without part-of-speech tags. With finnish base form and part-of-speech tag combinations, the precision was 3%. The results were estimated to be of the same quality in English and Japanese. The individual parts of the system had poor performance compared to the state-of-the-art. Especially morfology and part-of-speech induction could be improved significantly. Better results could also be improved by integrating the parts of the system more deeply with each other.
see all

Subjects:
Copyright information: © Ari Mustonen, 2014. This publication is copyrighted. You may download, display and print it for your own personal use. Commercial use is prohibited.