Modeling Finnish language with character-word compositional Language Model

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Ask about the availability of the thesis by sending email to the Aalto University Learning Centre oppimiskeskus@aalto.fi
Date
2016-10-27
Department
Major/Subject
Ohjelmistotuotanto ja -liikentoiminta
Mcode
T3003
Degree programme
Tietotekniikan koulutusohjelma
Language
en
Pages
48
Series
Abstract
Neural networks have become increasingly popular in the field of language modeling. So far, the traditional implementations having the best modeling performances are operating with word embeddings. In highly morphological languages, however, the vocabulary size tends to grow easily. This quickly multiplies the parameter count of word-level models, making them slow to train. This thesis, inspired by recent research, explores ways to model the Finnish language while maintaining the performance of word-level models and keeping the model parameters nearly constant regardless of the size of the word vocabulary. This thesis proposes a new Character-to-Word-to-Character (C2W2C) compositional language model that uses characters as input and output while still internally processing traditional word embeddings by using recurrent encoders and decoders. The results of the study indicate that C2W2C can respond to the challenges of morphologically rich languages such as high out-of-vocabulary word rates for validation data, the prediction of novel words and growing vocabulary size. However, the language modeling performance of C2W2C, measured by PPL (perplexity), is yet inferior to traditional word-level models. Hence more research must be done in order to obtain the benefits and features from character-level and word-level language model performance.

Neuroverkot ovat yleistyneet hiljattain kielimallinnuksen apuvälineinä. Toistaiseksi parhaat perinteiset toteutukset tomivat sanapohjaisesti. Morfologisesti rikkaissa kielissä kuitenkin käytettävien sanastojen koko uhkaa kasvaa nopeasti, mikä moninkertaistaa mallin parametrien lukumäärän ja tekee malleista hitaita opettaa. Tämän diplomityön aiheena on tutkia tapoja mallintaa suomenkielistä tekstiä niin, että mallin parametrien lukumäärä pysyy lähes vakiona sanaston koosta riippumatta, mutta kuitenkin niin että mallin suorituskyky ei kärsi sanapohjaisiin malleihin verrattuna. Tässä diplomityössä esitellään uusi C2W2C-yhdistelmäkielimalli, joka toimii ulkoisesti merkkitasolla, mutta käyttää kuitenkin sisäisesti perinteisiä sanapohjaisten mallien upotuksia rekurrenttien pakkaajien ja purkajien avulla. Tulokset osoittavat, että C2W2C-malli pystyy vastaamaan morfologisesti rikkaiden kielten asettamiin haasteisiin, kuten validointimateriaalilla esiintyvään sanaston ulkopuolisten sanojen korkeaan tiheyteen, tuntemattomien sanojen ennustukseen sekä kasvavaan sanaston kokoon. Mallin suorituskyky perinteisin menetelmin mitattuna (PPL) ei yllä kuitenkaan vielä perinteisten sanapohjaisten mallien tasolle. Täten on tehtävä lisää tutkimusta merkkipohjaisten mallien hyötyjen ja ominaisuuksien sekä sanapohjaisten mallien suorituskyvyn yhdistämiseksi.
Description
Supervisor
Karhunen, Juha
Thesis advisor
Heikinheimo, Hannes
Keywords
neural networks, language modeling, deep-learning, unsupervised learning
Other note
Citation