Machine translation into morphologically rich low-resource languages

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
School of Electrical Engineering | Doctoral thesis (article-based) | Defence date: 2021-01-18
Date
2020
Major/Subject
Mcode
Degree programme
Language
en
Pages
200 + app. 188
Series
Aalto University publication series DOCTORAL DISSERTATIONS, 202/2020
Abstract
Machine translation is an important natural language processing application, enabling widened access to information, cultural interchange, and business opportunities in a multilingual world. Driven by research into deep neural networks, machine translation has recently made rapid advances, particularly in the fluency of the translation output. As the methods tend to be data-hungry,high-resource languages have benefited more than low-resource ones. In this work, the aim is to improve machine translation into low-resource morphologically rich languages. Rich morphology leads to a combinatorial explosion in the number of word forms,resulting in very large vocabularies, containing many poorly modeled rare words. This thesis addresses these challenges with multiple approaches. The focus is on methods for segmenting words into subwords, to get more frequent and thus easier learned representations, and to increase the symmetry between languages. It is important to exploit additional resources from related tasks,such as parallel data from related high-resource language pairs and monolingual data from both low- and high-resource languages. Useful auxiliary data sets for multimodal translation can befound from captioning and text-only translation tasks. The methods for exploiting this auxiliary data include cross-lingual learning and data augmentation e.g. using denoising sequence autoen-coders and subword regularization. Learning setups used in the thesis include using unsupervised and language-independent methods, using active learning to guide an annotation effort to produce more informative data, and using scheduled multi-task learning to improve cross-lingual transfer. Contributions of the thesis include five novel segmentation methods: Morfessor FlatCat, Omorfi-restricted Morfessor, Cognate Morfessor, Morfessor EM+Prune, and a semi-supervised neural method. An active learning strategy for Morfessor FlatCat is presented. Evaluation of segmentation quality is performed using both intrinsic and extrinsic automatic methods. Morfessor EM+Prunefinds models with both lower cost and better quality in unsupervised segmentation than Morfessor Baseline. Active learning is superior to random selection for collecting annotations. The best performance in semi-supervised segmentation is achieved when using Morfessor FlatCat segmentations as features in a conditional random field. Contributions to machine translation include a target-side multi-task learning scheme, and scheduled multi-task learning with a denoising sequence autoencoder. LeBLEU, an evaluation measure suitable for morphologically rich languages is presented. Evaluation of translation quality is performed using both automatic and human evaluation. When resources are scarce, the most important auxiliary data comes from related languages. Other types of auxiliary data, such as monolingual corpora, are also beneficial and the gains are partly cumulative.

Konekäännös on tärkeä luonnollisten kielten käsittelyn sovellus, joka mahdollistaa entistä laajemman pääsyn tietoon monikielisessä maailmassa, sekä edesauttaa kulttuurista vuorovaikutusta ja liiketoimintaa. Konekäännös on kehittynyt nopeasti viimeaikoina syviin neuroverkkoihin kohdistuvan tutkimuksen ansiosta. Etenkin käännöksen kielellinen sujuvuus on edistynyt. Koska menetelmät edellyttävät suuria datamääriä, kehitys on keskittynyt hyvin resursoiduille kielille. Tämän väitöskirjan tavoitteena on edistää konekäännöstä kun kohdekielenä on morfologisesti rikas kieli, jolle on saatavilla niukasti resursseja. Kielen rikas morfologia johtaa sananmuotojen määrän kombinatoriseen räjähdykseen tuottaen erittäin suuria sanastoja. Harvinaisia sananmuotoja on vaikea mallintaa. Väitöskirjassa näihin haasteisiin vastataan hyödyntäen useaa lähestymistapaa. Pääasiallinen lähestymistapa on sanojen pilkonta osiin. Pilkonnan avulla saadut esitystavat ovat helpompia mallintaa, minkä lisäksi pilkonnalla voidaan parantaa kielten välistä symmetriaa. On tärkeää hyödyntää resursseja läheisistä sovelluksista, esimerkiksi sukulaiskielten rinnakkaista tekstiä sisältävistä aineistoista, sekä yksikielisistä aineistoista. Väitöskirjassa käytetään kieliriippumattomia menetelmiä ja erilaisia koneoppimisasetelmia, kuten ohjaamatonta oppimista. Apuaineistoja hyödynnetään käyttämällä monikielistä oppimista, datan rikastamista,kohinaa poistavaa sekvenssiautoenkooderia, sekä pilkontaregularisointia. Aktiivista koneoppimista käytetään tehokkaampaan annotaatioiden keräämiseen, ja aikataulutettua monen tehtävän oppimista monikielisen oppimisen tehostamiseen. Väitöskirjassa esitellään viisi uutta menetelmää sanojen pilkontaan: Morfessor FlatCat, Omorfi-restricted Morfessor, Cognate Morfessor, Morfessor EM+Prune, sekä puoliohjattu neuroverkkoihin perustuva menetelmä. Morfessor FlatCat -menetelmälle esitellään aktiivisen koneoppimisen strategia. Pilkonnan laatua arvioidaan sekä suorilla että epäsuorilla automaattisilla evaluaatioilla.Morfessor EM+Prunen löytämillä malleilla on sekä alempi kustannusfunktion arvo että parempi pilkonnan laatu kuin Morfessor Baseline -menetelmällä. Aktiivinen koneoppiminen on satunnaista valintaa parempi annotaatoiden keräämiseen. Puoliohjatussa pilkonnassa paras laatu saavutetaan käyttämällä Morfessor FlatCatin pilkontoja piirteinä ehdollisessa satunnaiskentässä. Konekäännöksen menetelminä esitellään kohdekielen puolella tapahtuva monen tehtävän oppiminen sekä aikataulutettu monen tehtävän oppiminen, joka hyödyntää kohinaa poistavaa sekvenssiautoenkooderia. Lisäksi esitellään morfologisesti rikkaille kohdekielille soveltuva evaluaatiomenetelmä, LeBLEU. Konekäännöksen laatua arvioidaan sekä automaattisilla että ihmisarvioihin perustuvilla menetelmillä. Kun tavoitteena olevan käännöstehtävän resurssit ovat vähäisiä,tärkeimmät apuaineistot ovat sukulaiskielet. Myös yksikielisistä aineistoista on hyötyä.
Description
Supervising professor
Kurimo, Mikko, Prof., Aalto University, Department of Signal Processing and Acoustics, Finland
Thesis advisor
Virpioja, Sami, Dr., University of Helsinki, Finland
Keywords
machine translation, morpheme segmentation, subwords, unsupervised learning, semi-supervised learning, transfer learning, multi-task learning, active learning, konekäännös, morfeeemipilkonta, ohjaamaton oppiminen, puoliohjattu oppiminen, siirto-oppiminen, monen tehtävän oppiminen, aktiivinen koneoppiminen, syvät neuroverkot
Other note
Parts
  • [Publication 1]: Stig-Arne Grönroos, Sami Virpioja, Peter Smit, Mikko Kurimo. Morfessor F -Based Method for Unsupervised and Semi-Supervised Learning of Morphology. In Proceedings of The 25th International Conference on Computational Linguistics (COLING 2014); Dublin, Ireland, August 23-29, pp. 1177-1185, 2014
  • [Publication 2]: Teemu Ruokolainen, Oskar Kohonen, Kairit Sirts, Stig-Arne Grönroos, Sami Virpioja. A Comparative Study of Minimally Supervised Morphological Segmentation. Computational Linguistics, Vol 42;1, pp. 91-120, 2016
  • [Publication 3]: Grönroos, Stig-Arne ; Hiovain, Katri ; Smit, Peter ; Rauhala, Ilona ; Jokinen, Kristiina ; Kurimo, Mikko ; Virpioja, Sami. Low-Resource Active Learning of Morphological Segmentation. Northern European Journal of Language Technology, Vol 4 article 4 pp. 47-72, 2016.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201705114284
    DOI: 10.3384/nejlt.2000-1533.1644 View at publisher
  • [Publication 4]: Grönroos, Stig-Arne ; Virpioja, Sami ; Kurimo, Mikko. North Sámi morphological segmentation with low-resource semi-supervised sequence labeling. In Proceedings of Fifth Workshop on Computational Linguistics for Uralic Languages. Tartu, Estonia pp. 15-26, 2019.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201909255484
  • [Publication 5]: Grönroos, Stig-Arne ; Virpioja, Sami ; Kurimo, Mikko. Morfessor EM+Prune: Improved Subword Segmentation with Expectation Maximization and Pruning. Computation and Language. In Proceedings of The 12th Language Resources and Evaluation Conference, Marseille, France, 2020, pp. 3944-3953
  • [Publication 6]: Grönroos, Stig-Arne ; Virpioja, Sami ; Kurimo, Mikko. Hybrid Morphological Segmentation for Phrase-Based Machine Translation. In Proceedings of the First Conference on Machine Translation, Berlin, pp. 289-295, Germany 2016
  • [Publication 7]: Stig-Arne Grönroos, Sami Virpioja, Mikko Kurimo: Tuning Phrase-Based Segmented Translation for a Morphologically Complex Target Language. In Proceedings of The Tenth Workshop on Statistical Machine Translation (WMT15); Lisbon, Portugal, pp. 105-111, 2015
  • [Publication 8]: Grönroos, Stig-Arne ; Virpioja, Sami ; Kurimo, Mikko: Cognate-aware morphological segmentation for multilingual neural translation. In Proceedings of The Third Conference on Machine Translation (WMT18); Brussels, Belgium, pp. 386-393, 2018.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201901141152
  • [Publication 9]: Stig-Arne Grönroos, Sami Virpioja, Mikko Kurimo: Transfer learning and subword sampling for asymmetric-resource one-to-many neural translation.Accepted for publication in Machine Translation Vol 34, 2020
  • [Publication 10]: Grönroos, Stig-Arne ; Virpioja, Sami ; Kurimo, Mikko. Extending hybrid word-character neural machine translation with multi-task learning of morphological analysis. In Proceedings of The Second Conference on Machine Translation (WMT17); Copenhagen, Denmark, pp 296-302, 2017.
    Full text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201802091517
  • [Publication 11]: Grönroos, Stig-Arne ; Huet, Benoit ; Kurimo, Mikko ; Laaksonen, Jorma ; Merialdo, Bernard ; Pham, Phu ; Sjöberg, Mats ; Sulubacak, Umut ; Tiedemann, Jörg ; Troncy, Raphael ; Vázquez, Raúl. The MeMAD submission to the WMT18 multimodal translation task. In The Proceedings of the Third Conference on Machine Translation, Bryssel Belgium, pp. 603-611, 2018. Full Text in Acris/Aaltodoc: http://urn.fi/URN:NBN:fi:aalto-201812106084.
  • [Publication 12]: Sami Virpioja, Stig-Arne Grönroos. LeBLEU: N-gram-based Translation Evaluation Score for Morphologically Complex Languages. In Proceedings of the Tenth Workshop on Statistical Machine Translation, Lisbon, Portugal, pp. 411–416, 2015
Citation