Kielen tunnistus koneoppimismenetelmillä
Koskimies, Aino (2018)
Koskimies, Aino
2018
Tietotekniikka
Tieto- ja sähkötekniikan tiedekunta - Faculty of Computing and Electrical Engineering
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2018-01-10
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-201712142345
https://urn.fi/URN:NBN:fi:tty-201712142345
Tiivistelmä
Koneoppimismenetelmien avulla aineistosta voidaan irrottaa piirteitä ja luokitella se eri luokkiin näiden piirteiden perusteella. Erilaisia piirteenirrotus- ja luokittelumenetelmiä hyödyntämällä on mahdollista esimerkiksi tunnistaa kirjoitetusta tekstistä sen kieli. Tässä työssä esitellään erilaisia ohjattua oppimista käyttäviä koneoppimismenetelmiä ja kokeillaan niiden soveltuvuutta kielen tunnistamiseen. Työssä käytettyjä piirteenirrotusmenetelmiä ovat TF-IDF ja n-gram, kun taas luokitteluun käytettyihin menetelmiin kuuluvat random forest, logistinen regressio ja tukivektorikone.
Algoritmien esittelemisen lisäksi käydään vaihe kerrallaan läpi kielen tunnistuksessa tapahtuva koneoppimisprosessi. Työssä esitetään testauksen tulokset ja niiden pohjalta jokaisen menetelmän suoriutumista arvioidaan. Tutkimuksen perusteella nähdään, että kaikki tässä työssä käsitellyt piirteenirrotus- ja luokittelumenetelmät soveltuvat hyvin tekstin luokitteluun kirjoituskielen perusteella.
Algoritmien esittelemisen lisäksi käydään vaihe kerrallaan läpi kielen tunnistuksessa tapahtuva koneoppimisprosessi. Työssä esitetään testauksen tulokset ja niiden pohjalta jokaisen menetelmän suoriutumista arvioidaan. Tutkimuksen perusteella nähdään, että kaikki tässä työssä käsitellyt piirteenirrotus- ja luokittelumenetelmät soveltuvat hyvin tekstin luokitteluun kirjoituskielen perusteella.
Kokoelmat
- Kandidaatintutkielmat [6978]