Applications of S-grams in Natural Language Information Retrieval
Järvelin, Anni (2014)
Järvelin, Anni
Tampere University Press
2014
Informaatiotutkimus - Information Studies
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2014-12-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-951-44-9675-2
https://urn.fi/URN:ISBN:978-951-44-9675-2
Tiivistelmä
Menetelmiä luonnollisen kielen variaation hallintaan tiedonhaussa
Tiedonhakujärjestelmät perustuvat ajatukseen, että dokumenteissa esiintyvät sanat kuvaavat niitä aihepiirejä joihin dokumentti liittyy. Tiedonhakujärjestelmät toimivat sitten siten että tiedonhakijan (käyttäjän) järjetelmälle esittämiä hakusanoja verrataan dokumenttien sanoihin. Dokumentit joiden sanastossa hakusanat ovat keskeisiä liittyvät todennäköisesti siihen aihepiiriin jota hakusanat kuvaavat ja ovat siten mahdollisesti relevantteja tiedonhakijalle.
Sanat esiintyvät teksteissä monissa eri muodoissa: sanat taipuvat ja sisältävät virheitä, niiden kirjoitusasu vaihtelee ajan myötä ja eri kielissä. Väitöskirjassani tutkin menetelmiä joiden avulla luonnollisessa kielessä esiintyvää variaatiota voidaan hallita siten että tiedonhakujärjestelmät voivat tunnistaa saman sanan eri muodot yhteenkuuluviksi. Esimerkiksi perusmuodossa esitetty hakusana pitäisi tunnistaa samaksi sanaksi kuin dokumenteissa esiintyvät taivutusmuodot. Olen keskittynyt tutkimuksessani yhden sumean merkkijonotäsmäytysmenetelmän, s-grammien, eri sovellusalueiden tutkimiseen. Olen käyttänyt menetelmää käännöksessä läheisten sukulaiskielten välillä, monikielisessä kuvatiedonhaussa, sekä historiallisten dokumenttien haussa.
Tutkimustulokseni osoittavat että yksinkertaisilla ja kieliriippumattomilla menetelmillä voidaan saavuttaa hyviä tuloksia. Etenkin s-grammit ovat sovellettavissa tilanteissa joissa korkealaatuisia kielitieteellistä informaatiota soveltavia menetelmiä ei ole syystä tai toisesta saatavilla.
Tiedonhakujärjestelmät perustuvat ajatukseen, että dokumenteissa esiintyvät sanat kuvaavat niitä aihepiirejä joihin dokumentti liittyy. Tiedonhakujärjestelmät toimivat sitten siten että tiedonhakijan (käyttäjän) järjetelmälle esittämiä hakusanoja verrataan dokumenttien sanoihin. Dokumentit joiden sanastossa hakusanat ovat keskeisiä liittyvät todennäköisesti siihen aihepiiriin jota hakusanat kuvaavat ja ovat siten mahdollisesti relevantteja tiedonhakijalle.
Sanat esiintyvät teksteissä monissa eri muodoissa: sanat taipuvat ja sisältävät virheitä, niiden kirjoitusasu vaihtelee ajan myötä ja eri kielissä. Väitöskirjassani tutkin menetelmiä joiden avulla luonnollisessa kielessä esiintyvää variaatiota voidaan hallita siten että tiedonhakujärjestelmät voivat tunnistaa saman sanan eri muodot yhteenkuuluviksi. Esimerkiksi perusmuodossa esitetty hakusana pitäisi tunnistaa samaksi sanaksi kuin dokumenteissa esiintyvät taivutusmuodot. Olen keskittynyt tutkimuksessani yhden sumean merkkijonotäsmäytysmenetelmän, s-grammien, eri sovellusalueiden tutkimiseen. Olen käyttänyt menetelmää käännöksessä läheisten sukulaiskielten välillä, monikielisessä kuvatiedonhaussa, sekä historiallisten dokumenttien haussa.
Tutkimustulokseni osoittavat että yksinkertaisilla ja kieliriippumattomilla menetelmillä voidaan saavuttaa hyviä tuloksia. Etenkin s-grammit ovat sovellettavissa tilanteissa joissa korkealaatuisia kielitieteellistä informaatiota soveltavia menetelmiä ei ole syystä tai toisesta saatavilla.
Kokoelmat
- Väitöskirjat [4768]