Applications of S-grams in Natural Language Information Retrieval

Järvelin, Anni

Applications of S-grams in Natural Language Information Retrieval

Järvelin, Anni (2014)

Avaa tiedosto

978-951-44-9675-2.pdf (3.275Mt)

Lataukset:

Järvelin, Anni

Tampere University Press

2014

Informaatiotutkimus - Information Studies
Informaatiotieteiden yksikkö - School of Information Sciences

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.

Väitöspäivä

2014-12-18

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-951-44-9675-2

Tiivistelmä

Menetelmiä luonnollisen kielen variaation hallintaan tiedonhaussa

Tiedonhakujärjestelmät perustuvat ajatukseen, että dokumenteissa esiintyvät sanat kuvaavat niitä aihepiirejä joihin dokumentti liittyy. Tiedonhakujärjestelmät toimivat sitten siten että tiedonhakijan (käyttäjän) järjetelmälle esittämiä hakusanoja verrataan dokumenttien sanoihin. Dokumentit joiden sanastossa hakusanat ovat keskeisiä liittyvät todennäköisesti siihen aihepiiriin jota hakusanat kuvaavat ja ovat siten mahdollisesti relevantteja tiedonhakijalle.

Sanat esiintyvät teksteissä monissa eri muodoissa: sanat taipuvat ja sisältävät virheitä, niiden kirjoitusasu vaihtelee ajan myötä ja eri kielissä. Väitöskirjassani tutkin menetelmiä joiden avulla luonnollisessa kielessä esiintyvää variaatiota voidaan hallita siten että tiedonhakujärjestelmät voivat tunnistaa saman sanan eri muodot yhteenkuuluviksi. Esimerkiksi perusmuodossa esitetty hakusana pitäisi tunnistaa samaksi sanaksi kuin dokumenteissa esiintyvät taivutusmuodot. Olen keskittynyt tutkimuksessani yhden sumean merkkijonotäsmäytysmenetelmän, s-grammien, eri sovellusalueiden tutkimiseen. Olen käyttänyt menetelmää käännöksessä läheisten sukulaiskielten välillä, monikielisessä kuvatiedonhaussa, sekä historiallisten dokumenttien haussa.

Tutkimustulokseni osoittavat että yksinkertaisilla ja kieliriippumattomilla menetelmillä voidaan saavuttaa hyviä tuloksia. Etenkin s-grammit ovat sovellettavissa tilanteissa joissa korkealaatuisia kielitieteellistä informaatiota soveltavia menetelmiä ei ole syystä tai toisesta saatavilla.

Kokoelmat

Väitöskirjat [4768]