Sijamuodot haussa - tarvitseeko kaikkea hakutermien morfologista vaihtelua kattaa?
KETTUNEN, KIMMO (2005)
KETTUNEN, KIMMO
2005
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2005-11-11
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-15155
https://urn.fi/urn:nbn:fi:uta-1-15155
Tiivistelmä
Hakutermit:
tiedonhaku, suomen kieli, osittaistäsmäytys, morfologia, sijamuotojen yleisyystilastot
Tutkimuksessa selvitettiin, tarvitseeko suomenkielisessä tekstitiedonhaussa kattaa hakutermien morfologista vaihtelua kaikkien sijamuotojen osalta. Suomen substantiivien muotojen runsautta tarkastellaan työssä ensin kieliaineistojen pohjalta. Neljän eri kieliaineiston analyysin perusteella todetaan, että suomen kielen kuusi yleisintä sijamuotoa (nominatiivi, genetiivi, partitiivi, inessiivi, elatiivi ja illatiivi) kattavat teksteissä esiintyvistä substantiivien muodoista jo noin 85 %. Lisäksi todetaan 11,3 miljoonan substantiivin automaattisen morfologisen analyysin avulla, että liitepartikkelit ja omistusliitteet, jotka kasvattavat substantiivien kieliopillisten muotojen laskennallisen määrän suureksi (noin 2000 muotoa), ovat niin harvinaisia, että niiden käsittely tiedonhaussa tuskin on tarpeen.
Kieliaineistojen analyysituloksen perusteella oletettiin, että kattamalla hakutermien muodon muuntelusta vain yleisimmän 36 sijamuodon muuntelu (312 erilaista hakutermin muotoa) saavutetaan riittävän hyviä hakutuloksia. Oletuksia testattiin kahdessa tekstitietokannassa: TUTKissa ja CLEF 2003 kokoelmassa osittaistäsmäyttävällä InQuery-hakujärjestelmällä. Verrokkeina rajalliselle sijamuotomenetelmälle olivat lemmaus (perusmuotoistaminen) FINTWOL-ohjelmalla sekä karsinta Snowball-ohjelmalla.
Tekstitietokannoissa tehtyjen hakujen perusteella todettiin, että käyttämällä hauissa yhdeksää erilaista hakutermin muotoa saavutetaan optimaalisin hakutulos. Kahdellatoista hakutermin muodolla saavutetaan hiukan parempi keskitarkkuus, mutta ero yhdeksään muotoon on marginaalinen. Vertailtavilla menetelmillä saavutettujen hakutulosten tilastollisen merkitsevyyden testeissä todettiin, että CLEF 2003 kokoelmassa tilastollisesti merkitseviä eroja ei ollut kuin lemmauksen ja yhden rajoitetun sijamuotoprosessin välillä. TUTK-kokoelmassa lemmauksen ja rajallisten sijamuotoprosessien erot olivat lähes aina tilastollisesti merkitseviä, mutta muiden menetelmien väliset erot eivät olleet.
Johtopäätökseksi työstä jää, että esitetty rajallinen suomen kielen hakutermien muuntelun kattaminen antaa parhaimmillaan kohtuullisen hyviä hakutuloksia. Menetelmää voi soveltaa myös muihin runsaasti taipuviin kieliin, koska se perustuu sanojen eri sijamuotojen erilaiseen frekvenssiin kielessä ja on siten yleistettävissä.
tiedonhaku, suomen kieli, osittaistäsmäytys, morfologia, sijamuotojen yleisyystilastot
Tutkimuksessa selvitettiin, tarvitseeko suomenkielisessä tekstitiedonhaussa kattaa hakutermien morfologista vaihtelua kaikkien sijamuotojen osalta. Suomen substantiivien muotojen runsautta tarkastellaan työssä ensin kieliaineistojen pohjalta. Neljän eri kieliaineiston analyysin perusteella todetaan, että suomen kielen kuusi yleisintä sijamuotoa (nominatiivi, genetiivi, partitiivi, inessiivi, elatiivi ja illatiivi) kattavat teksteissä esiintyvistä substantiivien muodoista jo noin 85 %. Lisäksi todetaan 11,3 miljoonan substantiivin automaattisen morfologisen analyysin avulla, että liitepartikkelit ja omistusliitteet, jotka kasvattavat substantiivien kieliopillisten muotojen laskennallisen määrän suureksi (noin 2000 muotoa), ovat niin harvinaisia, että niiden käsittely tiedonhaussa tuskin on tarpeen.
Kieliaineistojen analyysituloksen perusteella oletettiin, että kattamalla hakutermien muodon muuntelusta vain yleisimmän 36 sijamuodon muuntelu (312 erilaista hakutermin muotoa) saavutetaan riittävän hyviä hakutuloksia. Oletuksia testattiin kahdessa tekstitietokannassa: TUTKissa ja CLEF 2003 kokoelmassa osittaistäsmäyttävällä InQuery-hakujärjestelmällä. Verrokkeina rajalliselle sijamuotomenetelmälle olivat lemmaus (perusmuotoistaminen) FINTWOL-ohjelmalla sekä karsinta Snowball-ohjelmalla.
Tekstitietokannoissa tehtyjen hakujen perusteella todettiin, että käyttämällä hauissa yhdeksää erilaista hakutermin muotoa saavutetaan optimaalisin hakutulos. Kahdellatoista hakutermin muodolla saavutetaan hiukan parempi keskitarkkuus, mutta ero yhdeksään muotoon on marginaalinen. Vertailtavilla menetelmillä saavutettujen hakutulosten tilastollisen merkitsevyyden testeissä todettiin, että CLEF 2003 kokoelmassa tilastollisesti merkitseviä eroja ei ollut kuin lemmauksen ja yhden rajoitetun sijamuotoprosessin välillä. TUTK-kokoelmassa lemmauksen ja rajallisten sijamuotoprosessien erot olivat lähes aina tilastollisesti merkitseviä, mutta muiden menetelmien väliset erot eivät olleet.
Johtopäätökseksi työstä jää, että esitetty rajallinen suomen kielen hakutermien muuntelun kattaminen antaa parhaimmillaan kohtuullisen hyviä hakutuloksia. Menetelmää voi soveltaa myös muihin runsaasti taipuviin kieliin, koska se perustuu sanojen eri sijamuotojen erilaiseen frekvenssiin kielessä ja on siten yleistettävissä.