Karsittuja ja perusmuotoisia kyselyitä ja hakemistoja käyttämällä saatujen tulosjoukkojen päällekkäisyys
KUJALA, KIRSTI (2007)
KUJALA, KIRSTI
2007
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2007-10-25
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-17330
https://urn.fi/urn:nbn:fi:uta-1-17330
Tiivistelmä
Tutkielman tarkoituksena oli muodostaa suomen- ja englanninkielisistä kyselyistä ja hakemistoista erilaiset versiot perusmuoto-ohjelmien ja karsinta-algoritmien avulla, jotta voitaisiin selvittää, missä määrin erilaisilla kyselyversioilla saadut tulosjoukot ovat keskenään päällekkäisiä. Suomenkielisessä aineistossa perusmuotoisten ja karsittujen kyselyversioiden lisäksi muodostettiin ositetut perusmuo-toiset kyselyt. Aineistona tutkielmassa käytettiin suomenkielistä TUTKia ja englanninkielistä TREC-tietokantaa, jotka pitivät sisällään lähinnä sanomalehtiartikkeleja. Englanninkielisten kyselyiden perusmuotoistamiseen käytettiin perusmuoto-ohjelma Engtwolia ja suomenkielisten kyselyiden perusmuotoistamiseen Fintwolia. Englanninkielisten kyselyjen karsintaan käytettiin Porter-algoritmia ja suomenkieliset kyselyt karsittiin Snowball-ohjelmistolla. Tiedonhakujärjestelmänä oli osittaistäsmäyttävä Inquery.
Tutkielmassa tarkasteltiin päällekkäisyyden lisäksi myös kyselyjen tarkkuuksia. Englanninkielisessä aineistossa karsinta ja perusmuotoistaminen olivat tuloksellisuudeltaan hyvin samankaltaiset. Suomenkielisessä aineistossa ositettu perusmuotoinen ja perusmuotoinen kyselysarja olivat tuloksellisuudeltaan hyvin samankaltaiset. Sen sijaan perusmuotoistaminen ja karsinta, verrattiinpa karsitun kyselysarjan kanssa sitten ositettua perusmuotoista tai osittamatonta perusmuotoista kyselysarjaa, poikkesivat kahdella relevanssitasolla tuloksellisuudeltaan jopa niin paljon, että niiden väliltä löytyi käytännössä havaittavat erot. Erot johtuivat siitä, että karsinta oli tuloksellisuudeltaan heikoin näistä kolmesta kyselysarjasta.
Englanninkielisessä aineistossa perusmuotoisen ja karsitun kyselysarjan välinen päällekkäisyys oli melko suurta tarkasteltaessa päällekkäisyyttä kokonaisissa tulosjoukoissa, sillä se vaihteli 70 prosentista 74 prosenttiin. Kun päällekkäisyyden tarkastelu rajattiin TRECissa tulosjoukkojen relevantteihin osiin, päällekkäisyys vaihteli relevanssitasosta riippuen 39 prosentista 1 prosenttiin. Kun päällekkäisyyttä tarkasteltiin suomenkielisessä aineistossa kokonaisten tulosjoukkojen osalta, eniten päällekkäisyyttä oli ositetun perusmuotoisen ja perusmuotoisen kyselysarjan välillä (87–94 %). Toiseksi eniten päällekkäisyyttä oli perusmuotoistamisen ja karsinnan välillä (53–61 %). Vähäisintä päällekkäisyys oli suomenkielisen ositetun perusmuotoisen ja karsitun kyselysarjan välillä (47–57 %). Kun päällekkäisyyden tarkastelu rajattiin TUTKissa tulosjoukkojen relevantteihin osiin, päällekkäisyys vaihteli kolmen pareittaisen vertailun eri relevanssitasoilla 62 prosentista 1 prosenttiin. Suomenkielisessä aineistossa päällekkäisyyden määrän laskuun vaikutti keskeisesti karsittu kyselysarja. Päällekkäisyyden lasku pareittaisissa vertailuissa, joissa toisena osapuolena oli karsittu kyselysarja, johtui karsitun kyselysarjan heikommasta tuloksellisuudesta. Koska karsittu kyselysarja löysi relevantteja dokumentteja muita kyselysarjoja vähemmän, osoittautui niistä yhteisiksi verrattavan tulosjoukon kanssa vielä pienempi määrä.
Asiasanat: tiedonhaku, suomen kieli, englannin kieli, karsinta, perusmuotoistaminen, osittaminen, päällekkäisyys
Tutkielmassa tarkasteltiin päällekkäisyyden lisäksi myös kyselyjen tarkkuuksia. Englanninkielisessä aineistossa karsinta ja perusmuotoistaminen olivat tuloksellisuudeltaan hyvin samankaltaiset. Suomenkielisessä aineistossa ositettu perusmuotoinen ja perusmuotoinen kyselysarja olivat tuloksellisuudeltaan hyvin samankaltaiset. Sen sijaan perusmuotoistaminen ja karsinta, verrattiinpa karsitun kyselysarjan kanssa sitten ositettua perusmuotoista tai osittamatonta perusmuotoista kyselysarjaa, poikkesivat kahdella relevanssitasolla tuloksellisuudeltaan jopa niin paljon, että niiden väliltä löytyi käytännössä havaittavat erot. Erot johtuivat siitä, että karsinta oli tuloksellisuudeltaan heikoin näistä kolmesta kyselysarjasta.
Englanninkielisessä aineistossa perusmuotoisen ja karsitun kyselysarjan välinen päällekkäisyys oli melko suurta tarkasteltaessa päällekkäisyyttä kokonaisissa tulosjoukoissa, sillä se vaihteli 70 prosentista 74 prosenttiin. Kun päällekkäisyyden tarkastelu rajattiin TRECissa tulosjoukkojen relevantteihin osiin, päällekkäisyys vaihteli relevanssitasosta riippuen 39 prosentista 1 prosenttiin. Kun päällekkäisyyttä tarkasteltiin suomenkielisessä aineistossa kokonaisten tulosjoukkojen osalta, eniten päällekkäisyyttä oli ositetun perusmuotoisen ja perusmuotoisen kyselysarjan välillä (87–94 %). Toiseksi eniten päällekkäisyyttä oli perusmuotoistamisen ja karsinnan välillä (53–61 %). Vähäisintä päällekkäisyys oli suomenkielisen ositetun perusmuotoisen ja karsitun kyselysarjan välillä (47–57 %). Kun päällekkäisyyden tarkastelu rajattiin TUTKissa tulosjoukkojen relevantteihin osiin, päällekkäisyys vaihteli kolmen pareittaisen vertailun eri relevanssitasoilla 62 prosentista 1 prosenttiin. Suomenkielisessä aineistossa päällekkäisyyden määrän laskuun vaikutti keskeisesti karsittu kyselysarja. Päällekkäisyyden lasku pareittaisissa vertailuissa, joissa toisena osapuolena oli karsittu kyselysarja, johtui karsitun kyselysarjan heikommasta tuloksellisuudesta. Koska karsittu kyselysarja löysi relevantteja dokumentteja muita kyselysarjoja vähemmän, osoittautui niistä yhteisiksi verrattavan tulosjoukon kanssa vielä pienempi määrä.
Asiasanat: tiedonhaku, suomen kieli, englannin kieli, karsinta, perusmuotoistaminen, osittaminen, päällekkäisyys