Ruotsin kielen yhdyssanat ja niiden morfologinen käsittely tiedonhaussa
RAJALA, TIINA (2008)
RAJALA, TIINA
2008
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2008-05-02
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-18011
https://urn.fi/urn:nbn:fi:uta-1-18011
Tiivistelmä
Tutkimuksen tarkoituksena on kartoittaa yhdyssanojen roolia ruotsin kielessä tiedonhaun näkökulmasta. Empiirisen tutkimuksen ensimmäisessä osassa selvitetään yhdyssanojen määrää ja tyyppejä ruotsinkielisissä hakuaiheissa ja dokumenttiotoksessa. Yhdyssanatyypeistä erityisen kiinnostuksen kohteena on kompositionaalisten ja ei-kompositionaalisten yhdyssanojen suhde. Empiirisen tutkimuksen toisessa osassa tarkoituksena on vertailla erilaisia kyselysarjoja ja selvittää, onko yhdyssanojen morfologisesta käsittelystä hyötyä ruotsinkielisessä tiedonhaussa. Tutkimus on perinteinen tiedonhaun laboratoriotutkimus, jossa verrataan kolmea eri kyselysarjaa sekä yhdyssanoiltaan eliminoidussa että yhdyssanoiltaan eliminoimattomassa hakemistossa. Kyselysarjat koostuvat kolmenlaisista kyselyistä: a) perusmuotoinen kysely, jonka yhdyssanat ovat osittamattomina, b) perusmuotoinen, yhdyssanoiltaan ositettu kysely, yhdysosia ei eliminoitu sekä c) perusmuotoinen, yhdyssanoiltaan ositettu ja yhdysosiltaan eliminoitu kysely. Kyselysarjoista on vertailussa sekä rakenteeton kysely että rakenteinen #syn- ja #uw20-operaattoreita hyödyntävä versio. Aineistoina käytetään vuosien 2002 (49 hakuaihetta) ja 2003 (54 hakuaihetta) CLEF-aineistoja sekä Per Ahlgrenin kokoelmaa (51 hakuaihetta). Kyselyjen ja hakemistojen morfologisessa käsittelyssä käytetään SWETWOL-analyysiohjelmaa. Tiedonhakujärjestelmänä toimii Indri.
Hakuaiheiden ja dokumenttiotoksen yhdyssanojen tutkiminen osoitti, että yhdyssanoilla on tärkeä rooli tiedonhaussa. Yhdyssanojen määrä todettiin sekä hakuaiheissa että dokumenteissa aiemmin esitettyjä arvioita suuremmaksi. Sanaluokkien osalta esiintyy eniten substantiivisia yhdyssanoja, jotka ovat myös tiedonhaussa merkityksellisiä hakuavaimia. Toiseksi eniten esiintyy yhdyssanaverbejä, joiden osiin jakaminen ei kuitenkaan ole hyödyllistä. Kompositionaaliset yhdyssanat saavuttivat sekä hakuaiheissa että dokumenteissa 60 prosentin enemmistön, mutta myöskään ei-kompositionaalisten yhdyssanojen roolia ei ole syytä unohtaa. Koska enemmistö kuitenkin oli kompositionaalisia yhdyssanoja, voitaisiin olettaa, että yhdyssanojen käsittely tiedonhaussa olisi ruotsin kielessä tarkoituksenmukaista.
Rakenteisten kyselysarjojen osalta tutkimus ei kuitenkaan antanut selkeää vastausta siihen, kannattaako yhdyssanoja käsitellä ruotsin kielessä kyselyvaiheessa. Erot menetelmien välillä olivat pääasiassa pieniä eivätkä tilastollisesti merkitseviä. CLEF2003-aineisto antoi viitteitä siitä, että yhdyssanoja kannattaisi käsitellä ruotsin kielessä tiedonhaussa. CLEF2002-aineisto antoi kuitenkin päinvastaisia tuloksia, ja tämän aineiston osalta perusmuotoinen, yhdyssanoiltaan osittamaton kyselysarja oli parhaiten menestyvä menetelmä. Per Ahlgrenin kokoelman kyselysarjojen osalta yhdyssanojen osittaminen ilman yhdysosien eliminointia huononsi tarkkuusarvoja lähes kaikilla relevanssitasoilla. Yhdyssanojen osittaminen eliminointia hyödyntäen paransi tarkkuusarvoja kaikilla relevanssitasoilla, mutta erot perusmuotoiseen, osittamattomaan kyselysarjaan olivat hyvin pieniä. Rakenteisten kyselysarjojen osalta ei ole täysin selvää, missä määrin läheisyysoperaattoreiden käyttö vaikuttaa hakutuloksiin.
Hakuaihetasolla analysoitaessa rakenteisissa kyselyissä oli havaittavissa hakuaihekohtaista vaihtelua siinä, kannattaako yhdyssanoja käsitellä ruotsinkielisessä tiedonhaussa. Kaiken kaikkiaan hakuaihetason analyysin perusteella vaikuttaa siltä, että yhdyssanojen luonne ratkaisee, onko niiden käsitteleminen hyödyllistä vai ei. Kaikkia kompositionaalisiakaan yhdyssanoja ei ole hyödyllistä osittaa. Paikoitellen SWETWOL:n tekemillä virhetulkinnoilla oli myös vaikutusta eri kyselysarjojen menestymiseen.
Rakenteettomien kyselysarjojen tulokset puolestaan antoivat viitteitä siitä, että varsinkin yhdyssanojen osittaminen eliminointiperiaatetta hyödyntäen on tehokas menetelmä ruotsin kielessä. Kaiken kaikkiaan rakenteettomilla kyselysarjoilla saadut tarkkuusarvot olivat selvästi rakenteisilla kyselysarjoilla saatuja arvoja korkeampia, ja tilastollisesti merkitseviä eroja havaittiin erityisesti aineistojen rakenteisten ja rakenteettomien eliminoitujen kyselyiden välillä. Rakenteettomien kyselysarjojen osalta kaikissa aineistoissa eliminointi oli tarkkuusarvoiltaan paras menetelmä. Varsinkin CLEF2003- ja Ahlgren-kyselysarjoilla erot olivat kohtuullisen suuria, mutta eivät tilastollisesti merkitseviä. Myös yhdyssanojen osittaminen ilman eliminointia menestyi hyvin CLEF-aineistoissa, kun taas Ahlgren-kyselysarjojen osalta menetelmä menestyi huonoiten lähes kaikilla relevanssitasoilla.
Myös rakenteettomien kyselyiden hakuaihekohtainen vertailu vahvisti sitä, että yhdyssanoiltaan ositetut ja eliminoidut kyselyt paransivat eri hakuaiheiden tarkkuusarvoja useammin kuin eliminoimattomat kyselyt. Rakenteisten kyselyjen tavoin myös rakenteettomat kyselyt tarjosivat esimerkkejä kompositionaalisista yhdyssanoista, joita ei ole kannattavaa osittaa. Varsinkin eliminoimattomissa kyselyissä SWETWOL:n tekemät virhetulkinnat huononsivat tarkkuusarvoja.
Avainsanat: tiedonhaku, ruotsin kieli, yhdyssanat, yhdyssanojen osittaminen, morfologinen analyysi
Hakuaiheiden ja dokumenttiotoksen yhdyssanojen tutkiminen osoitti, että yhdyssanoilla on tärkeä rooli tiedonhaussa. Yhdyssanojen määrä todettiin sekä hakuaiheissa että dokumenteissa aiemmin esitettyjä arvioita suuremmaksi. Sanaluokkien osalta esiintyy eniten substantiivisia yhdyssanoja, jotka ovat myös tiedonhaussa merkityksellisiä hakuavaimia. Toiseksi eniten esiintyy yhdyssanaverbejä, joiden osiin jakaminen ei kuitenkaan ole hyödyllistä. Kompositionaaliset yhdyssanat saavuttivat sekä hakuaiheissa että dokumenteissa 60 prosentin enemmistön, mutta myöskään ei-kompositionaalisten yhdyssanojen roolia ei ole syytä unohtaa. Koska enemmistö kuitenkin oli kompositionaalisia yhdyssanoja, voitaisiin olettaa, että yhdyssanojen käsittely tiedonhaussa olisi ruotsin kielessä tarkoituksenmukaista.
Rakenteisten kyselysarjojen osalta tutkimus ei kuitenkaan antanut selkeää vastausta siihen, kannattaako yhdyssanoja käsitellä ruotsin kielessä kyselyvaiheessa. Erot menetelmien välillä olivat pääasiassa pieniä eivätkä tilastollisesti merkitseviä. CLEF2003-aineisto antoi viitteitä siitä, että yhdyssanoja kannattaisi käsitellä ruotsin kielessä tiedonhaussa. CLEF2002-aineisto antoi kuitenkin päinvastaisia tuloksia, ja tämän aineiston osalta perusmuotoinen, yhdyssanoiltaan osittamaton kyselysarja oli parhaiten menestyvä menetelmä. Per Ahlgrenin kokoelman kyselysarjojen osalta yhdyssanojen osittaminen ilman yhdysosien eliminointia huononsi tarkkuusarvoja lähes kaikilla relevanssitasoilla. Yhdyssanojen osittaminen eliminointia hyödyntäen paransi tarkkuusarvoja kaikilla relevanssitasoilla, mutta erot perusmuotoiseen, osittamattomaan kyselysarjaan olivat hyvin pieniä. Rakenteisten kyselysarjojen osalta ei ole täysin selvää, missä määrin läheisyysoperaattoreiden käyttö vaikuttaa hakutuloksiin.
Hakuaihetasolla analysoitaessa rakenteisissa kyselyissä oli havaittavissa hakuaihekohtaista vaihtelua siinä, kannattaako yhdyssanoja käsitellä ruotsinkielisessä tiedonhaussa. Kaiken kaikkiaan hakuaihetason analyysin perusteella vaikuttaa siltä, että yhdyssanojen luonne ratkaisee, onko niiden käsitteleminen hyödyllistä vai ei. Kaikkia kompositionaalisiakaan yhdyssanoja ei ole hyödyllistä osittaa. Paikoitellen SWETWOL:n tekemillä virhetulkinnoilla oli myös vaikutusta eri kyselysarjojen menestymiseen.
Rakenteettomien kyselysarjojen tulokset puolestaan antoivat viitteitä siitä, että varsinkin yhdyssanojen osittaminen eliminointiperiaatetta hyödyntäen on tehokas menetelmä ruotsin kielessä. Kaiken kaikkiaan rakenteettomilla kyselysarjoilla saadut tarkkuusarvot olivat selvästi rakenteisilla kyselysarjoilla saatuja arvoja korkeampia, ja tilastollisesti merkitseviä eroja havaittiin erityisesti aineistojen rakenteisten ja rakenteettomien eliminoitujen kyselyiden välillä. Rakenteettomien kyselysarjojen osalta kaikissa aineistoissa eliminointi oli tarkkuusarvoiltaan paras menetelmä. Varsinkin CLEF2003- ja Ahlgren-kyselysarjoilla erot olivat kohtuullisen suuria, mutta eivät tilastollisesti merkitseviä. Myös yhdyssanojen osittaminen ilman eliminointia menestyi hyvin CLEF-aineistoissa, kun taas Ahlgren-kyselysarjojen osalta menetelmä menestyi huonoiten lähes kaikilla relevanssitasoilla.
Myös rakenteettomien kyselyiden hakuaihekohtainen vertailu vahvisti sitä, että yhdyssanoiltaan ositetut ja eliminoidut kyselyt paransivat eri hakuaiheiden tarkkuusarvoja useammin kuin eliminoimattomat kyselyt. Rakenteisten kyselyjen tavoin myös rakenteettomat kyselyt tarjosivat esimerkkejä kompositionaalisista yhdyssanoista, joita ei ole kannattavaa osittaa. Varsinkin eliminoimattomissa kyselyissä SWETWOL:n tekemät virhetulkinnat huononsivat tarkkuusarvoja.
Avainsanat: tiedonhaku, ruotsin kieli, yhdyssanat, yhdyssanojen osittaminen, morfologinen analyysi