Moniarvoisen relevanssin hyödyntäminen XML-tiedonhakujen evaluoinnissa
SAARI, MIKKO (2006)
SAARI, MIKKO
2006
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2006-05-15
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-15677
https://urn.fi/urn:nbn:fi:uta-1-15677
Tiivistelmä
Tutkimus käsittelee moniarvoisen relevanssin käyttämistä XML-tiedonhaun kontekstissa. Erityisesti työ liittyy INEX-konferenssin (Initiative for the Evaluation of XML Retrieval) puitteissa tehtävään tiedonhaun evaluoinnin tutkimukseen ja sen ongelmiin. Työssä pureudutaan kahteen vakavimpaan XML-tiedonhaun evaluoinnissa havaittuun ongelmaan: tuloslistan päällekkäisyyteen ja ylikansoitetun saantikannan ongelmaan.
Näiden ongelmien luonne kuvataan INEXin kontekstissa. Ratkaisuksi ongelmiin esitellään erilaisia vaihtoehtoisia tiedonhaun evaluoinnin mittareita. Olennaisin käsiteltävä evaluoinnin apuväline on XCG-mitta, jonka toiminta kuvataan yksityiskohtaisesti sen taustalla olevaa kertynyt hyöty -mittaa myöten. Lisäksi esitellään työtä varten kehitetty XCG-mittaa käyttävä evaluointityökalu ja sillä saatuja evaluointituloksia, jotka havainnollistavat ongelmia ja niiden vaikutuksia tiedonhaun evaluoinnissa.
Evaluointityökalun tulosten perusteella voidaan todeta, että kertynyt hyöty -mittaan perustuva XCG-mitta toimii hyvin XML-tiedonhakujen evaluoinnissa. Tarkastellut ja työn puitteissa kehitetyt ratkaisuehdotukset päällekkäisyyden ja ylikansoitetun saantikannan ongelmiin toimivat ja antavat käyttäjälle mielekkäämpiä tuloksia XML-tiedonhakuja evaluoitaessa. Kehitetty evaluointityökalu toimii halutulla tavalla rankaisten käyttäjän näkökulmasta vähemmän hyödyllisiä päällekkäisiä tuloksia tuottavaa järjestelmää.
Avainsanat: tiedonhakujärjestelmät, arviointi, moniarvoinen relevanssi, XML
Näiden ongelmien luonne kuvataan INEXin kontekstissa. Ratkaisuksi ongelmiin esitellään erilaisia vaihtoehtoisia tiedonhaun evaluoinnin mittareita. Olennaisin käsiteltävä evaluoinnin apuväline on XCG-mitta, jonka toiminta kuvataan yksityiskohtaisesti sen taustalla olevaa kertynyt hyöty -mittaa myöten. Lisäksi esitellään työtä varten kehitetty XCG-mittaa käyttävä evaluointityökalu ja sillä saatuja evaluointituloksia, jotka havainnollistavat ongelmia ja niiden vaikutuksia tiedonhaun evaluoinnissa.
Evaluointityökalun tulosten perusteella voidaan todeta, että kertynyt hyöty -mittaan perustuva XCG-mitta toimii hyvin XML-tiedonhakujen evaluoinnissa. Tarkastellut ja työn puitteissa kehitetyt ratkaisuehdotukset päällekkäisyyden ja ylikansoitetun saantikannan ongelmiin toimivat ja antavat käyttäjälle mielekkäämpiä tuloksia XML-tiedonhakuja evaluoitaessa. Kehitetty evaluointityökalu toimii halutulla tavalla rankaisten käyttäjän näkökulmasta vähemmän hyödyllisiä päällekkäisiä tuloksia tuottavaa järjestelmää.
Avainsanat: tiedonhakujärjestelmät, arviointi, moniarvoinen relevanssi, XML