Kohosen itseorganisoituvasta kartasta tekstidokumenttien tiedonhaussa
SAARIKOSKI, JYRI (2007)
SAARIKOSKI, JYRI
2007
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2007-02-12
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-16543
https://urn.fi/urn:nbn:fi:uta-1-16543
Tiivistelmä
Tässä tutkielmassa tarkastellaan tekstidokumenttien tiedonhakua itseorganisoituvan kartan (self-organizing map, SOM) avulla. Itseorganisoituva kartta on Teuvo Kohosen kehittämä neuroverkkomalli, jossa verkolle annetut syötteet organisoituvat kartaksi ohjaamattoman oppimisen seurauksena. Mallia on tähän mennessä sovellettu tiedonhaussa enimmäkseen erilaisten dokumenttijoukkojen järjestämiseen ja luokitteluun, mutta hakusovelluksissa sen käyttäminen on ollut melko vähäistä. Tutkielman tavoitteena oli kehittää hakujärjestelmä, jossa tekstidokumentit järjestetään itseorganisaation avulla kartaksi, jolta dokumenttien hakeminen olisi tehokasta.
Itseorganisoituvan kartan syötteisiin, alustamiseen ja opettamiseen liittyy useita muuttujia, jotka saattavat vaikuttaa lopputuloksena syntyvän kartan laatuun. Tutkielmassa on pyritty selvittämään näiden kartan luomiseen liittyvien muuttujien vaikutusta tiedonhakutilanteessa. Kehitettyä järjestelmää testattiin luomalla sen avulla 1160 saksankielistä uutisdokumenttia sisältävä dokumenttikartta ja hakemalla kartalta dokumentteja 20 eri aiheeseen liittyen. Aluksi luotiin kartta perusasetuksilla, jota testattiin sitten asetuksia muuttamalla. Tulosten perusteella luotiin muuttuja-asetuksiltaan paranneltu kartta, jota verrattiin sitten perusasetuksilla luotuun karttaan.
Kehitetyn itseorganisoituvaan karttaan perustuvan hakukoneen suoriutuminen tekstidokumenttien tiedonhaussa osoittautui vähintäänkin kelvolliseksi. Testaamisen tuloksena sen suorituskykyä pystyttiin myös tehostamaan, mikä osoittaa, että kartan luomiseen liittyvillä muuttujilla on merkitystä tiedonhaun kannalta. Lisäksi järjestelmän tuottama kaksiulotteinen dokumenttikartta antaa tiedonhakijalle mahdollisuuden selata järjestettyä dokumenttijoukkoa intuitiivisella tavalla, mikä tuo merkittävästi lisäarvoa itseorganisoituvan kartan käyttämiselle tiedonhaussa.
Avainsanat ja -sanonnat: neuroverkko, itseorganisoituva kartta, SOM, Kohosen kartta, tiedonhaku, tekstitiedonhaku.
Itseorganisoituvan kartan syötteisiin, alustamiseen ja opettamiseen liittyy useita muuttujia, jotka saattavat vaikuttaa lopputuloksena syntyvän kartan laatuun. Tutkielmassa on pyritty selvittämään näiden kartan luomiseen liittyvien muuttujien vaikutusta tiedonhakutilanteessa. Kehitettyä järjestelmää testattiin luomalla sen avulla 1160 saksankielistä uutisdokumenttia sisältävä dokumenttikartta ja hakemalla kartalta dokumentteja 20 eri aiheeseen liittyen. Aluksi luotiin kartta perusasetuksilla, jota testattiin sitten asetuksia muuttamalla. Tulosten perusteella luotiin muuttuja-asetuksiltaan paranneltu kartta, jota verrattiin sitten perusasetuksilla luotuun karttaan.
Kehitetyn itseorganisoituvaan karttaan perustuvan hakukoneen suoriutuminen tekstidokumenttien tiedonhaussa osoittautui vähintäänkin kelvolliseksi. Testaamisen tuloksena sen suorituskykyä pystyttiin myös tehostamaan, mikä osoittaa, että kartan luomiseen liittyvillä muuttujilla on merkitystä tiedonhaun kannalta. Lisäksi järjestelmän tuottama kaksiulotteinen dokumenttikartta antaa tiedonhakijalle mahdollisuuden selata järjestettyä dokumenttijoukkoa intuitiivisella tavalla, mikä tuo merkittävästi lisäarvoa itseorganisoituvan kartan käyttämiselle tiedonhaussa.
Avainsanat ja -sanonnat: neuroverkko, itseorganisoituva kartta, SOM, Kohosen kartta, tiedonhaku, tekstitiedonhaku.