Sanakirjariippumattomat menetelmät läheisten sukulaiskielten välisessä tiedonhaussa
KUMPULAINEN, SANNA; JÄRVELIN, ANNI (2005)
KUMPULAINEN, SANNA
JÄRVELIN, ANNI
2005
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2005-10-26
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-15105
https://urn.fi/urn:nbn:fi:uta-1-15105
Tiivistelmä
Hakutermit:
tiedonhaku
Tutkimuksen tarkoituksena oli selvittää ovatko sanakirjariippumattomat merkkijonomenetelmät yksinään riittäviä kyselynkäännösmenetelmiä kieltenvälisessä tiedonhaussa läheisten sukulaiskielten norjan ja ruotsin välillä. Tarkoituksena oli tutkia merkkijonomenetelmien kilpailukykyisyyttä verrattuna yleisimpään käännösmenetelmään sanakirjakäännökseen, sekä mahdollisuutta korvata sanakirjakäännös kokonaan näillä menetelmillä läheisten sukulaiskielten välisessä tiedonhaussa. Lisäksi sanakirjariippumattomia merkkijonomenetelmiä vertailtiin toisiinsa parhaan menetelmän löytämiseksi.
Tutkimusaineistona käytettiin vuoden 2003 CLEF hakuaiheita, joista muodostettiin viisi testikyselysettiä tutkittavien käännösmenetelmien avulla, sekä kolme peruskyselysettiä. Tutkittavia käännösmenetelmiä olivat n-grammimenetelmä, s-grammimenetelmä, TRT-menetelmä sekä yhdistetty TRT-digrammimenetelmä. S-grammeista muodostettiin kaksi kyselysettiä erilaisten grammien vertailuluokkien vertailemiseksi. Peruskyselyinä käytettiin norjankielistä kyselyä, ruotsinkielistä kääntämätöntä kyselyä ja sanakirjan avulla käännettyä kyselyä. Tiedonhakujärjestelmänä käytettiin Inquery-järjestelmää ja tuloksellisuutta mitattiin tarkkuuskeskiarvona eri saantitasoilla ja yli kaikkien kyselyiden sekä tarkkuutena eri DCV-katkaisupisteissä.
Tutkimustulokset osoittavat, että sanakirjariippumattomat merkkijonomenetelmät ovat tiedonhaussa läheisten sukulaiskielten norjan ja ruotsin välillä kilpailukykyisiä kyselynkäännösmenetelmiä sanakirjakäännöksen kanssa. Täten tulokset antavat alustavasti ymmärtää, että sanakirjakäännös voitaisiin tällaisessa tiedonhaussa korvata sanakirjariippumattomilla merkkijonomenetelmillä. Käännösmenetelmien välille ei syntynyt suuria eroja, ja sekä s-grammit että yhdistetty TRT-digrammi menetelmä antoivat erittäin lupaavia tuloksia.
tiedonhaku
Tutkimuksen tarkoituksena oli selvittää ovatko sanakirjariippumattomat merkkijonomenetelmät yksinään riittäviä kyselynkäännösmenetelmiä kieltenvälisessä tiedonhaussa läheisten sukulaiskielten norjan ja ruotsin välillä. Tarkoituksena oli tutkia merkkijonomenetelmien kilpailukykyisyyttä verrattuna yleisimpään käännösmenetelmään sanakirjakäännökseen, sekä mahdollisuutta korvata sanakirjakäännös kokonaan näillä menetelmillä läheisten sukulaiskielten välisessä tiedonhaussa. Lisäksi sanakirjariippumattomia merkkijonomenetelmiä vertailtiin toisiinsa parhaan menetelmän löytämiseksi.
Tutkimusaineistona käytettiin vuoden 2003 CLEF hakuaiheita, joista muodostettiin viisi testikyselysettiä tutkittavien käännösmenetelmien avulla, sekä kolme peruskyselysettiä. Tutkittavia käännösmenetelmiä olivat n-grammimenetelmä, s-grammimenetelmä, TRT-menetelmä sekä yhdistetty TRT-digrammimenetelmä. S-grammeista muodostettiin kaksi kyselysettiä erilaisten grammien vertailuluokkien vertailemiseksi. Peruskyselyinä käytettiin norjankielistä kyselyä, ruotsinkielistä kääntämätöntä kyselyä ja sanakirjan avulla käännettyä kyselyä. Tiedonhakujärjestelmänä käytettiin Inquery-järjestelmää ja tuloksellisuutta mitattiin tarkkuuskeskiarvona eri saantitasoilla ja yli kaikkien kyselyiden sekä tarkkuutena eri DCV-katkaisupisteissä.
Tutkimustulokset osoittavat, että sanakirjariippumattomat merkkijonomenetelmät ovat tiedonhaussa läheisten sukulaiskielten norjan ja ruotsin välillä kilpailukykyisiä kyselynkäännösmenetelmiä sanakirjakäännöksen kanssa. Täten tulokset antavat alustavasti ymmärtää, että sanakirjakäännös voitaisiin tällaisessa tiedonhaussa korvata sanakirjariippumattomilla merkkijonomenetelmillä. Käännösmenetelmien välille ei syntynyt suuria eroja, ja sekä s-grammit että yhdistetty TRT-digrammi menetelmä antoivat erittäin lupaavia tuloksia.