Tietolinja

Tietolinja
01/2006

Ystävämme Google:

E-thesis-palvelun käyttötilastojen kertomaa

Jyrki Ilva
Helsingin yliopiston kirjasto

URN:NBN:fi-fe20061290


Pääkirjoitus
Artikkelit
Uutisia,
ajankohtaista


Kirjastomaailmassa on parin viime vuoden aikana ollut yhä suurempaa taipumusta esittää Googlen ja Amazonin kaltaiset globaalit verkkopalvelut uhkana kirjastojen omille palveluille. Avoimen verkkojulkaisemisen näkökulmasta tilanne näyttäytyy kuitenkin toisenlaisena: Google on julkaisijan paras ystävä.

Kirjastoista on tullut verkkoympäristössä entistä enemmän myös aineistojen julkaisijoita. Julkaisijan näkökulma poikkeaa kuitenkin oleellisesti kirjaston perinteisestä roolista: siinä missä kirjastot toimivat aiemmin ensisijaisesti muiden julkaisemien aineistojen välittäjinä paikallisille asiakkaille, julkaisutoiminta suuntautuu selkeämmin ulospäin. Vaikka miten haluaisi olla lojaali omalle organisaatiolle ja sen tarjoamille palveluille, julkaisutoiminnan kannalta on lopulta merkittävintä se, että julkaisut tavoittavat mahdollisimman laajan yleisön ja mahdollisimman paljon sellaisia lukijoita, joiden kannalta ne ovat relevantteja.

Artikkelini perustuu Helsingin yliopiston kirjaston ylläpitämän E-thesis-palvelun kokemuksiin ja erityisesti sen käyttötilastoihin vuosilta 2004 ja 2005. Vaikka tarkastelen asioita ruohonjuuritasolta yhden yksittäisen julkaisupalvelun näkökulmasta, yritän pohtia myös laajemmin verkkojulkaisujen näkyvyyteen ja löytyvyyteen liittyviä kysymyksiä. Miten paljon aineistoja ylipäänsä käytetään ja miten tiedonhakijat päätyvät verkossa julkaistujen aineistojen äärelle? Jälkimmäisen kysymyksen kohdalla päädyn väistämättä pohtimaan myös Googlen roolia ja merkitystä.

 

1. Yleistä E-thesiksen julkaisujen käytöstä

E-thesis-palvelu on julkaissut Helsingin yliopiston opinnäytteitä ja sarjajulkaisuja verkossa jo vuodesta 1999 lähtien (E-thesiksen toiminnasta ja aiemmista vaiheista laajemmin ks. Tietolinja 2/2003). Aineisto on viime aikoina karttunut vuosittain yli 400 uudella julkaisulla, ja vuoden 2005 loppuun mennessä palvelussa oli ilmestynyt yhteensä jo yli 2000 julkaisua. Noin kolme neljäsosaa julkaisuista on väitöskirjoja.

Taulukko 1: E-thesiksen julkaisujen kokonaismäärä vuoden lopussa

Julkaisun tyyppi 2004 2005
Väitöskirja 1250 1551
Lisensiaatintyö 16 19
Pro gradu 230 308
Sarjajulkaisut 120 187

Vaikka open access ei vielä vuonna 1999 ollut samanlainen muoti-ilmiö kuin nykyään, E-thesiksen julkaisut ovat kuitenkin olleet alusta lähtien vapaasti kaikkien kiinnostuneiden luettavissa ja tulostettavissa. Julkaisut ovat samalla hakurobottien ulottuvilla, sillä ne on linkitettu kiinteille www-sivuille, eikä niitä ole piilotettu minkään tietokantaratkaisun taakse. Niinpä E-thesiksen julkaisut ovat olleet palvelun avaamisesta lähtien hyvin esillä useimpien verkkoa haravoivien hakukoneiden hakutuloksissa ja julkaisut ovat keränneet tätä kautta runsaasti lukijoita.

E-thesiksen julkaisujen tekniseksi formaatiksi on vakiintunut PDF. Toiminnan alkuvaiheessa vuosina 1999-2000 monista julkaisuista tuotettiin tosin vielä erillinen HTML-versio siinä toivossa, että julkaisu olisi tässä muodossa helpommin luettavissa ruudulta ja se myös indeksoituisi hakukoneisiin. Tältä osin tilanne kääntyi kuitenkin päälaelleen jo alkuvuodesta 2001, kun Google aloitti myös PDF-tiedostojen indeksoinnin, ja useimmat muut keskeiset hakukoneet seurasivat vähitellen perässä. Aluksi PDF-tiedostot saattoivat olla Googlen hakutuloksissa vasta tuloslistan lopussa, mutta nykyään ne löytyvät käytännössä aivan yhtä hyvin kuin HTML-sivutkin. Tämä kertoo paitsi indeksointialgoritmien kehityksestä myös siitä, että PDF:n asema etenkin tieteellisen julkaisemisen tärkeimpänä sähköisenä julkaisuformaattina on 2000-luvun kuluessa entisestään vahvistunut.

PDF:n aseman vahvistumisesta huolimatta E-thesiksen julkaisuilla on yhä HTML-muotoinen nimiösivu, jolle on koottu julkaisun keskeiset metatiedot ja jolta on linkki itse PDF-tiedostoon. E-thesiksen käyttäjille suunnatuissa ohjeissa kehotetaan edelleen linkittämään nimenomaan julkaisun nimiösivuun, ei suoraan julkaisun PDF-tiedostoon. Tämän politiikan perusteluna oli alun perin se, että PDF-tiedostojen lataamisesta haluttiin ensin varoittaa lukijoita, mutta laajakaistayhteyksien yleistymisen ja nopeutumisen myötä megatavujenkaan kokoisten PDF-tiedostojen lataamiseen ei enää liity mitään kovin suurta kynnystä.

Vaikka verkkoaineistojen käytön tilastointi on edistynyt huimasti kymmenen vuoden takaisesta tilanteesta, jossa verkkopalveluiden ylläpitäjät kertoivat ylpeinä palveluidensa keränneen niin ja niin monta miljoonaa "hittiä", automaattisesti tuotettuja käyttötilastoja tulkitessaan kannattaa edelleen olla hyvin varovainen. Suurilla kaupallisilla tieteellisten aineistojen tarjoajilla on toki ollut oma yhteinen COUNTER-projektinsa, jossa eri palveluiden tilastointimetodeja on pyritty yhdenmukaistamaan ja standardoimaan. Vapaiden verkkoaineistojen kohdalla ei ole aivan samanlaisia paineita tarkkojen ja luotettavien tilastojen tuottamiseen, mutta niidenkin kohdalla on kuitenkin hyvä pysähtyä miettimään mitä oikein tilastoidaan ja miten.

Vaikka esim. tiedostojen latauskertojen laskeminen kuulostaa sinänsä objektiiviselta puuhalta, lukuja ei kuitenkaan kannata suoraan rinnastaa esim. painettujen kirjojen lainaus- tai myyntilukuihin. "Latauskerta" kertoo todellakin vain tiedoston lataamisesta, emmekä voi yleensä tietää, onko käyttäjä käynyt vain kurkistamassa julkaisua, onko hän tulostanut sen tai onko hän kenties jopa lukenut sen. Perinteiseen kirjasto- tai kirjakauppaympäristöön siirrettynä tämä tarkoittaisi sitä, että tilastoinnissa ovat mukana esim. sellaiset tilanteet, jossa asiakas ottaa kirjan hyllystä, huomaa ettei se ole lainkaan kiinnostava, ja pistää sen sitten saman tien takaisin.

Seuraaviin taulukkoihin on koottu tietoja E-thesiksen julkaisujen latauskerroista ja niiden jakautumisesta eri julkaisutyyppien kesken. Luvut on laskettu palvelimen lokitiedoista, ja niistä on pyritty siivoamaan pois erilaisten hakurobottien aiheuttama käyttö, joka on useita kymmeniä prosentteja palvelimen koko liikenteestä. PDF-tiedostojen käytön tilastoinnissa on myös omat hankaluutensa, sillä ne latautuvat usein pienissä palasissa, ja monet tilastointiin käytetyt ohjelmat laskevat (ainakin ilman asetusten viilaamista) kaikki palaset erillisiksi latauskerroiksi. Seuraavista luvuista nämä ylimääräiset latauskerrat on kuitenkin pyritty suodattamaan pois.

Taulukko 2: Julkaisujen nimiösivujen latauskerrat

Julkaisun tyyppi 2004 2005
Väitöskirja 259428 298166
Lisensiaatintyö 5292 5605
Pro gradu 85639 96553
Sarjajulkaisut 12154 20410

Taulukko 3: PDF-muotoisten julkaisujen latauskerrat

Julkaisun tyyppi 2004 2005
Väitöskirja 573055 602411
Lisensiaatintyö 8875 10757
Pro gradu 128433 171455
Sarjajulkaisut 33747 49955

PDF-muotoisia julkaisuja ladataan siis huomattavasti useammin kuin julkaisujen nimiösivuja, vaikka alun perin E-thesiksen sivuja suunniteltaessa käytön oletettiin jakautuvan toisin päin. Tämä johtuu siitä, että huomattavan suuri osa E-thesiksen julkaisujen käyttäjistä päätyy hakukoneiden tai linkkien kautta suoraan julkaisun PDF-tiedostoon käymättä lainkaan sitä varten tehdyllä nimiösivulla. Ilmiö selittyy suurelta osin Googlen kaltaisten hakukoneiden tekemällä kokoteksti-indeksoinnilla: Siinä missä julkaisun nimiösivu sisältää vain julkaisun ja sen tekijän nimen ja joitakin laitokseen ja tieteenalaan liittyviä tietoja, PDF-tiedostossa indeksoitavaa ja siten myös potentiaalisia osumia riittää aivan toisella tavalla. Google on ajoittain kärjistänyt tätä ilmiötä jättämällä julkaisun nimiösivun jopa kokonaan pois hakutuloksista sillä perusteella, että kaikki sen sisältämä informaatio sisältyy myös itse julkaisuun.

Vaikka E-thesis-palvelun käyttö on koko palvelun tasolla lisääntynyt jatkuvasti, yksittäisten julkaisujen tasolla latauskertojen keskimääräinen määrä on pysynyt vakiona tai jopa laskenut hieman. Syynä lienee koventunut kilpailu, sillä verkossa tarjolla olevan aineiston määrä on muutenkin kasvanut nopeasti, ja tieteellisten tekstien potentiaalisia lukijoita on jopa maailmanlaajuisesti lopulta vain rajallinen määrä. Erityisen selvästi tämä näkyy E-thesiksen väitöskirjojen kohdalla, joiden keskimääräinen latauskertojen määrä putosi (PDF-tiedostojen mukaan laskettuna) vuonna 2005 noin 15% edellisvuoden luvuista. Useimmilla tieteenaloilla aineistojen julkaiseminen verkossa on jo arkipäivää, eikä se välttämättä enää tuota julkaisuille automaattista lisäarvoa.

Tieteelliset julkaisut on muutenkin yleensä suunnattu melko kapealle yleisölle, joka koostuu kunkin erityisalan asiantuntijoista. Etenkin luonnontieteiden ja lääketieteen alan julkaisut saattavat olla sisällöltään ja terminologialtaan sellaisia, etteivät ne avaudu lainkaan maallikkolukijoille. Mitään Harry Pottereiden kaltaisia supersuosikkeja tästä materiaalista ei siis hevin löydy, mutta joukkoon mahtuu kuitenkin sellaisia töitä, joilla on ainakin satunnaista mielenkiintoa tiedeyhteisön lisäksi myös laajemman yleisön keskuudessa. Niinpä E-thesiksen historian suosituin julkaisu on hieman yllättäen Taina Myöhäsen folkloristiikan pro gradu –työ "Nimettömät näkyvillä. Naisten alushousut ja katsomisen kulttuuriset säännöt", joka keräsi syksyllä 2004 kahdessa kuukaudessa noin 8000 uteliasta kurkistelijaa. Tässä tapauksessa suosio selittyi sillä, että tieto julkaisusta alkoi levitä spontaanisti IRC-kanavilla ja verkon keskustelupalstoilla ja päätyi lopulta muutamiin verkkolehtiinkin. Parin viime kuukauden aikana lähes vastaavanlaista suosiota on lähennellyt toinenkin humanistiopinnäyte, sillä Kirsi Kinnarisen uskontotieteen gradu "Mies, talli ja moottoripyörä. Etnografinen tutkimus Misfit MC:stä ja bikerkulttuurin eetoksesta" on kerännyt runsaasti lukijoita etenkin moottoripyöräharrastajien keskustelupalstojen kautta.

Oma mielenkiintoinen kysymyksensä on se, millaista julkisuutta ja millaisia yleisöjä tieteellisille julkaisuille oikeastaan tavoitellaan. Mikä on esim. edellä esiteltyjen suomenkielisten humanistigradujen saavuttaman julkisuuden arvo verrattuna mahdollisiin viittauksiin kovaa kansainvälistä huippututkimusta edustavissa ulkomaisissa tiedelehdissä? Vaikka tiedeyhteisölle suunnattujen julkaisukanavien impaktiarvoilla on toki merkitystä, on ehkä kuitenkin syytä hyväksyä se, että yliopisto tuottaa myös muiden yleisöjen kannalta relevanttia materiaalia. Myös nämä julkaisut rakentavat omalta osaltaan yliopiston julkisuuskuvaa ja tukevat samalla yliopistojen ns. kolmatta tehtävää.

 

2. Miten käyttäjät päätyvät E-thesiksen julkaisujen äärelle?

Aineistojen käytön absoluuttisen määrän ohella toinen kiinnostava kysymys on se, mitä kautta tiedonhakijat ovat päätyneet aineistojen äärelle. Seuraavissa taulukoissa esitetyt luvut on koottu E-thesis-palvelimen lokitiedostojen ns. referrer-tiedoista, jotka kertovat miltä sivulta käyttäjä on siirtynyt lataamalleen sivulle. Luvut eivät ole täysin kattavia, sillä monissa tapauksissa tätä tietoa ei saada kerättyä, mutta ne antavat kuitenkin yleisellä tasolla suhteellisen luotettavan kuvan eri reittien suosiosta. Googlen ja muiden keskeisten hakukoneiden osalta niiden kansalliset versiot (Google.com, Google.fi, Google.se, jne.) on yksinkertaisuuden vuoksi yhdistetty yhdeksi luvuksi. E-thesiksen sivujen oma räätälöity Google-haku on kuitenkin laskettu erikseen, samoin Google Scholar. Kotimaisista kirjastotietokannoista (Helka, Linda, Fennica, Volter, jne.) tulleet käyttäjät on myös yhdistetty yhdeksi ryhmäksi.

Taulukko 4: Tavallisimpia tuloreittejä E-thesiksen julkaisujen nimiösivuille.

Väylä 2004 2005
Palvelun omat www-sivut 134394 169858
Google 52795 64662
Yliopiston hakukone 4034 2935
Palvelun oma Google-haku 1138 2510
Kirjastotietokannat 1781 1960
Scirus 158 902
Ask (Jeeves) 1424 873
Yahoo 1494 822
MSN Search 684 649
Aolsearch 485 267
Altavista 287 160

On tuskin yllättävää, että suurin osa E-thesiksen nimiösivujen selaajista päätyi sivuille joltain toiselta palvelun omalta sivulta. E-thesiksen sivuille koottujen, eri perusteilla järjestettyjen julkaisulistausten linkit johtavat näet poikkeuksetta nimenomaan julkaisujen nimiösivuille. Esim. E-thesiksen etusivulla olevaa ajankohtaisten väitöskirjojen listaa selaileva kävijä kasvattaa lukua joka kerta kun hän käy linkin kautta katsomassa uuden julkaisun nimiösivua.

Googlen osuus nimiösivujen kävijöistä on pienempi, mutta silti aivan omaa luokkaansa muihin hakupalveluihin verrattuna. Helsingin yliopiston oma hakukone on teknisesti vanhentuneena menettänyt vähitellen suosiotaan, kun taas kotimaisten kirjastotietokantojen osuus on pysynyt kutakuinkin vakiona. Kirjastotietokantojen tietueissa olevat linkit osoittavat julkaisujen nimiösivuille, eli kaikkien niiden kautta tulleiden kävijöiden pitäisi näkyä nimenomaan tässä taulukossa esitetyissä luvuissa. Googlen kanssa kilpailevien globaalien hakukoneiden luvut ovat yllättävänkin pieniä, mutta tilannetta saattaa selittää se, että PDF-tiedostoista löytyy niille enemmän indeksoitavaa. Googlen osalta tilanne on jossain määrin toinen, sillä sen käyttämä osittain sivulle osoittaviin linkkeihin perustuva hakutulosten lajittelu saattaa nostaa myös nimiösivuja paremmin esille hakutuloksissa.

Taulukko 5. Tavallisimpia tuloreittejä E-thesiksen PDF-tiedostoihin.

Väylä 2004 2005
Google 288719 347650
Palvelun omat www-sivut 123280 176697
Google Scholar 432 20159
Yahoo 202 82 13068
Palvelun oma Google-haku 2792 8684
MSN Search 777 8596
Scirus 6128 6284
Ask (Jeeves) 239 3086
Aolsearch 3481 2166
Altavista 2732 712

PDF-tiedostojen tasolla Google oli vuonna 2005 kaksi kertaa suositumpi tuloreitti kuin palvelun omat verkkosivut, vaikka verkkosivujenkin osuus oli kasvanut merkittävästi edellisvuodesta. Lisäksi on hyvä huomata, että merkittävä osa myös palvelun omilta sivuilta tulleista kävijöistä oli alun perin päätynyt E-thesiksen sivuille nimenomaan Googlen kautta (ks. taulukko 4). Google toi E-thesiksen julkaisuihin lähes kaksikymmentä kertaa enemmän kävijöitä kuin sen pahimpina kilpailijoina pidetyt Yahoon ja Microsoftin (MSN Search) hakukoneet, vaikka molemmat haravoivat ja indeksoivat E-thesiksen julkaisuja kutakuinkin yhtä kattavasti kuin Googlekin.

Lukuja tulkitessaan kannattaa kuitenkin huomata, että edellä esitetyissä listoissa ovat mukana vain keskeiset hakupalvelut. Hakupalveluiden lisäksi E-thesiksen julkaisuihin tulee näet runsaasti kävijöitä myös erilaisten verkkosivuilla julkaistujen tai sähköpostissa lähetettyjen linkkien kautta. Yksi yksittäinen linkki ei välttämättä tuo julkaisulle kuin yhden, kaksi tai muutamia kävijöitä, mutta yhteenlaskettuna näistä tuhansista pienistä puroista kertyy suuria lukuja.

 

3. E-thesis ja Google Scholar

Edellä esiteltyjen E-thesiksen vuositilastojen perusteella loppuvuodesta 2004 avattu Google Scholar -palvelu (ks. myös Ari Rouvarin artikkeli) näyttää vakiinnuttaneen nopeasti asemaansa. Vaikka sen kautta saapuneiden kävijöiden määrä on edelleen suhteellisen pieni verrattuna isoonveljeen eli Googlen yleiseen hakukoneeseen, huomionarvoista kuitenkin on, että Scholar on vuoden aikana onnistunut jo selvästi ohittamaan kaikki muut hakukoneet. Lisäksi voi olettaa, että tieteellisiin aineistoihin erikoistuneen Google Scholarin kautta saapuneet kävijät ovat löytäneet keskimääräistä useammin E-thesiksestä nimenomaan etsimäänsä materiaalia, sen sijaan että olisivat vain eksyneet paikalle vahingossa jonkin satunnaisen hakulausekkeen tuloksena.

Google Scholarin erikoisuuksiin kuuluu se, että palvelu ei noteeraa E-thesiksen nimiösivuja tai HTML-muotoisia julkaisuja lainkaan, vaan sen hakutuloksista pääsee ainoastaan suoraan PDF-tiedostoihin. Scholar-haku löytää tällä hetkellä (huhtikuu 2006) noin 1350 E-thesiksen julkaisua. Kolmasosa E-thesiksen julkaisuista näyttää siis jääneen hakukoneen indeksoinnin ulkopuolelle.

Käytännössä tämä epäsuhta selittyy suurimmaksi osaksi sillä, että Google Scholarin aineistosta on suodatettu pois pääosa muista kuin englanninkielisistä julkaisuista. E-thesiksessä on julkaistu tähän mennessä esim. 25 historian laitoksella tehtyä opinnäytettä, joista 20 on suomenkielisiä, kolme englanninkielisiä ja kaksi ruotsinkielisiä. Google Scholar noteeraa näistä tällä hetkellä ainoastaan kolme englanninkielistä julkaisua (joista kaksi on väitöskirjoja ja yksi on gradu), vaikka "tavallinen" Google löytää ne kaikki. Vielä merkillisemmäksi tämän kielen perusteella tekevän suodatuksen tekee se, että Google Scholar löytää kyllä vastapainoksi runsaasti vanhoja, pelkästään painetussa muodossa ilmestyneitä suomenkielisiä teoksia (ks. esim. seuraava akateemikko Päiviö Tommilan nimellä tehty haku). Näiden tiedot näyttävät kuitenkin olevan peräisin joko muissa teoksissa olevista viittauksista tai OCLC:n WorldCatista, eli Googlella näyttäisi olevan vielä runsaasti työtä eri lähteistä keräämiensä viitetietojen johdonmukaisessa hyödyntämisessä. Nähtäväksi jää, parantuisiko suomen- tai ruotsinkielisten julkaisujen löydettävyys, jos Google saisi toiveidensa mukaisesti käyttöönsä myös Linda-tietokannan sisältämät viitetiedot.

 

4. Erilaisia käyttöliittymiä, erilaisia yleisöjä

Aika jolloin kullakin verkkopalvelulla oli vain oma, yksi ja ainoa käyttöliittymänsä alkaa olla peruuttamattomasti ohi. Omien palvelukohtaisten käyttöliittymien rinnalle on kehittynyt yhä monipuolisempia mahdollisuuksia välittää palvelun sisältämää aineistoa ja aineiston viitetietoja erilaisiin muihin käyttöliittymiin, hakupalveluihin ja portaaleihin. Rinnakkaisten haku- ja selailumahdollisuuksien kirjo saattaa toki näyttää sekavalta tiedonhakijan näkökulmasta ja aiheuttaa harmaita hiuksia tiedonhaun opetuksesta vastaavalle kirjastonhoitajalle, mutta erilaiset käyttöliittymät näyttävät kuitenkin monissa tapauksissa palvelevan erilaisia tarpeita ja luovan aineistoille uusia käyttötapoja ja uusia yleisöjä.

E-thesiksen tapauksessa on jopa perusteltua kysyä sitä, mikä oikeastaan on palvelun ensisijainen käyttöliittymä. Onko se palvelun oma verkkosivusto vai onko se kenties jo Google? Kuten edellä nähtiin, Google tuo palvelun sisältämiin julkaisuihin jo huomattavasti enemmän kävijöitä kuin palvelun omat verkkosivut, eli tässä mielessä julkaisujen Google-näkyvyyden merkitystä on vaikea yliarvioida.

Toisaalta palvelun oma käyttöliittymäkään ei ole merkityksetön, sillä esim. E-thesiksen tapauksessa se luo palvelulle omaa profiilia nimenomaan Helsingin yliopiston verkkojulkaisuina. Samalla palvelu on yksi Helsingin yliopiston näyteikkunoista ulospäin ja se luo osaltaan mielikuvaa yliopistosta ja sen tutkimuksesta. On myös selvää, että yliopiston arvovalta antaa palvelun sisältämille aineistoille ainakin jonkinlaisen takeen niiden luotettavuudesta. Vaikka aineistoa käyttävät tiedonhakijat saattavat hakea palvelusta vain heitä kiinnostavan PDF-tiedoston käymättä lainkaan muilla sivuilla, palvelun näkyvyys ja etenkin siihen viittaavat linkit eri puolilla verkkoa takaavat sen, että palvelussa julkaistut dokumentit näkyvät hyvin Googlen hakutuloksissa.

Erilaisten käyttöliittymien ja hakupalveluiden suosiossa tulee näkyviin hyvin suuria eroja, kun E-thesiksen käyttöä tarkastelee alueellisesti. Seuraavissa kolmessa taulukossa on eritelty E-thesiksen referrer-tiedoista poimittuja tuloreittejä käyttäjän verkko-osoitteen mukaan jaoteltuna. Maakohtaisten domain-nimien pohjalta tehty jaottelu on tietysti hyvin karkea eikä anna välttämättä luotettavaa kuvaa käytön absoluuttisesta määrästä, mutta se riittää aivan hyvin, kun selvityksen kohteena ovat tuloreittien väliset suhteelliset erot. Vertailun materiaalina ovat Helsingin yliopiston verkosta, suomalaisista verkko-osoitteista ja USA:n .edu-päätteisistä osoitteista vuoden 2005 aikana tulleet käyttäjät.

Taulukko 6. Tuloreittejä Helsingin yliopiston verkosta (helsinki.fi)

Väylä nimiösivu PDF
Palvelun omat www-sivut 22960 22768
Google 2944 4343
Palvelun oma Google-haku 635 881
Google Scholar - 125
Kirjastotietokannat 615 -
Yliopiston hakukone 433 -

Taulukko 7: Tuloreittejä suomalaisista verkko-osoitteista (.fi)

Väylä nimiösivu PDF
Google 27074 108199
Palvelun omat www-sivut 82411 84696
Palvelun oma Google-haku 1631 4636
MSN Search 275 2136
Google Scholar - 517
Scirus 8 301
Kirjastotietokannat 1745 -
Yliopiston hakukone 1710 -

Taulukko 8: Tuloreittejä USA:laisista verkko-osoitteista (.edu)

Väylä nimiösivu PDF
Google 1937 10086
Palvelun omat www-sivut 1103 2070
Google Scholar - 1939
Yahoo 32 442
MSN Search 17 243
Ask (Jeeves) 56 211
Scirus 4 153

Taulukoista käy havainnollisesti ilmi se, että palvelun omien sivujen merkitys on suurin paikallisille Helsingin yliopistosta tulleille käyttäjille. Tätä voi tuskin pitää yllätyksenä, sillä yliopiston sisäisten käyttäjien kannalta on luonnollisesti mielekästä käydä selaamassa esim. uusia ajankohtaisia väitöksiä tai oman laitoksen julkaisuja. Kansallisella tasolla Google ohittaa jo palvelun omat sivut tuloreittinä PDF-tiedostoihin, vaikka myös E-thesiksen omien sivujen osuus on yhä varsin suuri. Kun mennään kauemmas, asetelma kääntyy kokonaan päälaelleen – USA:n näkökulmasta Google on ylivoimaisesti suosituin reitti E-thesiksen julkaisuihin, ja Google Scholarkin tuo julkaisuihin miltei yhtä paljon kävijöitä kuin E-thesis-palvelun omat www-sivut.

Kaikissa E-thesiksen käyttöä koskevissa tilastoissa huomiota kiinnittää se, että palvelun oman hakumahdollisuuden käyttö on ollut suhteessa melko vähäistä. Vaikka E-thesiksen tapauksessa osasyynä lienee sekin, ettei palvelun oma räätälöity Google-haku ole kovin hyvin esillä palvelun verkkosivuilla, asiaa kannattaa pohtia myös yleisemmällä tasolla. Onko tiedonhaku E-thesiksen kaltaisesta melko pienestä ja tieteenalajakaumaltaan heterogeenisesta aineistosta ylipäänsä kovin mielekästä? Harvat tiedonhakijat ovat kiinnostuneista siitä, mitä jostakin asiasta on kirjoitettu nimenomaan Helsingin yliopistossa. Tiedonhakuun kannattaa mieluummin käyttää sellaisia suurempia hakupalveluita, jotka kattavat mahdollisimman laajan ja myös relevantin aineiston.

Paikallisella, yksittäisen julkaisupalvelun tasolla selailu vaikuttaisi olevan hakua merkittävämpi ominaisuus, riippumatta siitä onko selailumahdollisuus toteutettu kiinteillä www-sivuilla vai jonkinlaisella dynaamisella tietokantaratkaisulla. E-thesiksen tapauksessa suurin osa palvelun oman käyttöliittymän kautta tulleista kävijöistä näyttää selaavan palvelun sivuilla olevia valmiita listoja, jotka on järjestetty tiedekunnan ja laitoksen, tekijän nimen ja ilmestymisajankohdan mukaan. Tämä saattaa olla järkevää yksinomaan jo senkin vuoksi, että tyhjään hakulaatikkoon on usein vaikea keksiä mielekkäitä hakusanoja, jos tiedonhakijalla ei ole ennestään mitään käsitystä kokoelmaan sisältyvästä aineistosta.

Toinen kirjastojen kannalta ehkä vähän masentavakin huomio on se, että kotimaisten kirjastotietokantojen rooli on pysynyt etenkin Googleen verrattuna varsin pienenä. E-thesiksen väitöskirjat on näet luetteloitu kattavasti kirjastotietokantoihin (Helka, Linda ja Fennica), eli ne olisivat löydettävissä myös tätä kautta. Toisaalta, vaikka kirjastotietokannoista tulleiden tiedonhakijoiden määrä on E-thesiksen näkökulmasta melko pieni (vajaat pari tuhatta kävijää vuodessa), elektroniset aineistot ovat kuitenkin kirjastotietokantojen näkökulmasta oleellinen osa palvelukokonaisuutta. Kirjastotietokannan käyttäjän kannalta on hyödyllistä tietää, että hänen etsimänsä aineisto löytyy myös verkosta.

 

5. Lisää mahdollisuuksia

E-thesiksen oma käyttöliittymä on ollut toistaiseksi tekniseltä taustaltaan varsin primitiivinen, sillä palvelulla ei ole ollut omaa tietokantaa, ja julkaisujen metadatakin on ollut hajallaan palvelun verkkosivuilla ja kirjastotietokannoissa. Tilanteeseen on kuitenkin tulossa korjausta, sillä yliopiston rahoittaman väitöstietohankkeen puitteissa E-thesiksen yhteyteen on tuotettu uusi verkkolomake, jonka avulla tekijöiden syöttämät väitöskirjojen ja muidenkin opinnäytteiden metatiedot voidaan tallentaa XML-muodossa. Lomakkeen käyttöönotto tarjoaa samalla mahdollisuuksia tietojen tulostamiseen muissakin formaateissa. Tulevien väitösten tiedot ovat olleet huhtikuusta 2006 alkaen saatavilla myös RSS-syötteenä, jolloin niiden otsikoita on mahdollista seurata esim. erillisellä RSS-lukuohjelmalla tai suoraan Firefox-selaimen kirjanmerkkien kautta.

Yksi tärkeimmistä E-thesiksen aineistojen haettavuuteen vaikuttavista tavoitteista on palvelun OAI-PMH-yhteensopivuus. OAI-PMH (Open Archives Initiative - Protocol for Metadata Harvesting) on Open Access -liikkeen keskuudessa muotoutunut yhdeksi vapaan verkkojulkaisemisen symboliksi. Ideana on se, että protokollan avulla olisi mahdollista haravoida metadataa useista erillisistä kokoelmista ja koostaa sen avulla yhteisiä hakupalveluita sekä kansallisella että kansainvälisellä tasolla. Monet muut suomalaisten yliopistojen julkaisupalvelut ovat jo nyt OAI-yhteensopivia, mutta E-thesiksen osalta tämä toiminnallisuus on vielä jäänyt odottamaan suurempia teknistä julkaisualustaa koskevia päätöksiä.

OAI-PMH:n avulla on mahdollista siirtää palveluiden tuottamaa metadataa ja rakentaa hyvinkin käyttökelpoisia palveluita, mutta kannattaa kuitenkin pitää mielessä, että protokolla sinällään ei tee ketään autuaaksi. Kyseessä on lopulta vain yksi protokolla monien muiden joukossa, ja sen käyttökelpoisuus on suoraan sidoksissa haravoitavien palvelujen tarjoaman metadatan laatuun ja sen semanttiseen yhdenmukaisuuteen. Tämä on suuri haaste myös usein pohditun yhteisen kansallisen tason väitöskirja- tai opinnäytehakupalvelun luomisessa. Helsingin yliopiston kirjasto on pyrkinyt kohentamaan tilannetta erityisen opinnäytteille tarkoitetun metadataformaatin avulla.

Huonoja hakupalveluita ei halua käyttää kukaan, eli niitä on turha rakentaa. Tältä osin Googlen ilmentämä kilpailu saattaa olla kirjastojen kannalta jopa terveellinen asia. Hakupalveluita ja käyttöliittymiä suunniteltaessa on pakko pohtia sitä, onko niillä Google-hakuun verrattuna tarjottavanaan muutakin lisäarvoa kuin se, että kyseessä on kirjastojen oma palvelu.

On vaikea nähdä, että OAI-PMH:n avulla luotavat palvelut horjuttaisivat Googlen tai sen kilpailijoiden asemaa yleisinä kaikenkattavina hakukoneina, eikä se ehkä ole niiden tarkoituskaan. OAI-PMH:n etuna on se, että protokolla tarjoaa mahdollisuuksia uusien hakupalveluiden ja käyttöliittymien kehittämiseen suhteellisen pienillä resursseilla, eli sen avulla on mahdollista toteuttaa entistä paremmin räätälöityjä palveluista erilaisille yleisöille. Tämä avaa mahdollisuuksia nimenomaan tiedeyhteisölle suunnattujen erikoistuneiden palveluiden rakentamiseen, jolloin esim. juuri E-thesiksessä julkaistavat aineistot tavoittaisivat paremmin sen yleisön, jolle ne on alun perin suunnattu. Mahdollisten OAI-PMH:n avulla rakennettavien hakupalveluiden suhde Google Scholariin on tietysti kiinnostava kysymys - nähtäväksi jää, päädytäänkö tälläkin saralla avoimen kilpailun sijasta yhteistyöhön.

 


Tietolinja 01/2006

Jyrki Ilva, sovellussuunnittelija
Helsingin yliopiston kirjasto / Tietokantapalvelut
PL 26, 00014 HELSINGIN YLIOPISTO
Email: jyrki.ilva(at)helsinki.fi