Käsin ladotun aikakausilehtitekstin muuttaminen digitaaliseen muotoon
Heikkilä, Riku (2011)
Heikkilä, Riku
Saimaan ammattikorkeakoulu
2011
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2011092313211
https://urn.fi/URN:NBN:fi:amk-2011092313211
Tiivistelmä
Opinnäytetyönä tehtiin selvitys, kuinka ja millä testintunnistusohjelmalla saada toisen maailmansodan aikaiset, käsin ladotut Sotilaspapin aikakauslehdet digitaaliseen muotoon tutkimuskäyttöön. Selvityksessä käytettiin tekstintunnistusta niin, että siihen voi tehdä sanahakuja. Opinnäytetyön asiakkaana toimi Maasotakoulun sotilaspastori Jukka Seppänen. Aineisto ja tutkimusvälineet kerättiin Internetistä.
Selvitys tehtiin saatavilla olevia ohjelmia käyttäen. Ohjelmia oli paljon ja niiden toimivuus tätä työtä ajatellen vaihteli suuresti. Ohjelmien ilmaisuus oli näennäistä, sillä kun ilmaisia ohjelmia löytyi, niin iso osa oli niin sanottuja maksullisten ohjelmien kokeiluversioita, joissa oli omat rajoituksensa liittyen useimmiten joko ohjelman käyttöikään, tallennettavien sivujen määrään tai molempiin.
Käyttökelpoisimmaksi vaihtoehdoksi tarjolla olevista ohjelmista osoittautui Nuance PDF Converter professional 7 -ohjelmalla tehty vuosikerta yhteen PDF-tiedostoon, johon voi tehdä sanahakuja. Haussa sillä on puutteita, pääasiassa harvaan kirjoitettujen nimien paikantamisessa. Ensimmäisessä tarkastelussa ohjelmasta virheitä ei löytynyt monta, mutta toisen tarkastelun jälkeen virheitä löytyi useampia. Tarjolla olevien ohjelmien huonon laadun vuoksi alkuperäissuunnitelmaan kuulunut tietokantavaihtoehto muuttui tutkimuksen edetessä yhä epätodennäköisemmäksi. Suuri syy tähän oli tekstintunnistuksen heikon laadun tuomat pulmat.
Selvitys tehtiin saatavilla olevia ohjelmia käyttäen. Ohjelmia oli paljon ja niiden toimivuus tätä työtä ajatellen vaihteli suuresti. Ohjelmien ilmaisuus oli näennäistä, sillä kun ilmaisia ohjelmia löytyi, niin iso osa oli niin sanottuja maksullisten ohjelmien kokeiluversioita, joissa oli omat rajoituksensa liittyen useimmiten joko ohjelman käyttöikään, tallennettavien sivujen määrään tai molempiin.
Käyttökelpoisimmaksi vaihtoehdoksi tarjolla olevista ohjelmista osoittautui Nuance PDF Converter professional 7 -ohjelmalla tehty vuosikerta yhteen PDF-tiedostoon, johon voi tehdä sanahakuja. Haussa sillä on puutteita, pääasiassa harvaan kirjoitettujen nimien paikantamisessa. Ensimmäisessä tarkastelussa ohjelmasta virheitä ei löytynyt monta, mutta toisen tarkastelun jälkeen virheitä löytyi useampia. Tarjolla olevien ohjelmien huonon laadun vuoksi alkuperäissuunnitelmaan kuulunut tietokantavaihtoehto muuttui tutkimuksen edetessä yhä epätodennäköisemmäksi. Suuri syy tähän oli tekstintunnistuksen heikon laadun tuomat pulmat.