Machine learning as document metadata tool in e-business services
Partinen, Simo (2019)
Diplomityö
Partinen, Simo
2019
School of Engineering Science, Tietotekniikka
Kaikki oikeudet pidätetään.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2019050714623
https://urn.fi/URN:NBN:fi-fe2019050714623
Tiivistelmä
Metadata is a vital part of a digital document. It represents data about the document, which can be used in classifying, indexing and digital document management in general. Despite no lack of tools, some of document metadata is missing or blatantly wrong. Machine learning, a subset of artificial intelligence, utilizes the combination of increase in both computational processing power and amount of available material to learn models depicting the material’s characteristic features. A Design Science Research Methodology process was used in this thesis to create a machine learning system, that is capable of deducing the type metadata for a document based on its contents. The system’s performance was remarkably good when tested against the material used for training, but classifying the evaluation batch left room for improvement, which most likely wasn’t due to the system itself. The system was successfully integrated into an existing digital service platform, but using it in production requires further development iterations. Metadata on tärkeä osa sähköistä asiakirjaa. Se sisältää tietoa asiakirjasta, mitä voidaan hyödyntää esimerkiksi luokittelussa, indeksoinnissa ja yleisesti sähköisen asioinnin toiminnoissa. Tarjolla olevista työkaluista huolimatta osa asiakirjojen metadatasta on puutteellista tai suorastaan väärin. Tekoälyn osakokonaisuudeksi luokiteltava koneoppiminen hyödyntää käytettävissä olevan laskentatehon ja materiaalin määrän kasvua oppimalla sille syötetystä materiaalista materiaalia kuvaavia malleja. Tässä diplomityössä kehitettiin Design Science Research Methodology -prosessin avulla koneoppiva järjestelmä, jonka avulla voidaan määrittää asiakirjan tyyppi-metadata sen sisällön perusteella. Järjestelmän suorituskyky oli erittäin hyvä koulutuksessa käytetyllä aineistolla, mutta arviointia varten varatun aineiston luokittelu jätti paljon parantamisen varaa, todennäköisesti järjestelmästä riippumattomista syistä johtuen. Järjestelmä integroitiin onnistuneesti olemassaolevaan sähköisen asioinnin palveluun, mutta sen hyödyntäminen tuotantokäytössä vaatii jatkokehitystä.