Extraction of Entities and Concepts from Finnish Texts

No Thumbnail Available
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Ask about the availability of the thesis by sending email to the Aalto University Learning Centre oppimiskeskus@aalto.fi
Date
2016-12-12
Department
Major/Subject
Computer Science
Mcode
SCI3042
Degree programme
Master’s Programme in Computer, Communication and Information Sciences
Language
en
Pages
72+6
Series
Abstract
Keywords are used in many document databases to improve search. The process of assigning keywords from controlled vocabularies to a document is called subject indexing. If the controlled vocabulary used for indexing is an ontology, with semantic relations and descriptions of concepts, the process is also called semantic annotation. In this thesis an automatic annotation tool was created to provide the documents with semantic annotations. The application links entities found from the texts to ontologies defined by the user. The application is highly configurable and can be used with different Finnish texts. The application was developed as a part of WarSampo and Semantic Finlex projects and tested using Kansa Taisteli magazine articles and consolidated legislation of Finnish legislation. The quality of the automatic annotation was evaluated by measuring precision and recall against existing manual annotations. The results showed that the quality of the input text, as well as the selection and configuration of the ontologies impacted the results.

Asiasanoja käytetään kuvailemaan dokumentteja ja parantamaan niiden löydettävyyttä. Asiasanoitusprosessissa asiasanat voidaan valita kontrolloidusta sanastosta. Näiden sanastojen tai ontologioiden käyttäminen mahdollistaa semanttisten kuvausten ja suhteiden hyödyntämisen. Tätä kutsutaan myös semanttiseksi annotoinniksi, ja sen avulla voidaan parantaa dokumenttien haettavuutta entisestään. Tässä työssä kehitettiin sovellus semanttiseen annotointiin osana Sotasampo- ja Semanttinen Finlex -projekteja. Sovellus linkittää tekstistä löydettyjä tekstuaalisia entiteettejä käyttäjän valitsemiin ontologioihin. Sovellus on konfiguroitavissa erilaisten suomenkielisten tekstien asiasanoitukseen ja linkitykseen. Tässä työssä hyödynnettiin Kansa Taisteli -lehden artikkelien ja Semanttisen Finlexin ajantasaisia säädöksiä käyttötapauksina sovellukselle. Tuloksia arvioitiin vertaamalla niitä alkuperäiseen manuaaliseen annotaatioon käyttäen tarkkuus- ja saantimittauksia. Tuloksia tutkimalla havaittiin, että syötteen laatu sekä ontologioiden valinta ja konfigurointi vaikuttivat tuloksiin.
Description
Supervisor
Hyvönen, Eero
Thesis advisor
Mäkelä, Eetu
Tuominen, Jouni
Keywords
automatic annotation, linked open data, named entity linking, ontologies
Other note
Citation