Edistynyt tekstinhaku relaatiotietokannasta

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Perustieteiden korkeakoulu | Master's thesis
Date
2015
Department
Major/Subject
Ohjelmistotekniikka
Mcode
T-106
Degree programme
Tietotekniikan koulutusohjelma
Language
fi
Pages
65 + 1
Series
Abstract
Tässä työssä tutkitaan tekstihakuun tarkoitettuja tekniikoita ja avoimen lähdekoodin ohjelmistoja. Työssä kartoitetaan tekstihaun ratkaisujen nykytilaa tieteellisessä kirjallisuudessa. Tekstihaun tekniikoista tutkitaan suoraviivaisia menetelmiä ja erityisesti erilaisia indeksointimenetelmiä. Toisaalta työssä myöskin etsitään erilaisia käytännön ratkaisuja avoimen lähdekoodin ohjelmistoista. Työn päätavoitteena on tutkia miten relaatiotietokannassa olevaan tekstidataan päästään tekemään edistyneempiä tekstihakuja. Diplomityö jakautuu kahteen pääosaan: Kirjallisuuskatsaukseen ja käytännön osioon. Kirjallisuuskatsauksessa tarkasteltiin tekstihaun menetelmiä tieteellisissä julkaisuissa ja pyritään kuvaamaan tutkimuksen nykytilaa. Käytännön osiossa kartoitettiin olemassa olevia ohjelmistoratkaisuja tekstihakuun. Käytännön osiossa pyrittiin etsimään sopivaa ratkaisua relaatiotietokannassa olevan tekstin indeksointiin ja edistyneeseen tekstihakuun. Työssä saatiin luotua sopiva yleiskatsaus tekstihaun menetelmiin ja löydettiin kymmeniä avoimen lähdekoodin ratkaisuja vapatekstihakuun. Avoimen lähdekoodin ohjelmistosta saatiin haarukoitua kolme toimintaperiaatteeltaan eroavaa järjestelmää käytännön testaukseen. Järjestelmien suorituskyvystä ja ominaisuuksista löydettiin testauksessa eroja ja testauksen perusteella pystyttiin esittämään suositukset järjestelmien soveltuvuudesta erilaisiin käyttötapauksiin.

This work reviews string searching techniques and open source software for full text searching. The work surveys the current state of text search solutions in scientific litera- ture. In text search techniques the work examines online methods and especially different types of indexing methods. On the other hand in this paper we also look for different open source solutions for full text search. One of the main goals is to find out how to do ad- vanced text searching on a data found in relational database. This thesis consists of two main parts: The literature review part and practical part. In liter- ature review we examined the text search methods present in scientific literature and try to describe the current state of the research. In the practical part, existing open source solu- tions for text search are reviewed. The practical part aims to to find a suitable solution for indexing text data saved in relational database for executing advanced full-text searches. Sufficient overall view for string searching methods and full text search was reached and dozens of open source solutions for full text search were found. Three different systems from the open source search solutions were chosen for practical testing part. Differences in performance and features were found as a result of the testing. Based on the tests, rec- ommendations for the suitability of these systems to different use cases were represented.
Description
Supervisor
Malmi, Lauri
Thesis advisor
Halme, Mervi
Keywords
vapaatekstihaku, lucene, relaatiotietokanta, tietokanta, avoin lähdekoodi
Other note
Citation