Geokoodausmenetelmät ja niiden käyttö sosiaalisen median julkaisujen paikantamisessa

Loading...
Thumbnail Image
Journal Title
Journal ISSN
Volume Title
Insinööritieteiden korkeakoulu | Master's thesis
Date
2017-06-12
Department
Major/Subject
Geoinformatiikka
Mcode
M3002
Degree programme
Geomatiikan koulutusohjelma
Language
fi
Pages
56 + 9
Series
Abstract
Monet aineistot sisältävät osoitteita ja paikannimiä. Jotta aineistoja voidaan hyödyntää paikkatietoanalyyseissä, ne on georeferoitava eli niille on saatava koordinaatit. Geokoodaus on prosessi, jossa osoitteelle tai paikannimelle pyritään selvittämään sijainti vertailuaineiston avulla. Sosiaalinen media on nykyisin tärkeä osa ihmisten elämää, mikä on synnyttänyt tarpeen useilla eri aloilla pystyä selvittämään, mistä paikasta sosiaalisen median julkaisut on tehty tai mitä paikkaa ne koskevat. Tämän diplomityön tarkoituksena oli tutkia geokoodausta, siihen käytettäviä menetelmiä sekä niiden ominaisuuksia. Työn teoreettisessa osiossa käydään läpi geokoodausprosessin kulku ja miten osoitteiden geokoodaus tapahtuu erilaisia vertailuaineistoja käyttämällä. Sen jälkeen perehdytään twiittien geokoodaukseen ja siihen mitä lisähaasteita se tuottaa verrattuna osoitteiden geokoodaukseen. Työn empiirisessä osiossa toteutettiin työkaluja twiittien geokoodausta varten sekä testattiin niiden toimivuutta käytännössä. Työssä havaittiin, että geokoodaus on monivaiheinen prosessi, jossa on tehtävä kompromisseja tulosten tarkkuuden, kattavuuden ja ajankäytön välillä. Tutkimuksessa verrattiin kolmea erilaista yhdistämisalgoritmia, Levenshtein distance, Longest common subsequence ja n-gram, joilla samankaltaiset merkkijonot voidaan yhdistää toisiinsa. Näistä algoritmeista n-grammeihin perustuva vertailu tuotti tarkimman tuloksen. Suurimmaksi haasteeksi havaittiin paikannimien erottaminen tavallisten sanojen joukosta, eli geoparsing. Monet tavalliset sanat esiintyvät myös paikanniminä joissain päin maailmaa, mikä aiheuttaa virheellisiä paikannuksia, ellei niitä pystytä havaitsemaan.

Many documents contain addresses and place names. In order to make spatial analysis for these documents they need to be georeferenced. Which means they need coordinates. Geocoding is a process where addresses and place names are given coordinates based on a reference dataset. Social media is an important part of peoples’ life nowadays and there is an increasing need for knowing where the posts are sent from or what place they refer to. The purpose of this masters’ thesis was to examine geocoding, the methods used for it and their features. The theoretical part of the study presents the geocoding process and how address geocoding is done with different types of reference datasets. In addition, geocoding of tweets is examined, and what additional challenges it does have compared to address geocoding. In the practical part of the study tools for geocoding tweets where implemented and tested in practice. It was noticed that geocoding consists of many phases and it is necessary to make compromises between accuracy, completeness and execution time. Three different feature matching algorithms, Levenshtein distance, Longest common subsequence and n-gram, where tested. With feature matching strings that are approximately similar can be com-bined. Of these three the one based on n-grams gave the most accurate results. The biggest challenge appears to be recognizing place names among all other words, called geoparsing. Several normal words occur as place names on different places in the world. If these can’t be distinguished they will cause false matches in the geocoding results.
Description
Supervisor
Virrantaus, Kirsi
Thesis advisor
Nynäs, Thomas
Keywords
geokoodaus, georeferointi, twitter, osoite, paikannimi
Other note
Citation