Avoin Data
Perankoski, Perttu (2016)
Perankoski, Perttu
Jyväskylän ammattikorkeakoulu
2016
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2016052710428
https://urn.fi/URN:NBN:fi:amk-2016052710428
Tiivistelmä
Opinnäytetyön toimeksiantajana toimi Jyväskylä Security Technology (JYVSECTEC)-hanke, joka toimii Jyväskylän ammattikorkeakoulun (JAMK) tiloissa Jyväskylässä. JYVSECTEC ke-hittää ja ylläpitää kyberturvallisuuden kehitysympäristöä, jota käytetään kehitys, tutki-mus ja koulutuskäyttöön.
Työn teema oli tutustua big dataan, syventyen sen jälkeen avoimeen dataan ja eri tapoi-hin millä sitä voidaan hyödyntää. Työ koostui big data -ilmiön ja avoimen datan tutkimi-sesta, avoimien tietovarantojen kartoittamisesta ja datan analysoinnista käyttäen siihen suunniteltua analytiikkatyökalua.
Työssä käydään läpi avoimen datan tietovarantoja ja rajapintoja, kuten Digitraffic ja avoindata.fi -portaali. Tutkitaan, missä eri formaateissa käytettävä data on, sekä millaisia tekijänoikeuksia creative commons –lisenssi tarjoaa avoimeen dataan. Lisäksi perehdy-tään eri tekniikkoihin, joilla suuria datamääriä pystytään tehokkaasti hallitsemaan ja ana-lysoimaan.
Opinnäytetyössä keskitytiin Hadoop -pohjaisiin ohjelmistoihin kuten MapR ja Apache Drill ja näiden osiin ja siihen miten toimivat, kuten HDFS, MapReduce. Ensimmäisenä toteu-tuksena oli MapR Sandbox For Hadoop -järjestelmän asennus ja sen käyttäminen Jyväs-kylän keskilämpötilan analysointiin. Toisena toteutuksena käytettiin Apache Drill -ohjelmistoa, jolla muunneettiin CSV-tiedosto Apache Parquet -muotoon.
Työn teema oli tutustua big dataan, syventyen sen jälkeen avoimeen dataan ja eri tapoi-hin millä sitä voidaan hyödyntää. Työ koostui big data -ilmiön ja avoimen datan tutkimi-sesta, avoimien tietovarantojen kartoittamisesta ja datan analysoinnista käyttäen siihen suunniteltua analytiikkatyökalua.
Työssä käydään läpi avoimen datan tietovarantoja ja rajapintoja, kuten Digitraffic ja avoindata.fi -portaali. Tutkitaan, missä eri formaateissa käytettävä data on, sekä millaisia tekijänoikeuksia creative commons –lisenssi tarjoaa avoimeen dataan. Lisäksi perehdy-tään eri tekniikkoihin, joilla suuria datamääriä pystytään tehokkaasti hallitsemaan ja ana-lysoimaan.
Opinnäytetyössä keskitytiin Hadoop -pohjaisiin ohjelmistoihin kuten MapR ja Apache Drill ja näiden osiin ja siihen miten toimivat, kuten HDFS, MapReduce. Ensimmäisenä toteu-tuksena oli MapR Sandbox For Hadoop -järjestelmän asennus ja sen käyttäminen Jyväs-kylän keskilämpötilan analysointiin. Toisena toteutuksena käytettiin Apache Drill -ohjelmistoa, jolla muunneettiin CSV-tiedosto Apache Parquet -muotoon.