Big datan analysointi
Jantunen, Mikael (2017)
Jantunen, Mikael
Lahden ammattikorkeakoulu
2017
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201705229334
https://urn.fi/URN:NBN:fi:amk-201705229334
Tiivistelmä
Opinnäytetyön tavoitteena oli tutkia Big datan analysointia avoimen datan avulla sekä sen visualisointiin käytettäviä työkaluja. Työ suoritettiin virtuaalikoneelle asennetussa Apachen Hadoop -ympäristössä. Data työn tekemiseen haettiin Suomen Ilmatieteen laitoksen avoimesta rajapinnasta.
Opinnäytetyön teoriaosuudessa käsitellään yleisesti, mitä Big data on, Apache Hadoop -ekosysteemiä, data-analyysin eri vaiheita sekä R-ohjelmointikieltä. Big datasta käydään läpi sen ominaisuuksia sekä määritelmiä. Apachen Hadoopista kerrotaan sen oleellisimpia osia sekä niiden toimintaperiaatteita. Työssä käydään myös lyhyesti läpi Microsoft Excelin, Microsoft Power BI:n sekä Hadoop Huen käyttöä visualisointityökaluina.
Opinnäytetyön käytännön osuudessa käytiin läpi datan hakeminen, käsittely ja visualisointi. Datana käytettiin Ilmatieteen laitoksen avointa dataa Lahdesta, mikä sisälsi esimerkiksi lämpötiloja ja lumen syvyyksiä. Datan hakemiseksi ohjelmoitiin kaksi Java-ohjelmaa, joista toinen haki datan Ilmatieteen laitoksen palvelimelta ja toinen muutti sen käsiteltävämpään muotoon. Data käsiteltiin Apache Hadoopin ja R-ohjelmointikielen yhdistävällä RHadoop-paketilla, jossa MapReducen avulla laskettiin saadulle datalle päivittäinen keskiarvo. Tämän jälkeen dataa vielä visualisoitiin.
Opinnäytetyön teoriaosuudessa käsitellään yleisesti, mitä Big data on, Apache Hadoop -ekosysteemiä, data-analyysin eri vaiheita sekä R-ohjelmointikieltä. Big datasta käydään läpi sen ominaisuuksia sekä määritelmiä. Apachen Hadoopista kerrotaan sen oleellisimpia osia sekä niiden toimintaperiaatteita. Työssä käydään myös lyhyesti läpi Microsoft Excelin, Microsoft Power BI:n sekä Hadoop Huen käyttöä visualisointityökaluina.
Opinnäytetyön käytännön osuudessa käytiin läpi datan hakeminen, käsittely ja visualisointi. Datana käytettiin Ilmatieteen laitoksen avointa dataa Lahdesta, mikä sisälsi esimerkiksi lämpötiloja ja lumen syvyyksiä. Datan hakemiseksi ohjelmoitiin kaksi Java-ohjelmaa, joista toinen haki datan Ilmatieteen laitoksen palvelimelta ja toinen muutti sen käsiteltävämpään muotoon. Data käsiteltiin Apache Hadoopin ja R-ohjelmointikielen yhdistävällä RHadoop-paketilla, jossa MapReducen avulla laskettiin saadulle datalle päivittäinen keskiarvo. Tämän jälkeen dataa vielä visualisoitiin.