Lokitiedon analysointimenetelmät : poikkeavuuksien havaitseminen
Kurlin, Jarno (2020)
Kurlin, Jarno
2020
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202005138768
https://urn.fi/URN:NBN:fi:amk-202005138768
Tiivistelmä
Tässä opinnäytetyössä tutustutaan big dataan, sen analysointimenetelmiin sekä ongelmiin, joita datan kerääminen aiheuttaa. Kun datan rakenne ja ominaisuudet ymmärretään, voidaan perehtyä erilaisiin analysointimenetelmiin ja siihen, kuinka nämä analysointimenetelmät toimivat.
Opinnäytetyön tavoitteena on tutkia, kuinka suuresta lokitietomassasta voidaan löytää poikkeavuuksia. Lisäksi tavoitteena on selvittää, kuinka poikkeavuuksia etsivä algoritmi saadaan löytämään poikkeavuudet yksittäisen käyttäjän toiminnassa kirjautumistietoja analysoimalla. Poikkeavuuksien havaitseminen ei vielä itsessään paranna yrityksen tietoturvaa, joten algoritmin kehityksen ohessa kolmantena tavoitteena on pohtia, kuinka yrityksen tietoturvaa voidaan parantaa käyttäjien kirjautumistietojen tarkastelun avulla.
Käytännön osuudessa perehdytään käytettävissä olevan lokidatan rakenteeseen sekä ominaisuuksiin. Teoriaosuudessa läpi käydyistä algoritmeista testataan neljää erilaista datan luokittelualgoritmia, joiden avulla pyritään löytämään datasta sellaisia poikkeavuuksia, joita tutkimalla yrityksen tietoturvaa voitaisiin parantaa.
Työn lopputuloksena toteutettiin R-ohjelmointikielen avulla algoritmi, joka kykenee ennustamaan käyttäjän kirjautumisen onnistumisen viikonpäivän, päivän tietyn tunnin ja kirjautumisen lähdemaan perusteella. Ennusteen kokonaistarkkuudeksi saatiin 95,4 %, ja sen avulla pystytään parantamaan yrityksen tietoturvaa esimerkiksi vaatimalla vahvempaa kirjautumiskäytäntöä sellaisilta henkilöiltä, joiden kirjautumiset eivät ole ennusteen mukaisia.
Opinnäytetyön tavoitteena on tutkia, kuinka suuresta lokitietomassasta voidaan löytää poikkeavuuksia. Lisäksi tavoitteena on selvittää, kuinka poikkeavuuksia etsivä algoritmi saadaan löytämään poikkeavuudet yksittäisen käyttäjän toiminnassa kirjautumistietoja analysoimalla. Poikkeavuuksien havaitseminen ei vielä itsessään paranna yrityksen tietoturvaa, joten algoritmin kehityksen ohessa kolmantena tavoitteena on pohtia, kuinka yrityksen tietoturvaa voidaan parantaa käyttäjien kirjautumistietojen tarkastelun avulla.
Käytännön osuudessa perehdytään käytettävissä olevan lokidatan rakenteeseen sekä ominaisuuksiin. Teoriaosuudessa läpi käydyistä algoritmeista testataan neljää erilaista datan luokittelualgoritmia, joiden avulla pyritään löytämään datasta sellaisia poikkeavuuksia, joita tutkimalla yrityksen tietoturvaa voitaisiin parantaa.
Työn lopputuloksena toteutettiin R-ohjelmointikielen avulla algoritmi, joka kykenee ennustamaan käyttäjän kirjautumisen onnistumisen viikonpäivän, päivän tietyn tunnin ja kirjautumisen lähdemaan perusteella. Ennusteen kokonaistarkkuudeksi saatiin 95,4 %, ja sen avulla pystytään parantamaan yrityksen tietoturvaa esimerkiksi vaatimalla vahvempaa kirjautumiskäytäntöä sellaisilta henkilöiltä, joiden kirjautumiset eivät ole ennusteen mukaisia.