Epätäydellisen datan käsittely ja sen vaikutus analyysiin
Kämäräinen, Leevi (2022)
Kandidaatintyö
Kämäräinen, Leevi
2022
School of Engineering Science, Laskennallinen tekniikka
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022051635714
https://urn.fi/URN:NBN:fi-fe2022051635714
Tiivistelmä
Epätäydellistä dataa löytyy miltei kaikesta datasta. Se, kuinka paljon epätäydellisyyttä on datassa ja mitä tyyppiä se on, vaikuttaa paljon siihen, kuinka dataa voidaan hyödyntää. Tässä kandidaatintyössä tutkitaan eri epätäydellisyyden tyyppejä sekä käsittelytekniikoita MATLAB-ohjelmiston avulla. Työ toimii oppaana aiheen teoriaan ja pyrkii esimerkkien kautta tuomaan konkreettisesti esille sen, mitä on epätäydellinen data.
Työn tavoitteena oli tutkia yksinkertaisen lähimmän naapurin menetelmän sekä lineaariregression hyödyntämistä epätäydellisen datan korjaamiseen. Erityisesti tutkittiin epätäydellisellä datalla ennusteiden tekemistä ja sitä, kuinka paljon epätäydellistä dataa voi olla. Työn data-aineistona toimii WorldBank:in tarjoama väestönlaskentadata maailman väestöstä. Data-aineistosta keskityttiin tutkimaan eri maiden väkilukuja. Tuloksena saatiin korjattua epätäydellisyyttä siten, että sekä korjattu data että sillä tehdyt ennusteet mukailivat kohtuullisesti todellisen datan tilannetta. Vaikka data-aineistot olivat kooltaan pieniä, väestönlaskentadatan korjaaminen työn menetelmillä oli mahdollista ja erot todellisen dataan olivat tyydyttävällä tasolla.
Työn tavoitteena oli tutkia yksinkertaisen lähimmän naapurin menetelmän sekä lineaariregression hyödyntämistä epätäydellisen datan korjaamiseen. Erityisesti tutkittiin epätäydellisellä datalla ennusteiden tekemistä ja sitä, kuinka paljon epätäydellistä dataa voi olla. Työn data-aineistona toimii WorldBank:in tarjoama väestönlaskentadata maailman väestöstä. Data-aineistosta keskityttiin tutkimaan eri maiden väkilukuja. Tuloksena saatiin korjattua epätäydellisyyttä siten, että sekä korjattu data että sillä tehdyt ennusteet mukailivat kohtuullisesti todellisen datan tilannetta. Vaikka data-aineistot olivat kooltaan pieniä, väestönlaskentadatan korjaaminen työn menetelmillä oli mahdollista ja erot todellisen dataan olivat tyydyttävällä tasolla.