Data quality in data warehouses
Aunola, Jere (2018)
Aunola, Jere
Lahden ammattikorkeakoulu
2018
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201805148032
https://urn.fi/URN:NBN:fi:amk-201805148032
Tiivistelmä
Opinnäytetyön tavoitteena oli tutkia tiedon laatua ja sen vaikutuksia tietovarastoille. Tiedon laadusta selvitettiin sen määritelmä ja se, miten tiedon laatua voidaan mitata ja analysoida. Opinnäytetyössä käsitellään yleisimmät tiedon profilointi menetelmät ja yleisimmät tiedon laadun analysointi menetelmät. Tämän jälkeen käydään läpi tietovarastointia yleisellä tasolla ja tarkastellaan tiedon laadun vaikutuksia tietovaraston näkökulmasta. Lisäksi tarkasteltiin miten tiedon laadun analysointi olisi mahdollista yhdistää tietovarastointiin. Opinnäytetyössä suoritettiin myös semi-strukturoidut haastattelut sekä tietovarastojen toimittajan henkilöillä, että asiakkaan puolen henkilöille. Haastatteluilla tarkasteltiin toimittajan ja asiakkaan puolen näkemyksiä tiedon laadusta ja sen vaikutuksista tietovarastoille.
Tiedon laatu riippuu aina tiedon käyttötarkoituksesta. Sama tieto voi olla hyvää laadultaan toiseen tarkoitukseen ja toiseen taas laadultaan heikkoa. Ennen kun tiedon laatua voidaan mitata, täytyy tietoa profiloida. Profiloinnilla tarkastellaan tietoa sellaisenaan ja kerätään siitä statistiikkaa. Profiloinnin tuottaman tiedon avulla voidaan määritellä tiedon laadun säännöt. Säännöt määritellään aina tiedon käyttäjän näkökulmasta ja bisneksen näkökulmasta. Näitä sääntöjä ajamalla saadaan kuva tämän hetken tiedon laadusta, kun verrataan hyväksyttyjen tietueiden määrää tietueiden kokonaismäärään.
Tietovarastoihin tuodaan yleensä tietoja useista läheteistä ja erilaisissa formaateissa. Tietovarastoja käytetään tietojen yhdistämisessä ja tuottamaan yhtenäisen kerroksen tukemaan raportointia ja business intelligenceä. Tästä syystä onkin tärkeää, että tietovaraston tiedon laatu on hyvää. Haastattelujen perusteella voidaankin todeta, että tiedon laatu on koko tietovaraston edellytys.
Tiedon laatu riippuu aina tiedon käyttötarkoituksesta. Sama tieto voi olla hyvää laadultaan toiseen tarkoitukseen ja toiseen taas laadultaan heikkoa. Ennen kun tiedon laatua voidaan mitata, täytyy tietoa profiloida. Profiloinnilla tarkastellaan tietoa sellaisenaan ja kerätään siitä statistiikkaa. Profiloinnin tuottaman tiedon avulla voidaan määritellä tiedon laadun säännöt. Säännöt määritellään aina tiedon käyttäjän näkökulmasta ja bisneksen näkökulmasta. Näitä sääntöjä ajamalla saadaan kuva tämän hetken tiedon laadusta, kun verrataan hyväksyttyjen tietueiden määrää tietueiden kokonaismäärään.
Tietovarastoihin tuodaan yleensä tietoja useista läheteistä ja erilaisissa formaateissa. Tietovarastoja käytetään tietojen yhdistämisessä ja tuottamaan yhtenäisen kerroksen tukemaan raportointia ja business intelligenceä. Tästä syystä onkin tärkeää, että tietovaraston tiedon laatu on hyvää. Haastattelujen perusteella voidaankin todeta, että tiedon laatu on koko tietovaraston edellytys.