Detecting data quality issues in categorical data through anomaly detection

Jantunen, Noona

Detecting data quality issues in categorical data through anomaly detection

Jantunen, Noona (2022)

Katso/Avaa

Master's Thesis Jantunen Noona.pdf (2.879Mb)

Lataukset:

Diplomityö

Jantunen, Noona

2022

School of Engineering Science, Tuotantotalous

Kaikki oikeudet pidätetään.

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022013111299

Tiivistelmä

Organizations have increasingly started to understand that data are one of their most important business assets. Nevertheless, for the data to be valuable, it has to be of good quality. Anomaly detection is one approach for detecting possible data quality issues without using pre-defined rules or examining the data manually. The research on anomaly detection is heavily focused on numerical data, although categorical data are ubiquitous in practical applications. Several scholars have identified the issue and proposed anomaly detection methods specifically designed for categorical data.

The objective of this study was to compare and assess anomaly detection methods for detecting potential data quality issues in categorical data. The study discusses the concepts of data quality and anomaly detection, and further defines important considerations in selecting an anomaly detection method for categorical data. A literature review was conducted to survey potential methods. Selected anomaly detection methods were then applied to case data obtained from a case company.

The findings of the study suggests that many anomaly detection methods for categorical data are complex, and some methods define an anomaly differently compared to other methods. In this study, the evaluated algorithms detected rather different records as anomalies, and therefore it is assumed to be important to select an appropriate algorithm for the intended use. At least one of the evaluated algorithms showed potential for detecting data quality issues in categorical data. However, further analysis is required to determine the feasibility of the methods in the specific context by investigating whether the detected anomalies are actual data quality issues or abnormal but legitimate data records. If the methods prove feasible, the case company can use the methods for detecting data quality issues and can eventually improve data quality. Nonetheless, this study provides understanding of anomaly detection in categorical data. In addition, the findings of the study can be utilized in evaluating possible anomaly detection solutions provided by vendors regardless of company or industry.

Yritykset ovat enenevässä määrin alkaneet ymmärtää, että data on yksi niiden tärkeimmistä liiketoiminnan voimavaroista. Jotta data olisi arvokasta, on sen kuitenkin oltava hyvälaatuista. Poikkeamien tunnistaminen on yksi tapa havaita mahdolliset datan laatuongelmat ilman ennalta määritettyjä sääntöjä tai datan manuaalista tutkimista. Poikkeamien tunnistamisen tutkimus keskittyy vahvasti numeeriseen dataan, vaikka kategorinen data on hyvin yleistä käytännön sovelluksissa. Useat tutkijat ovat tunnistaneet ongelman ja ehdottaneet poikkeamien tunnistamismenetelmiä, jotka on suunniteltu erityisesti kategoriselle datalle.

Tämän tutkimuksen tavoitteena oli verrata ja arvioida poikkeamien tunnistamismenetelmiä mahdollisten datan laatuongelmien havaitsemiseksi kategorisessa datassa. Tutkimus käsittelee datan laadun ja poikkeamien tunnistamisen käsitteitä ja määrittelee, mitä tulee ottaa huomioon valittaessa poikkeamien tunnistamismenetelmää kategoriselle datalle. Potentiaalisia menetelmiä kartoitettiin kirjallisuuskatsauksen avulla. Valittuja poikkeamien tunnistamismenetelmiä sovellettiin sen jälkeen case-yritykseltä saatuun case-dataan.

Tutkimustulokset viittaavat siihen, että monet kategorisen datan poikkeamien tunnistamismenetelmät ovat monimutkaisia, ja eri menetelmien määrittelyt poikkeamalle eroavat toisistaan. Tässä tutkimuksessa arvioidut algoritmit havaitsivat poikkeamiksi melko erilaisia tietueita. Täten voidaan olettaa, että on tärkeää valita algoritmi, joka sopii käyttötarkoitukseensa. Ainakin toinen arvioiduista algoritmeista osoitti potentiaalia havaita datan laatuongelmia kategorisessa datassa. Analyysien syventäminen on kuitenkin tarpeen menetelmien käyttökelpoisuuden määrittämiseksi kyseisessä kontekstissa; tulee tutkia, ovatko havaitut poikkeamat todellisia datan laatuongelmia vai poikkeavia, mutta kelvollisia, tietueita. Jos menetelmät osoittautuvat käyttökelpoisiksi, case-yritys voi käyttää menetelmiä datan laatuongelmien havaitsemiseen ja lopulta datan laadun parantamiseen. Joka tapauksessa tämä tutkimus auttaa ymmärtämään poikkeamien tunnistamista kategorisessa datassa. Tutkimuksen tuloksia voidaan myös hyödyntää toimittajien mahdollisesti tarjoamien poikkeamien tunnistamisratkaisujen arvioimiseen yrityksestä ja toimialasta riippumatta.

Kokoelmat

Diplomityöt ja Pro gradu -tutkielmat [12717]