Dataputken suunnittelu DataOps määritelmän avulla
Kiviniemi, Juhana (2022-04-27)
Kiviniemi, Juhana
27.04.2022
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe2022042731040
https://urn.fi/URN:NBN:fi-fe2022042731040
Tiivistelmä
Dataan perustuva toimiva ja luotettava päätöksentekokyvykkyys on noussut yhdeksi merkittävimmäksi lisäarvon tuottajaksi moderneille nykypäivän yrityksille. Jatkuvasti muuttuva kilpailuympäristö yhdistettynä alati vaihtuviin mieltymyksiin asiakkaiden valinnoissa, pakottavat organisaatioita tekemään tietoisia mutta mahdollisimman nopeita dataan perustuvia liiketoimintapäätöksiä. Lisäksi tiedon kasvava rooli kilpailutekijänä on näkynyt yritysten strategisella tasolla, mikä on johtanut investointipääomien siirtymiseen kohti data-analytiikan kyvykkyyksien kasvattamista. Valitettavasti kokemukset näiden investointien arvon lisäyksistä ovat jääneet alhaisiksi useiden organisaatioiden kohdalla. Yritysten sisäiset kommunikointiongelmat, organisaation kulttuuriin juurtuneet käytänteet sekä esimerkiksi teknologisten prosessien toimimattomuus jatkuvasti kehittyvän ja nopeasti toimitettavan analytiikan tuottamiseksi ovat muodostuneet esteiksi lisäarvon saavuttamiseksi. Näiden ongelmien ratkaisemiseksi on hiljattain muodostunut ajatus nimeltä DataOps, jossa joukolla parhaita käytänteitä hyödyntämällä pyritään vastaamaan data-analytiikan kohtaamiin haasteisiin. Tämän tutkielman tarkoituksena on selvittää mitä DataOps määritelmällä tarkoitetaan, mitkä ovat sen tyypillisimmät teknologiaan liitettävät ominaisuudet, ja kuinka näihin ominaisuuksiin perustuen voidaan suunnitella datan siirtämiseen, muokkaamiseen sekä lataamiseen tarkoitettu prosessi eli dataputki.
Tutkimuksen teoreettinen viitekehys muodostettiin kirjallisuudesta löydettyjen DataOpsin kuvauksien pohjalta, joiden voidaan nähdä lainaavan piirteitä DevOpsin, ketterän ohjelmistokehityksen sekä lean-ajattelun teorioista. Viitekehykseen perustuen tutkielman lopputuloksena luotiin suunnittelutieteellisellä tutkimuksella artefakti eli ylätason ominaisuuslistaus DataOpsin tyypillisimmistä piirteistä, kun tavoitteena on kehittää datan siirtämiseen, muokkaamiseen ja lataamiseen kohdistettu prosessi. Artefaktin käyttöä demonstroitiin rakentamalla siihen pohjautuva DataOpsin periaatteita mukaileva dataputki, jonka suoritusta simuloitiin kehitys- ja testausympäristöissä.
Määritelmänä DataOps on suhteellisen uusi, ja siitä löytyvä tieteellinen tutkimus vielä vähäistä. Käsitettä voidaan kuvailla eri tavoilla, painottaen joko teknologisia aiheita tai huomioimalla enemmän ihmisiin sekä organisatorisiin tekijöihin kohdistuvia alueita. Vaikka yhtä yksiselitteistä määritelmää ei vielä ole syntynyt, kaikki löydetyt kuvaukset muistuttivat toisiaan eikä niiden välillä havaittu merkittäviä ristiriitoja. DataOps voidaan nähdä joukkona parhaita käytänteitä, joka lainaa piirteitä DevOpsin, ketterän ohjelmistokehityksen sekä lean-ajattelun teorioista. Tutkielman avulla DataOpsin periaatteita noudattavan dataputken tyypillisimmiksi ominaisuuksiksi koettiin toistettavuus, automatisoitavuus, testattavuus sekä seurattavuus. Ominaisuuksista muodostui tutkimuksen artefakti, jonka avulla onnistuttiin kehittämään DataOpsin käytänteitä osittain mukaileva dataputki. Tämän työn suurimpana kontribuutiona voidaan pitää DataOpsin yleisen tietoisuuden lisäämistä, sekä kuinka sen sisältämiä parhaita käytänteitä voidaan jalkauttaa dataputkien kehitystyöhön teknologista näkökulmaa painottaen.
Tutkimuksen teoreettinen viitekehys muodostettiin kirjallisuudesta löydettyjen DataOpsin kuvauksien pohjalta, joiden voidaan nähdä lainaavan piirteitä DevOpsin, ketterän ohjelmistokehityksen sekä lean-ajattelun teorioista. Viitekehykseen perustuen tutkielman lopputuloksena luotiin suunnittelutieteellisellä tutkimuksella artefakti eli ylätason ominaisuuslistaus DataOpsin tyypillisimmistä piirteistä, kun tavoitteena on kehittää datan siirtämiseen, muokkaamiseen ja lataamiseen kohdistettu prosessi. Artefaktin käyttöä demonstroitiin rakentamalla siihen pohjautuva DataOpsin periaatteita mukaileva dataputki, jonka suoritusta simuloitiin kehitys- ja testausympäristöissä.
Määritelmänä DataOps on suhteellisen uusi, ja siitä löytyvä tieteellinen tutkimus vielä vähäistä. Käsitettä voidaan kuvailla eri tavoilla, painottaen joko teknologisia aiheita tai huomioimalla enemmän ihmisiin sekä organisatorisiin tekijöihin kohdistuvia alueita. Vaikka yhtä yksiselitteistä määritelmää ei vielä ole syntynyt, kaikki löydetyt kuvaukset muistuttivat toisiaan eikä niiden välillä havaittu merkittäviä ristiriitoja. DataOps voidaan nähdä joukkona parhaita käytänteitä, joka lainaa piirteitä DevOpsin, ketterän ohjelmistokehityksen sekä lean-ajattelun teorioista. Tutkielman avulla DataOpsin periaatteita noudattavan dataputken tyypillisimmiksi ominaisuuksiksi koettiin toistettavuus, automatisoitavuus, testattavuus sekä seurattavuus. Ominaisuuksista muodostui tutkimuksen artefakti, jonka avulla onnistuttiin kehittämään DataOpsin käytänteitä osittain mukaileva dataputki. Tämän työn suurimpana kontribuutiona voidaan pitää DataOpsin yleisen tietoisuuden lisäämistä, sekä kuinka sen sisältämiä parhaita käytänteitä voidaan jalkauttaa dataputkien kehitystyöhön teknologista näkökulmaa painottaen.