Tietovaraston uudelleensuunnittelu ja toteuttaminen
Haanperä, Ville (2010)
Diplomityö
Haanperä, Ville
2010
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi-fe201007282244
https://urn.fi/URN:NBN:fi-fe201007282244
Tiivistelmä
Tietovarastointi on yleistynyt yritysten raportoinnin tietolähteenä. Tietovarastojen avulla voidaan kehittää monipuolisia raportointiratkaisuja. Datamäärän ja käyttäjämäärän kasvu sekä raporttien monipuolistuminen aiheuttavat suorituskykyhaasteita. Tässä työssä käydään läpi tietovaraston uudelleensuunnittelu suorituskykyhaasteisiin keskittyen.
Työn tavoitteena oli sekä tietovaraston käytön että ylläpidon tehostaminen. Työvaiheina olivat arkkitehtuurin kehittäminen, faktan ja dimensioiden optimointi, ETL-prosessin tehostaminen, paikallisvarastojen rakentaminen sekä osioinnin, indeksien ja aggregaatiosummien tehokkaampi hyödyntäminen. Tavoitteen toteutumista mitattiin toistamalla työn eri vaiheissa suorituskykytestejä.
Tuloksena saavutettiin merkittävä suorituskyvyn parantuminen erityisesti työn aikana luoduissa paikallisvarastoissa. Tietovarastoon tehtävien kyselyiden ja hallintatoimenpiteiden kesto pieneni yleisesti noin kolmannekseen. Erillisiin käyttötarkoituksiin räätälöityihin paikallisvarastoihin tehtävien kyselyjen kesto pieneni noin kymmenykseen tai parhaassa tapauksessa jopa sadasosaan Data warehousing has become an important data source for corporate reporting. It enables companies to develop flexible reporting solutions. The growing amount of data and users will however cause major performance challenges. This thesis describes the process of redesigning a data warehouse concentrating on performance.
The object of this work was to improve the performance of both end-user reporting usage and maintenance tasks. The work involved reconciling the architecture, optimizing fact and dimension structures, improving ETL performance, deploying specialized data marts, and more efficient use of partitioning, indexing and aggregation. The outcome was measured by repeated tests at different stages of the work.
The result was a success with a remarkable performance improvement especially in the data marts that were created during the work. For the data warehouse the duration of selected queries and maintenance tasks dropped to one third. For the data marts the results were even more encouraging. Generally the queries lasted about one tenth and in the best case only one hundredth compared to running the same queries in the original data warehouse.
Työn tavoitteena oli sekä tietovaraston käytön että ylläpidon tehostaminen. Työvaiheina olivat arkkitehtuurin kehittäminen, faktan ja dimensioiden optimointi, ETL-prosessin tehostaminen, paikallisvarastojen rakentaminen sekä osioinnin, indeksien ja aggregaatiosummien tehokkaampi hyödyntäminen. Tavoitteen toteutumista mitattiin toistamalla työn eri vaiheissa suorituskykytestejä.
Tuloksena saavutettiin merkittävä suorituskyvyn parantuminen erityisesti työn aikana luoduissa paikallisvarastoissa. Tietovarastoon tehtävien kyselyiden ja hallintatoimenpiteiden kesto pieneni yleisesti noin kolmannekseen. Erillisiin käyttötarkoituksiin räätälöityihin paikallisvarastoihin tehtävien kyselyjen kesto pieneni noin kymmenykseen tai parhaassa tapauksessa jopa sadasosaan
The object of this work was to improve the performance of both end-user reporting usage and maintenance tasks. The work involved reconciling the architecture, optimizing fact and dimension structures, improving ETL performance, deploying specialized data marts, and more efficient use of partitioning, indexing and aggregation. The outcome was measured by repeated tests at different stages of the work.
The result was a success with a remarkable performance improvement especially in the data marts that were created during the work. For the data warehouse the duration of selected queries and maintenance tasks dropped to one third. For the data marts the results were even more encouraging. Generally the queries lasted about one tenth and in the best case only one hundredth compared to running the same queries in the original data warehouse.