Hurtownia Danych
Aliasy: Data Warehouse, DWH, HD
Hurtownia Danych jest sercem większości systemów Business Intelligence, a od jej poprawnego zaprojektowania i funkcjonowania zależy sukces całego programu BI w korporacji.
Spis Treści
Hurtownia Danych z biznesowego punktu widzenia?
Hurtownia Danych jest bazą zorientowaną na optymalną obsługę zapytań odwołujących się do dużych ilości danych. Systemy transakcyjne (OLTP) posiadają własne bazy danych, których zadaniem jest przetwarzanie dużej ilości operacji (np. rejestrowanie transakcji w hipermarkecie, czy połączeń telefonicznych u operatora telekomunikacyjnego). Systemy takie rejestrują tysiące zdarzeń w ciągu sekundy i pod kątem takiej wydajności są projektowane. Wysłanie do takiego systemu zapytania, np. o średni przychód w ciągu ostatniego roku w rozbiciu na miesiące, z określonej taryfy, względem wybranych pięciu segmentów klientów mógłby spowodować długi okres zawieszenia aplikacji, a co za tym idzie paraliż działalności firmy. Z drugiej strony analitycy biznesowi i menadżerowie potrzebują zadawać setki takich pytań dziennie, aby podejmować optymalne decyzje. Do takich właśnie celów tworzone są Hurtownie Danych, aby odciążać systemy operacyjne i efektywnie obsługiwać zapytania analityczne.
Definicja
Ralph Kimball, w swojej kultowej książce "The Data Warehouse Toolkit", definiuje Hurtownię Danych
jako kopię danych transakcyjnych ustrukturalizowaną w sposób nastawiony na zapytania i analizy.
Bill Inmon, obok Ralpha Kimballa jeden z dwóch prekursorów teorii Hurtowni Danych, jest autorem następującej definicji.
Hurtownia Danych jest centralnym repozytorium danych dla całego przedsiębiorstwa. Charakteryzuje się ona tym, że jest:
Zorientowana tematycznie (Subject-oriented)
Dane w Hurtowni Danych są zorganizowane tematycznie, tak że wszystkie elementy odnoszące się do tego samego obiektu, lub zdarzenie ze świata rzeczywistego, są ze sobą połączone.
Nieultona (Non-volatile)
Dane w Hurtowni Danych nie są nigdy nadpisywane, ani usuwane. Raz wprowadzone są statyczne i przeznaczone jedynie do odczytu. Praktyka pozwala jednak na odstępstwa od tej reguły i w określonych sytuacjach dane bywają w hurtowni nadpisywane (np. podczas obsługi wolno zmieniających się wymiarów typu 1 - SCD 1).
Zintegrowana (Integrated)
Dane zgromadzone w Hurtowni Danych pochodzą z różnych, heterogenicznych systemów przedsiębiorstwa i są zintegrowane do spójnego modelu.
Określona w czasie (Time-variant)
Wszystkie dane w Hurtowni Danych są określone w czasie - odpowiadają określonemu przedziałowi czasowemu (posiadają atrybut czasu).
Inne źródła
Zagadnienia związane z Hurtownią Danych zostały omówione również w artykule Marka Kowalskiego "Hurtownia danych - magazyn informacji dla menadżera".
Temat zbierania wymagań pod budowę Hurtowni Danych i systemu Business Intelligence poruszony jest w artykule Marcina Choińskiego "Wymagające Wymagania (wg. Kimball Lifecycle)".
Źródła zewnętrzne, w których można znaleźć więcej informacji:
- The Data Warehousing Institute - najpopularniejsza i największa na świecie organizacja poświęcona Business Intelligence i Hurtowniom Danych;
- Kimball Group - strona grupy ekspertów zrzeszonych wokół Ralpha Kimballa, guru Hurtowni Danych; -Corporate Information Factory - strona Billa Inmona, guru Hurtowni Danych;
- Polska i Anglojęzyczna Wikipedia.
Bibliografia:
Ralph Kimball, Margy Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition), Wiley 2002W.H. Inmon, What is a Data Warehouse?, Prism, Volume 1, Number 1, 1995



