Jedna wersja prawdy - koncepcja i realizacja
Koncepcja jednej wersji prawdy ma rzesze swoich zwolenników i równocześnie wielu zagorzałych przeciwników. Czym tak naprawdę jest jedna wersja prawdy? Czy warto do niej dążyć, czy może lepiej odejść zupełnie od jej postulatów? Jaką ścieżkę wybrać, aby otrzymywać lepszą informację z danych? To opracowanie ma za zadanie przedstawić obraz koncepcji jednej wersji prawdy i pokazać, że brak realizacji jej postulatów może prowadzić do dużych szumów informacyjnych. Przedstawione przykłady są bardzo proste i mają obrazować zalety jednej wersji prawdy. Na koniec pokazujemy co należy zrobić, aby przybliżyć się do realizacji postulatów koncepcji.
Spis Treści
- Koncepcja jednej wersji prawdy (single version of the truth)
- Mnogość pojęć
- Czym jest prawda? I czy istnieje?
- Jakość danych – odwieczny problem
- Integracja danych
- Jedno źródło prawdy
- Jedna wersja prawdy a raportowanie i analiza ad-hoc
- Zarządczy i analityczny widok danych
- Narzędzia BI a jedna wersja prawdy
- Podsumowanie
Koncepcja jednej wersji prawdy (single version of the truth)
Jedna wersja prawdy to prosta koncepcja, której nadrzędnym celem jest zapewnienie lepszego rozumienia informacji pochodzącej z danych. Koncepcja zakłada istnienie jednego repozytorium danych (hurtowni danych), która pełni funkcję centralnej bazy danych organizacji (jedno źródło prawdy). Dane te muszą być utrzymywane w możliwie spójny i nieredundantny sposób. I w zasadzie to wszystko. Jednak jedna wersja prawdy w swojej prostocie budzi spore kontrowersje w środowisku ludzi związanych z Business Intelligence. Kontrowersje te wynikają przede wszystkim z różnic w rozumieniu postulatów koncepcji oraz trudności jakie czekają na wszystkich, którzy chcą koncepcję realizować w swoim środowisku analitycznym i raportowym.
W myśl koncepcji jednej wersji prawdy należy dążyć do stanu, gdzie informacja otrzymywana z analizy danych w organizacji jest jednoznaczna i zrozumiała dla wszystkich jej odbiorców. Cel jest oczywiście szczytny. Problem pojawia się na etapie jego realizacji. Krytycy koncepcji jednej wersji prawdy porównują ją do Świętego Grala świata Business Intelligence – wszyscy o niej mówią, ale nikomu nigdy nie udało się jej osiągnąć. Zatem, czy koncepcja jednej wersji prawdy może zostać kiedykolwiek zrealizowana?
Istnieje kilka podstawowych czynników, które mogą powodować brak jednoznaczności dystrybuowanej informacji. W codziennej analizie danych przeszkadza mnogość definicji pozornie tych samych obiektów oraz wciąż zmieniające się i dostosowywane wskaźniki efektywności biznesu. Do tego dochodzi często marna jakość przetwarzanych danych i w końcu trudności w integracji danych z wielu systemów oraz błędy w tym procesie.
Mnogość pojęć
Realizacja koncepcji jednej wersji prawdy zakłada stosowanie możliwie spójnych i jednoznacznych definicji w procesach biznesowych. Krytycy jednej wersji prawdy twierdzą niejednokrotnie, że tego rodzaju standaryzacja jest niemożliwa do implementacji. Wynika to przede wszystkim z mnogości różnych definicji pozornie tych samych obiektów. Definicje te przenikają się i współistnieją w organizacji. Nawet tak pozornie oczywisty obiekt jak klient może być nieco inaczej postrzegany w dziale marketingu, sprzedaży lub księgowości. Tak prosta miara jak bieżąca liczba klientów może w różnych działach zostać zaraportowana zupełnie inaczej - w zależności od poczynionych założeń i przyjętych definicji. Na przykład, dział księgowości może być zainteresowany jedynie klientami, z którymi łączą ich bieżące rozliczenia. Dział sprzedaży wyłącznie tymi, którzy ostatnio dokonali zakupu. A dział marketingu wyłącznie tymi, którzy wyrazili zgodę na komunikację dla celów marketingowych.
Czy zatem jedna wersja prawdy ponosi klęskę już tutaj? Przeciwnicy twierdzą, że tak. Jednak koncepcja nigdzie nie wymaga ujednolicania definicji wszystkich obiektów. Jeżeli ze względu na specyfikę procesów biznesowych istnienie kilku definicji klienta jest uzasadnione, to nie ma żadnego problemu. W koncepcji jednej wersji prawdy chodzi przede wszystkim o zachowanie prawdziwości faktu na najbardziej atomowym poziomie. Czyli jeżeli zaczniemy drążyć po dowolnym podzbiorze klientów, to bez względu na przyjętą definicję jesteśmy w stanie ustalić wszelkie prawdziwe atrybuty klienta, które sprawiają, że spełnia on daną definicję. I najistotniejsza jest tu właśnie ta prawdziwość danych na najniższym poziomie granulacji.
Mimo wszystko należy pamiętać, że jeżeli to tylko możliwe z biznesowego punktu widzenia, należy starać się ujednolicać i standaryzować stosowane pojęcia - przynajmniej w ramach jednego procesu biznesowego. Jednak tutaj kwestia jest bardziej polityczna i dotyczy kultury organizacyjnej. Ta miękką specyfika tego problemu sprawia, że bardzo trudno jest osiągnąć pożądany stan. Ale jeżeli zależy nam na pełnym zrozumieniu dostarczanych informacji, to wysiłek warto podjąć. Między innymi siłę tej standaryzacji ma obrazować poniższy przykład.
Przykład: Rozważmy taki prosty przykład. Analityk z działu marketingu musi przygotować zestawienie przedstawiające sprzedaż 10 najpopularniejszych produktów w ostatnim miesiącu. Oraz 5 punktów obsługi klienta o najniższych przychodach w ostatnim miesiącu. Jak to w życiu bywa – czasu na dostarczenie zestawienia jest mało.
Sprzedaż w organizacji funkcjonuje w dwóch ujęciach. Może ona być wyznaczana na podstawie daty złożenia zlecenia lub według daty zaksięgowania. W zależności od długości i zmienności okresu pomiędzy datą zlecenia i zaksięgowania wartości miesięcznej sprzedaży wyznaczone według każdej z tych definicji mogą się bardzo różnić.
W organizacji brakuje jednego centralnego repozytorium danych. Nie ma czasu na zorganizowanie pełnego zestawu danych źródłowych na potrzeby analizy i analityk musi posiłkować się dostępnymi zestawieniami. I tak, dział sprzedaży tworzy miesięczne zestawienie z rankingiem sprzedawanych produktów w miesiącu. Dział kontrolingu przy analizie rentowności oddziałów posługuje się przychodami ze sprzedaży na oddział. Oba zestawienia są dostępne bez problemu w postaci skoroszytów arkusza kalkulacyjnego. Dzięki sprawnym kalkulacjom analityk szybko przedkłada wymagane zestawienie swoim przełożonym.
Na podstawie wyników analizy przełożeni zadecydowali o przyznaniu dodatkowych środków na promocję najlepiej sprzedających się produktów w 5 najsłabszych oddziałach (materiały promocyjne, reklama w lokalnej prasie). Celem było oczywiście podrasowanie rentowności tych oddziałów, a ich zdaniem najlepiej jest to zrobić promując te najpopularniejsze produkty.
Teraz wyobraźmy sobie jaka mogła być rzeczywistość… Analityk był zmuszony zignorować fakt, że raporty w dziale kontrolingu zawsze są prezentowane według daty księgowania. Natomiast dział sprzedaży posługuje się wartościami według daty zlecenia. Załóżmy, że pod koniec poprzedniego miesiąca jeden z punktów obsługi klienta, który na raporcie analityka miał najniższą sprzedaż pod koniec miesiąca sprzedał bardzo dużo popularnych produktów. Jednak data księgowania przypadała już na miesiąc następny i nie została wykazana przez kontroling na raporcie. Mamy wówczas sytuację, że decyzja o dotacji została przyznana oddziałowi, który po pierwsze nie powinien być wykazany jako jeden z najsłabszych. Po drugie, paradoksalnie to on mógł wygenerować sporą część sprzedaży z raportu najpopularniejszych produktów. Niestety nie zostało to wychwycone przez poważny błąd w metodologii. Rzeczywistość mogła okazać się taka, że środki na promocję zostały kompletnie zmarnowane, ponieważ powędrowały do złego adresata.
Fakt jest taki, że wartość sprzedaży może być definiowana na wiele sposobów. Jednak błąd polegający na mieszaniu definicji może prowadzić do poważnych skutków, często nawet finansowych. Co więcej, organizacje często nie są nawet świadome ile takich błędów mogły popełnić w procesie podejmowania decyzji. A jeżeli nawet sobie to uświadomią, to w efekcie mogą przestać ufać w wyniki kolejnych analiz. Dlatego tak ważne jest, aby uspójniać definicje przynajmniej w ramach jednego procesu biznesowego.
Czym jest prawda? I czy istnieje?
Natknąć się można na bardzo ciekawy pogląd, że nie istnieje coś takiego jak prawda w świecie analitycznym. W rzeczywistości poruszamy się jedynie w obrębie interpretacji pewnych faktów. Jeżeli jakiś analityk opracował jakiś wskaźnik, który mierzy efektywność jakiegoś obszaru biznesu, to jego definicja jest prawdziwa tylko w danym momencie. Bo przecież w przyszłości można dojść do wniosku, że wskaźnik lub raport trzeba zmodyfikować, żeby jeszcze lepiej oddawał i mierzył stan biznesu. Krytycy jednej wersji prawdy w tym scenariusz dostrzegają kompletną dyskredytację tej koncepcji. Bo skoro prawda może dynamicznie ulegać zmianie, to jakim cudem może istnieć tylko jej jedna wersja?
To co jest kluczowe w tym kontekście, to zapewnienie, że w tym samym momencie nie współistnieją dwie wersje prawdy. Problemem zatem nie jest zmiana używanej interpretacji faktów, ale bałagan wynikający ze współegzystencji kilku intepretacji w jednym momencie. Należy jednak pamiętać, że akceptując definicję prawdy jako danej interpretacji faktów, która jest zmienna w czasie, musimy jednocześnie zapewnić pełną poprawność tych faktów i sprawić, aby wszelkie informacje niezbędne do wyznaczenia prawdy aktualnej na danych czas były zawsze dostępne również wstecz. I tu tkwi sedno.
Przykład: Dział marketingu prowadzi klasyfikację klientów według trzech typów: ‘Regular’, ‘Medium’, ‘Premium’. Do tej pory dział był zainteresowany udziałem sprzedaży pięciu najpopularniejszych produktów w ogólnej sprzedaży klientów o typie ‘Premium’ i analizował w dłuższym okresie czasu zmiany sprzedaży w tej grupie klientów. Jednak wraz ze wzrostem asortymentu firmy dział marketingu ustalił, aby mierzyć jednak 10 najpopularniejszych produktów klientów o typie ‘Premium’ i ‘Medium’. Definicja miary jaką jest zainteresowany dział marketingu uległa zmianie. Nowy wskaźnik jest teraz alternatywną prawdą, ponieważ wyparł poprzednią, już nieaktualną jego wersję.
Kluczową analizą jaką wykonywał dział marketingu była analiza trendu sprzedaży najpopularniejszych produktów u najbardziej wartościowych klientów – do tej pory tylko ‘Premium’, natomiast teraz również ‘Medium’. Metodologicznie niepoprawne byłoby umieszczenie wskaźnika wyliczonego według odmiennej metodologii na jednym wykresie z wartościami poprzedniej miary. Dział marketingu nalega jednak na zapewnienie możliwości analizy trendu, co z kolei wiąże się z konicznością wyliczenia wartości nowego wskaźnika wstecz.
Pojawiają się jednak kolejne problemy. Typ klienta jest kalkulowany na podstawie wartości zakupów w ostatnim pół roku. Czyli ktoś kto dzisiaj jest w typie ‘Premium’, 3 miesiące temu mógł być w typie ‘Medium’ lub ‘Regular’. Baza danych, na podstawie której analitycy wyliczają wskaźniki utrzymuje jedynie aktualny typ klienta. Stary wskaźnik był wyliczany w arkuszach kalkulacyjnych, które zawierają dane źródłowe użyte do obliczeń. Jednak dane dotyczą wyłącznie klientów ‘Premium’ i zostały ograniczone wyłącznie do pięciu najpopularniejszych produktów. Analitycy dochodzą do wniosku, że ustalenie jaka była prawdziwa wartość wskaźnika w poprzednich okresach wymaga ogromnego nakładu pracy. Dział marketingu musi zatem zrezygnować z kluczowej dla siebie możliwości interpretacji trendu i utrzymywać przez jakiś czas dwa wskaźniki, z których jeden nie jest już prawdziwy, a drugi funkcjonalnie nie spełnia oczekiwań. I tak źle, i tak niedobrze…
I tutaj dochodzimy do sedna sprawy. Prawda faktycznie może ulegać zmienia, bo jest jedynie interpretacją faktów. W koncepcji jednej wersji prawdy chodzi po prostu o zapewnienie możliwości wyznaczenia tej prawdy w jednej, ustalonej, zaakceptowanej przez wszystkich i najlepszej wersji - również wstecz.
Jakość danych – odwieczny problem
Wszelkie organizacje, które podejmują się wysiłku analizy danych prędzej, czy później napotykają na problem jakości danych. Nie da się opierać decyzji na słabej jakości danych. Ta kwestia jest oczywista i nie wydaje się, aby ktokolwiek z tym faktem dyskutował.
Koncepcja jednej wersji prawdy mówi, że należy zrobić wszystko, aby zapewnić poprawność, jednoznaczność, spójność i kompletność danych. Dane spełniające takie kryteria są prawdziwe. Co więcej, te prawdziwe dane muszą być dostępne dla wszystkich, którzy ich potrzebują w codziennej pracy. Łatwo sobie wyobrazić różnice w osiąganych wynikach w różnych działach, które podejmują się czyszczenia danych na własną rękę. Proces czyszczenia danych powinien być możliwie zcentralizowany, tak, aby te same dane były dostępne bez względu na proces biznesowy, czy miejsce w strukturze organizacyjnej.
Podawanie przykładu w tak oczywistej kwestii jest niecelowe.
Integracja danych
Bardzo często analiza danych wymaga połączenia danych trzymanych w różnych systemach. Przy tym procesie bardzo łatwo jest popełnić błąd co skutkuje istotnymi szumami informacyjnymi. W praktyce bardzo często integracja danych przez analityków w firmie odbywa się przez ręczne (na przykład za pośrednictwem arkuszy kalkulacyjnych) łączenie informacji z kilku systemów. Czasami znalezienie odpowiednich złączeń między systemami jest zadaniem prostym. Czasem jednak analitycy postępując w dobrzej wierze, popełniają błędy bardzo trudne do zdiagnozowania. A to z kolei może powodować błędne decyzje.
Przykład: Analityk ma za zadanie przedstawić sprzedaż produktów w podziale na oddziały za ostatni rok. Struktura organizacyjna jest utrzymywana w systemie którego właścicielem jest dział personalny. Analityk bez problemu otrzymał ekstrakt z całą strukturą sprzedawców wraz z przypisaniem do działu. Właścicielem systemu transakcyjnego, skąd można pobrać wszystkie dane o sprzedaży, jest dział sprzedaży. System loguje identyfikator pracownika odpowiedzialnego za transakcję. Używając id sprzedawcy analityk może dokonać połączenia danych obu systemów.
Zadanie wydaje się łatwe, ale… Analityk nie uwzględnił następujących aspektów (i wynikało to wyłącznie z jego niewiedzy, a nie złej woli, czy niedokładności). Okazało się, że na przestrzeni ostatniego roku część sprzedawców zmieniła miejsce w strukturze i przeszła do innych działów (id pracownika pozostaje bez zmian). Poza tym otwarto nowy oddział w Wielkopolsce, gdzie pracę rozpoczęło kilku pracowników z innych działów. W efekcie w ekstrakcie z działu personalnego wielu z pracowników zostało wymienionych dwukrotnie. A po ostatecznym połączeniu danych wyszło, że oddział, który powstał dwa miesiące temu ma na ostatecznym raporcie wykazaną sprzedaż z przed sześciu miesięcy. Przełożony analityka dostrzegł absurd dopiero jak raport był gotowy. Nie dość, że powstał dodatkowy nakład pracy wynikający z koniczności poprawienia raportu, to jeszcze pozostał niesmak… Następnym razem przełożony będzie ostrożnie przyjmował wyniki analiz przedstawiane przez analityka. Podwojona sprzedaż wynikająca z dwukrotnego naliczenia jej dla pracowników o zmienionym oddziale w czasie roku nigdy nie została wykryta…
W tym wypadku analityk w końcu nauczył się specyfiki danych obu systemów. Następnym razem będzie o tym pamiętał. Gorzej jak odejdzie z pracy i ktoś znowu będzie się tego musiał uczyć na swoich (i organizacji) błędach. Należy pamiętać, ze integracja danych jest procesem bardzo skomplikowanym, ale często przewidywalnym i dającym się zautomatyzować. Tego typu sytuacje można istotnie ograniczyć a wręcz wyeliminować. Oczywiście zautomatyzowane procesy ETL mogą również zawierać błędy, ale dobre testy poprzedzające działanie na produkcji ograniczają to ryzyko.
Jedno źródło prawdy
Powyżej zostały wymienione główne postulaty koncepcji jednej wersji prawdy wraz z przykładami mającymi obrazować ich słuszność. Po pierwsze, należy zadbać o spójność definicji w obrębie procesu biznesowego. Jeżeli nawet istnieją różne definicje jednego pojęcia, to musi zostać zapewniona jedna wersja prawdy na najniższym poziomie granulacji. Ale i tak nie warto używać wielu definicji tego samego pojęcia w jednym procesie biznesowym. Po drugie, prawdę należy traktować jako pewną interpretację faktów, która może ulegać zmianie w czasie. W związku z tym należy zapewnić elementarną poprawność faktów i wartości atrybutów procesów biznesowych również w ujęciu historycznym. Po trzecie, nie ma mowy o prawdziwych wnioskach opierając się o błędne lub niespójne dane. W tym kontekście należy koniecznie zadbać o wysoką jakość danych w organizacji. I po czwarte, należy wystrzegać się błędów w łączeniu danych z różnych systemów. Takie błędy są często trudno dostrzegalne i przez to wyjątkowo niebezpieczne.
Mimo, że koncepcja wydaje się spójna i bardzo prosta to niestety łatwiej napisać, niż zrobić. Powyższe kwestie to w zasadzie główne problemy wszystkich organizacji analizujących dane. Według jednej wersji prawdy czymś co wspiera eliminację tych problemów jest istnienie jednego źródła prawdy dla celów raportowych i analitycznych. Czyli po prostu istnienie hurtowni danych. Dobrze zaprojektowana wielowymiarowa hurtownia danych powinna pozytywnie wpłynąć na wszystkie zidentyfikowane problemy. Oczywiście hurtownia danych musi być odpowiednio zaprojektowana i zasilana, ale nie o tym jest to opracowanie.
Hurtownia danych powinna trzymać dane na odpowiednio niskim poziomie granulacji pozwalając wyznaczać podzbiory danych w dowolnych kontekstach. Część pozornie identycznych atrybutów może być trzymane jako odrębne elementy wymiarów. Nieco różniące się miary mogą być trzymane również w odrębnych kolumnach w tabelach faktów. Wówczas bez względu na przyjętą definicję drążąc dany zbiór danych łatwo ustalimy najbardziej atomowe i prawdziwe wartości.
Hurtownia danych powinna zapewnić historyczny widok na biznes. Istnieje szereg mechanizmów, które możemy wykorzystać do śledzenia zmian kluczowych atrybutów. Wówczas nawet jak aktualna prawda zmieni się, jesteśmy w stanie łatwo ustalić prawdziwe wartości również wstecz.
Przed zasileniem hurtowni danych należy zadbać o jakość informacji. Data Quality to odrębna dziedzina, która nie mieści się w obrębie tego opracowania. Jednak istnieją sposoby na poprawę jakości danych „w locie” lub chociaż wykrycie pewnych niespójności dających się poprawić po stronie systemu źródłowego.
Zasilenie hurtowni danych jest poprzedzone procesem integracji danych z różnych, rozproszonych systemów źródłowych. Zintegrowana hurtownia danych jako jedno źródło prawdy przybliża nas do stanu, gdzie połączenia pomiędzy systemami źródłowymi będą działać w sposób zawsze przewidywalny, a także w pełni automatyczny. W efekcie wszystko co potrzebuje analityk będzie dostępne w jednym miejscu dla każdego, kto ma prawo widzieć dane z racji wykonywanych obowiązków. Przed wdrożeniem produkcyjnym hurtowni danych należy jednak szczególnie dokładnie przetestować aspekt poprawności złączeń miedzy systemami.
Jedna wersja prawdy a raportowanie i analiza ad-hoc
Główny zarzut względem koncepcji jednej wersji prawdy jest taki, że wszelkie standaryzacje, które koncepcja ta postuluje przytępiają analityczną wyobraźnię w organizacji. Czyli w zasadzie eliminują możliwość raportowanie i analizowanie niestandardowe (ad-hoc). Bo skoro prawda ma być jedna, to nie mamy prawa wyznaczać własnych kontekstów analitycznych. Zarzut ten jest kompletnie absurdalny.
Jedna wersja prawdy nigdzie nie zabrania analizowania danych w każdym możliwym kontekście. Chodzi tylko o to, żeby dane na najbardziej atomowym poziomie były prawdziwe i żeby każdy korzystał z tych samych danych źródłowych. Pozwoli to wówczas na pełne zaufanie w wyniki analiz i nie będzie niosło ze sobą nieścisłości i niespójności w dystrybucji informacji.
Zarządczy i analityczny widok danych
Coraz więcej organizacji traktuje swoje dane jak aktywa, które można wykorzystywać do pogłębiania swojej przewagi konkurencyjnej. Jednak dane w organizacji są postrzegane zawsze z dwóch różnych perspektyw. Po pierwsze, możemy spojrzeć ze strony kadry menedżerskiej, która z reguły preferuje statyczne i proste raporty, które można łatwo zinterpretować. Im bardzie skomplikowany raport, czy analiza, tym większa niechęć wśród menadżerów do korzystania z niego. I oczywiście nie ma w tym niż złego. Jeżeli natomiast analiza wymaga nieco bardziej wyrafinowanych środków lub wyodrębniania ukrytych wzorców, to takie zadanie jest przekazywane do analityków, którzy mają zupełnie inne oczekiwania względem dostępności i użyteczności danych. W ich interesie jest łatwy dostęp do danych w każdym możliwym kontekście. Maja oni pełną dowolność w przekształcaniu danych, o ile nie stoi to w sprzeczności z metodologią i zdrowym rozsądkiem. Mogą przeprowadzać proste zestawienia jak i skomplikowane analizy data mining. A na końcu przedstawiają prostą rekomendację swoim przełożonym. To co jest kluczowe, to fakt, aby dane z których korzystają obie grupy użytkowników były prawdziwe na poziomie atomowym i nie stały ze sobą w sprzeczności.
Ten dualizm w postrzeganiu danych organizacji jest całkowicie normalny. Z jednej strony warto mieć proste, względnie statyczne zestawienia, które w łatwy i szybki sposób pozwolą ocenić stan biznesu. Z drugiej strony należy dać możliwość raportowania i analizowania ad-hoc.
Narzędzia BI a jedna wersja prawdy
Koncepcja jednej wersji prawdy jest fundamentem współczesnych systemów wspomagania decyzji. Współcześnie postuluje się, aby organizacje budowały swoje środowisko analityczne wokół centralnego repozytorium danych zasilanego przez procesy ETL. Procesy te, oprócz cyklicznego odpytywania systemów źródłowych, dbają również o takie aspekty jak jakość danych, spójność i integrację pomiędzy systemami oraz wersjonowanie kluczowych atrybutów. Tak utworzona hurtownia danych to serce infrastruktury analitycznej firmy. Wszelkie analizy i raporty funkcjonujące w organizacji powinny opierać się właśnie na tym zwalidowanym źródle danych, które jest jednym źródłem prawdy.
Sprawą drugorzędną jest, czy dostęp do hurtowni danych odbywa się za pośrednictwem narzędzi i silników raportowo-analitycznych, czy po prostu bezpośrednio przez arkusz kalkulacyjny. Chodzi tylko i wyłącznie o to, aby mieć pewność, że dane pobrane do analizy, czy raportu są prawdziwe na poziomie atomowym.
Istnieje cała gama narzędzi pozwalająca istotnie zbliżyć się do spełnienia postulatów jednej wersji prawdy. Postulaty te można spełniać korzystając zarówno z najdroższych systemów korporacyjnych, jak i względnie tanich rozwiązań dostępnych praktycznie dla każdego. Istnieje wiele narzędzi wspomagających projektowanie, budowę i użytkowanie infrastruktury DW/BI na każdym poziomie architektury. Poczynając od profilowania danych, przez modelowanie, integrację, warstwę przechowywania danych, a skończywszy na raportowaniu i analizowaniu ad-hoc. Najważniejsze to uświadomić sobie, że nie istnieją narzędzia do wszystkiego i nie wszystkie narzędzia sprawdzą się w każdym przypadku. Przesadą będzie opieranie procesów integracji danych o korporacyjne narzędzia ETL w średniej wielkości sklepie internetowym. Również przesadą jest tworzenie systemów raportowych w oparciu o połączone ze sobą tasiemce arkuszy kalkulacyjnych produkowane przez zespoły analityczne w korporacji i integrujące dane z wielu systemów. W obu przypadkach cel będzie osiągnięty, ale na pewno można go osiągnąć w łatwiejszy sposób, używając bardziej stosownych narzędzi. Sam wybór narzędzia to wypadkowa ceny, funkcjonalności, bezpieczeństwa informacji, skali działalności, wolumenów danych i całej gamy innych zmiennych.
Obecnie systemy licencjonowania narzędzi komercyjnych są bardzo elastyczne i świetnie dopasowują się do skali przedsiębiorstwa. Poza tym nie należy zapominać o świetnie rozwijających się narzędziach open source, które często nie ustępują, a nawet przewyższają funkcjonalnie swoich komercyjnych konkurentów pod względem elastyczności i osiągów wydajnościowych. Jest z czego wybierać – wystarczy się tylko rozejrzeć.
Podsumowanie
Realizacja koncepcji jednej wersji prawdy nie oznacza rezygnacji z niestandardowych analiz i raportowania ad-hoc. Zakłada ona wprawdzie pewną standaryzację pojęć na najbardziej atomowym poziomie i w ramach tego samego procesu biznesowego, ale nie wyklucza to poprawnych metodologicznie modyfikacji danych w celu odpowiedzi na wszelkie pytanie dotyczące funkcjonowania biznesu. Koncepcja w pełni akceptuje też fakt, że prawda jest jedynie interpretacją faktów prawdziwą tylko w danej chwili. Tutaj często dochodzi do nieporozumień, bo skoro prawda w świecie analitycznym jest bytem dynamicznym, to nie może istnieć jedna jej wersja. Skupić się jednak należy na prawdzie na najniższym poziomie granulacji – wszystko co na poziomie atomowym jest prawdziwe, również wyżej pozostaje prawdziwe (oczywiście przy założeniu poprawnej metodologii). To co wspiera realizację postulatów koncepcji jednej wersji prawdy w organizacji, to centralna, wielowymiarowa hurtownia danych.
Bez względu na to, czy użytkownik chce widzieć statyczne raporty podstawowych miar, czy chce sam odświeżać zparametryzowane raporty, albo jest zainteresowany zaawansowanymi analizami ad-hoc - powinien czerpać z centralnego, zwalidowanego i spójnego repozytorium danych, które pełni funkcję jednego źródła prawdy. Zupełnie inny problem to budowa idealnej hurtowni danych. Jednak bezsprzecznie, dobra jakość danych w hurtowni to dobra jakość produktów analitycznych i, co najważniejsze ,dobra jakość podejmowanych decyzji.
Środowisko analityczne firmy, to bardzo skomplikowany twór i nie można pokryć wszystkich wymagań stosując jedno narzędzie. Nie można dać się zwieźć postulatom o DW/BI w pigułce. Każdy komponent Business Intelligence jest istotny, ale serce architektury to hurtownia danych. Nasze analizy są tak dobre, jak dane do nich użyte. I sprawą tak naprawdę drugorzędną jest, czy w narzędzie analityczne wciela się arkusz kalkulacyjny, czy inne narzędzie raportowe.



