Inteligentna Hurtownia Danych - O nowoczesnych sposobach zmuszania danych do pracy
Współczesne systemy informatyczne gromadzą i przetwarzają astronomiczne ilości danych. Tradycyjne hurtownie danych, których głównym zadaniem jest dostarczanie środowiska analitycznego, nie zaspokajają najbardziej palących potrzeb informacyjnych wielu przedsiębiorstw i organizacji.
Spis Treści
Abstrakt
Artykuł pierwotnie opublikowany w "Business Intelligence Magazine" 01/2009

W ostatnich latach obserwujemy próby wyposażenia hurtowni danych w nowe narzędzia umożliwiające pełne wykorzystanie wiedzy zawartej w zgromadzonych danych. W niniejszym artykule prezentujemy dwa popularne rozwiązania umożliwiające wzbogacenie hurtowni danych o niespotykane wcześniej możliwości. W pierwszej części przedstawiamy pojęcie operacyjnej składnicy danych i prezentujemy koncepcję aktywnej hurtowni danych – potężnego narzędzia operacyjnego wspierającego politykę informacyjną organizacji. Druga część artykułu jest poświęcona eksploracji danych, nowoczesnej technologii pozyskiwania wiedzy z ogromnych wolumenów danych.
Wprowadzenie
Ostatnie lata przyniosły niespotykany wcześniej wzrost wolumenów przetwarzanych danych. Zjawisko to, stanowiące prostą konsekwencję upowszechnienia się systemów baz danych w praktycznie każdej dziedzinie ludzkiej działalności, niesie ze sobą niespodziewane konsekwencje. Systemy baz danych są powszechnie wykorzystywane w handlu, finansach, ubezpieczeniach, bankowości, medycynie, edukacji, transporcie i w setkach innych dziedzin. Postępująca lawinowo digitalizacja danych powoduje, że ilość danych, które są zapisywane i przetwarzane w postaci cyfrowej, rośnie bardzo gwałtownie. Przez wiele lat panowało powszechne przekonanie, że problem przetwarzania rosnących wolumenów danych można rozwiązać przez zwiększenie mocy obliczeniowej komputerów. W 1965 roku Gordon E. Moore, jeden ze współzałożycieli korporacji Intel, zauważył prawidłowość, znaną dziś jako Prawo Moore’a. W dużym uproszczeniu prawidłowość ta głosi, że moc obliczeniowa współczesnych komputerów rośnie wykładniczo i podwaja się mniej więcej co dwa lata. Wydawać by się mogło, że taki rozwój współczesnych komputerów gwarantuje osiągnięcie mocy obliczeniowej, która pozwoli efektywnie przetworzyć dowolnie dużą kolekcję danych. Niestety, nic bardziej mylnego.
Równolegle z rozwojem mocy obliczeniowej komputerów rozwijały się narzędzia do składowania danych. W szczególności, dyski magnetyczne przebyły długą drogę od ciężkich, nieporadnych, zawodnych urządzeń do ultra-cienkich, wydajnych i elastycznych składnic danych. W 2005 roku Mark Kryder, kierownik działu technologicznego firmy Seagate, podał szacunkowe tempo rozwoju technologii dysków magnetycznych. Jako jednostkę pomiaru przyjął gęstość, z jaką można zapisywać informacje na dysku. Jak się okazuje – w dekadzie 1995-2005 gęstość dysków magnetycznych rosła wykładniczo, podwajając się co 13-15 miesięcy! Od roku 2005 obserwujemy niewielkie spowolnienie tempa rozwoju technologii dysków magnetycznych. Na dzień dzisiejszy przyjmuje się, że gęstość zapisu dysków magnetycznych rośnie podobnie, lub nieco szybciej, niż moc obliczeniowa procesorów, tj. podwaja się mniej więcej co dwa lata. Wniosek, jaki można wysnuć z tej zasady, jest zdumiewający: nasza zdolność do gromadzenia i przechowywania informacji rośnie szybciej niż nasza zdolność do jej przetwarzania.

Innymi słowy, jeśli nie zostaną opracowane nowe, efektywne metody pozyskiwania wiedzy z danych, duża część zgromadzonych danych nigdy nie zostanie przetworzona, a co za tym idzie – pozostanie całkowicie bezużyteczna.
Opracowana w połowie lat 90-tych koncepcja hurtowni danych (ang. data warehouse) przez wiele lat służyła jako podstawowe narzędzie analityczne w setkach przedsiębiorstw. Hurtownie danych, mimo wysokiego kosztu ich wdrożenia i pielęgnacji, stały się nieodłącznym składnikiem krajobrazu informatycznego. Według H. Inmona, twórcy całej koncepcji:
(…) hurtownia danych to zorientowana tematycznie, zintegrowana, zmienna w czasie i nieulotna kolekcja danych wspierająca proces wspomagania decyzji.
Najważniejszym elementem powyższej definicji jest sprecyzowanie celu istnienia hurtowni danych. Otóż hurtownia danych jest budowana i utrzymywana przede wszystkim w celu ulepszenia procesu wspomagania decyzji – jako podstawowe narzędzie weryfikacji hipotez i strategii. Hurtownia danych może służyć do generowania przeglądowych raportów podsumowujących (np. raportów dotyczących cech demograficznych klientów), do weryfikacji hipotez (np. sprawdzenia, czy istnieją istotne różnice w wolumenie zakupów pomiędzy poszczególnymi regionami geograficznymi), a także do formułowania scenariuszy (np. badania potencjalnego wpływu akcji marketingowej na sprzedaż wybranych grup towarów). Niestety, rozwój współczesnych systemów informatycznych powoduje, że co rusz pojawiają się wyzwania, którym tradycyjne hurtownie danych nie są w stanie sprostać. Hurtownie danych są narzędziami skierowanymi do analityków, strategów i kadry zarządzającej. Doskonale nadają się do działań o charakterze strategicznym i długofalowym. Jednak o przewadze konkurencyjnej między przedsiębiorstwami bardzo często decyduje czynnik taktyczny, rozwijany na szczeblu operacyjnym. Dla bardzo wielu przedsiębiorstw kluczowe znaczenie ma punkt styku między przedsiębiorstwem a klientem. Tam właśnie decyduje się satysfakcja klienta i reputacja przedsiębiorstwa. Usprawnienie działań przedsiębiorstwa na szczeblu operacyjnym wymaga dostarczenia wysokiej jakości informacji na pierwszą linię frontu, do szeregowych pracowników obsługujących klientów. W tym właśnie miejscu tradycyjne hurtownie danych zawodzą na całej linii. Konieczne są zatem nowe narzędzia, dzięki którym zawartość hurtowni danych stanie się prawdziwie użyteczna, a wiedza zawarta w danych przestanie być konsumowana przez nikomu niepotrzebne raporty z kolorowymi wykresami. Wiedza z hurtowni danych musi znaleźć zastosowanie na szczeblu operacyjnym działania przedsiębiorstwa. Udostępnienie wiedzy zawartej w hurtowni danych szerokiej rzeszy pracowników niższego szczebla jest zadaniem nad wyraz ambitnym i skomplikowanym, lecz możliwym.
Aktywna hurtownia danych
Aby przedstawić pojęcie aktywnej hurtowni danych, musimy najpierw wprowadzić pojęcie operacyjnej składnicy danych. Jedną z największych bolączek informatycznych współczesnychprzedsiębiorstw jest brak aktualnego i zintegrowanego obrazu wszystkich informacji wykorzystywanych przez przedsiębiorstwo. Hurtownie danych rozwiązują ten problem tylko częściowo. Po pierwsze, ze względu na procedurę odświeżania hurtowni danych informacje zawarte w hurtowni mogą reprezentować stan wiedzy sprzed kilku dni lub tygodni. Po drugie, informacje przechowywane w hurtowni danych zostały poddane przetwarzaniu wstępnemu i często są już uogólnione (agregowane) do postaci wymaganej przez narzędzia analityczne. Uogólnienie informacji nie stanowi problemu dla procesów wspomagania decyzji, gdzie strategia przedsiębiorstwa jest dyktowana przekrojowymi i ogólnymi analizami, lecz powoduje, że informacje przechowywane w hurtowni danych tracą użyteczność na poziomie operacyjnym. Analogicznie, decyzje strategiczne dotyczące rozwoju firmy mogą bazować na danych sprzed tygodnia, ale operacyjna działalność taktyczna absolutnie wymaga najświeższych danych.
Rozważmy następujący przykład. Hurtownia danych firmy telekomunikacyjnej zawiera całość informacji o klientach firmy, ich abonentach, wykonywanych rozmowach, dodatkowych usługach, danych demograficznych, danych o pracownikach itp. Wewnątrz hurtowni integrowane są dane z operacyjnego systemu bilingowego, aplikacji CRM, systemu kadrowego oraz systemu obsługi logistyki. Hurtownia danych doskonale nadaje się do ustalania strategicznych kierunków rozwoju firmy i potrafi odpowiadać na pytania:
- Które grupy klientów są najbardziej obiecujące pod względem rozwoju usług internetowych?
- Jakie promocje abonamentowe przynoszą największe zyski?
- Jaki wpływ na wzrost sprzedaży kart pre-paid miała ostatnia akcja marketingowa?
- Czy istnieją znaczące różnice w wyborze planów abonamentowych między mieszkańcami małych i średnich miast?
Zastanówmy się jednak, w jaki sposób hurtownia danych wspiera bieżącą działalność przedsiębiorstwa na szczeblu operacyjnym? Jaki zysk z wdrożenia hurtowni danych wynika dla pracowników działu obsługi klienta (a zatem dla kluczowych, z punktu widzenia reZastanówmy się jednak, w jaki sposób hurtownia danych wspiera bieżącą działalność przedsiębiorstwa na szczeblu operacyjnym? Jaki zysk z wdrożenia hurtowni danych wynika dla pracowników działu obsługi klienta (a zatem dla kluczowych, z punktu widzenia relacji z klientem, pracowników)? Niestety, odpowiedź na to pytanie brzmi: praktycznie żaden. Dział obsługi klienta wymaga najświeższych danych, spójnych pomiędzy systemami, użytecznych do podejmowania natychmiastowych decyzji. Gdy klient dzwoni do działu obsługi klienta i negocjuje preferencyjną stawkę abonamentu, decyzja o przyznaniu rabatu spoczywa na barkach szeregowego pracownika. Musi on dysponować wiarygodnym i niezawodnym narzędziem, które będzie wspierać decyzję, a ta z kolei musi być oparta na racjonalnych przesłankach ekonomicznych. Innymi słowy, niewielki atom wiedzy ukrytej w hurtowni danych musi zostać udostępniony szeregowemu pracownikowi działu obsługi klienta w czasie rzeczywistym.
Hurtownia danych jest narzędziem informatycznym należącym do modułu wywiadu biznesowego (ang. business intelligence), zaś aplikacje operacyjne należą do modułu zarządzania (ang. business management). Szkopuł w tym, że współczesne architektury systemów informatycznych uniemożliwiają efektywne wykorzystanie wiedzy zgromadzonej w hurtowni danych do wspierania decyzji taktycznych podejmowanych w aplikacjach operacyjnych. Architektura umożliwiająca połączenie aplikacji operacyjnych z aplikacjami analitycznymi i stosująca zaawansowaną integrację danych zwana jest korporacyjną fabryką informacji (ang. corporate information factory, CIF) i stanowi bardzo obiecującą propozycję, która w przyszłości bez wątpienia będzie odgrywała istotną rolę w infrastrukturze informatycznej nowoczesnych przedsiębiorstw. Operacyjna składnica danych (ang. operational data store, ODS) jest rozszerzeniem tradycyjnej aplikacji operacyjnej. Operacyjna składnica danych jest, podobnie jak hurtownia danych, tematycznie zorientowaną kolekcją danych, przedstawiającą spójny obraz wycinka rzeczywistości, w jakiej działa przedsiębiorstwo. Dla przykładu, operacyjna składnica danych zorientowana na klienta może zawierać, poza szczegółowymi danymi o kliencie, dane o wszystkich ostatnich interakcjach klienta z przedsiębiorstwem (listy zakupionych produktów, stan rozliczeń z klientem, informacje o kontaktach telefonicznych klienta z działem obsługi itp.). Dane przechowywane w operacyjnej składnicy danych są też zintegrowane i stanowią spójny katalog danych. Kontynuując przykład, operacyjna składnica danych zawiera wszystkie informacje o danym kliencie zebrane w całym przedsiębiorstwie. Dzięki temu spójny katalog danych o kliencie jest wykorzystywany we wszystkich punktach styczności klienta z przedsiębiorstwem i może być wykorzystywany przez cały personel, który wchodzi w interakcję z danym klientem. W przeciwieństwie do hurtowni danych, operacyjna składnica danych nie zawiera horyzontu czasowego. Dane przechowywane w operacyjnej składnicy danych są zawsze najświeższe, podobnie jak w tradycyjnej operacyjnej bazie danych. Oczywiście, nic nie stoi na przeszkodzie, aby w ramach spójnego katalogu integrującego dane o konkretnym kliencie zawrzeć również pewną ilość danych historycznych (np. poprzedni adres, poprzedni telefon kontaktowy, transakcje z ostatniego tygodnia), jeśli istnieją aplikacje operacyjne wykorzystujące takie dane. Generalnie jednak rzecz ujmując, operacyjna składnica danych jest ahistoryczna. Ponieważ dane prezentowane w operacyjnej składnicy danych są nieustannie aktualizowane, są one również ulotne (to kolejna istotna różnica między operacyjną składnicą danych a hurtownią danych). Wszystkie aktualizacje dokonywane w operacyjnych bazach danych muszą być jak najszybciej propagowane do operacyjnej składnicy danych, aby zapewnić wszystkim użytkownikom aktualny widok danych. Wreszcie, operacyjna składnica danych zawiera dane szczegółowe, bez jakichkolwiek wstępnie wyliczonych podsumowań. W przeciwieństwie do hurtowni danych, szczegółowe dane przechowywane w operacyjnej składnicy danych mają charakter dynamiczny i często ulegają modyfikacjom.
Aktywna hurtownia danych (ang. active data warehouse) to system informatyczny łączący w sobie cechy tradycyjnej hurtowni danych i operacyjnej składnicy danych. Innymi słowy, aktywna hurtownia danych wspiera zarówno podejmowanie decyzji strategicznych, jak i bieżącą działalność operacyjną. Ten dualny charakter aktywnej hurtowni danych powoduje, że aktywna hurtownia danych musi realizować często nawzajem wykluczające się wymagania. Przykładowo, zapytanie analityczne wyliczające średnią sprzedaż wybranych kategorii produktów w wybranych regionach kraju dla określonej grupy klientów z podziałem na okresy czasowe prawdopodobnie będzie analizowało ogromny wolumen danych i wykonanie tego zapytania będzie konsumowało dużą część zasobów systemowych. W dowolnym momencie w aktywnej hurtowni danych może się jednak pojawić zapytanie z aplikacji operacyjnej, np. prośba o wyszukanie optymalnego abonamentu dla określonego klienta. Drugie zapytanie ma wyższy priorytet, ponieważ istotna decyzja taktyczna (pracownik działu obsługi klienta prawdopodobnie w tej właśnie chwili rozmawia z klientem) jest uzależniona od szybkiej odpowiedzi. W takiej sytuacji zapytanie analityczne powinno zostać wstrzymane w celu szybszego obsłużenia zapytania operacyjnego. Z drugiej strony, położenie nacisku na obsługę zapytań operacyjnych nie może prowadzić do całkowitego zablokowania zdolności analitycznych aktywnej hurtowni danych.
Powyższy przykład nie wyczerpuje różnic między tradycyjną a aktywną hurtownią danych. W przypadku tradycyjnych hurtowni danych zazwyczaj przyjmuje się dostępność pewnego okresu bezczynności, który może być wykorzystany na odświeżenie i pielęgnację hurtowni danych. Z drugiej strony, aktywna hurtownia danych musi być dostępna w trybie 24x7, ponieważ w ielu przypadkach przedsiębiorstwo nie może sobie pozwolić na najkrótszy przestój w obsłudze klientów. Tradycyjne hurtownie danych mogą operować na danych, które nie są najświeższe. Aktywna hurtownia danych, z kolei, musi działać zawsze na najnowszych danych, co znacznie komplikuje proces odświeżania.
Można zatem zadać pytanie: czy wdrożenie tak skomplikowanego i zaawansowanego technologicznie produktu może się opłacić. W świetle statystyk opisujących częstotliwość porażek przy wdrażaniu systemów informatycznych takie pytanie jest jak najbardziej zasadne. Odpowiedź powinna zależeć od wyniku starannego rachunku zysków i ryzyka. Ryzyko porażki można szacować podobnie, jak w przypadku wdrożenia tradycyjnej hurtowni danych, uwzględniając dodatkowo specyfikę i złożoność produktu. Co jednak zapisać po stronie zysków? Po pierwsze, aktywna hurtownia danych eliminuje zjawisko nadmiarowości, czyli redundancji danych. Dostarczony obraz wszystkich danych, jakimi dysponuje przedsiębiorstwo, nazywa się jedyną wersją prawdy (ang. single version of truth). Brak nadmiarowości powoduje, że przedsiębiorstwo nie podejmuje już sprzecznych decyzji w odniesieniu do jednego klienta, nie zmusza klienta do wielokrotnego powtarzania tych samych procedur lub podawania tych samych danych oraz unika potencjalnych konfliktów, które mogą wynikać z niespójnych lub sprzecznych danych. Trudno przecenić, jaki wpływ ma obecność jedynej wersji prawdy na zaufanie, jakim klient darzy przedsiębiorstwo. Drugim, najważniejszym bodaj zyskiem płynącym z wdrożenia aktywnej hurtowni danych jest aktywizacja pracowników na szczeblu operacyjnym. Tradycyjna hurtownia danych jest narzędziem, z którego korzystają analitycy, menedżerowie i decydenci. Jak pokazuje historia – wyposażenie tych użytkowników w możliwość wydawania zapytań do hurtowni danych wyraźnie poprawiło jakość podejmowanych przez nich decyzji. Aktywna hurtownia danych pozwala na przeniesienie tego samego zjawiska w dół hierarchii przedsiębiorstwa, aż do pracowników szeregowych. Wyposażenie ich w narzędzie oferujące pełne, wiarygodne i aktualne dane pozwala pracownikom podejmować decyzje lepszej jakości. Działalność operacyjna stanowi fundament funkcjonowania każdego przedsiębiorstwa. Niezależnie, czy mówimy o obsłudze klienta w banku, konsumenta w sklepie, czy kierowcy w warsztacie mechanicznym, to właśnie bezpośrednia interakcja między klientami i pracownikami najniższego szczebla najczęściej decyduje o sukcesie przedsiębiorstwa. Aktywna hurtownia danych umożliwia pracownikom sprawniejszą obsługę klientów oraz podejmowanie racjonalniejszych i poprawniejszych decyzji. Wreszcie, trzecim zyskiem wynikającym z wdrożenia aktywnej hurtowni danych jest dramatyczne skrócenie czasu, jaki upływa między podjęciem decyzji strategicznej i taktycznej. Najczęściej, wartość decyzji szybko spada wraz z czasem, jaki mija od podjęcia decyzji do jej wdrożenia. Przykładowo, zaoferowanie klientowi towaru po promocyjnej cenie w momencie, gdy klient znajduje się przy kasie sklepowej, ma dużo większą wartość (i niższy koszt) niż zaoferowanie tego samego produktu w katalogu wysłanym klientowi do domu. Przykład ten pokazuje, jak istotna jest szybkość uzyskania sprzężenia zwrotnego, czyli wsparcia decyzji taktycznej, które dokonuje się w punkcie styczności z klientem.
Nasze rozważania na temat aktywnej hurtowni danych zakończmy jednak słowem ostrzeżenia. Mimo niebagatelnych zalet i potencjalnych zysków wynikających z wdrożenia aktywnej hurtowni danych, na rynku nie obserwujemy dziś wielu takich projektów. Winę za tę sytuację ponoszą dwa czynniki: brak dostatecznego wsparcia ze strony narzędzi informatycznych (szczególnie systemów baz danych) oraz trudność i złożoność takiego projektu. W szczególności, aktywna hurtownia danych wprowadza daleko idące zmiany w polityce funkcjonowania przedsiębiorstwa, przekazując dużą część decyzyjności i odpowiedzialności w dół hierarchii, do szczebla operacyjnego. Zmienia się rola pracowników najniższego szczebla, ale wzrasta także ich ekspozycja na system informatyczny. Taka zmiana w kulturze funkcjonowania przedsiębiorstwa wymaga od szeregowych pracowników posiadania choćby najbardziej rudymentarnej umiejętności obsługi komputerów. W praktyce, to wymaganie może się okazać najtrudniejszym do spełnienia. Nie wolno też ignorować wyzwań technologicznych, jakie stawia wdrożenie aktywnej hurtowni danych. Rozmiar aktywnej hurtowni danych, procedury odświeżania hurtowni, polityka utrzymywania jakości i spójności danych, polityka tworzenia kopii bezpieczeństwa, integracja z istniejącymi systemami informatycznymi, wszystko to składa się na potężne wyzwanie natury inżynierskiej. Wreszcie, przeniesienie ciężaru wykorzystania aktywnej hurtowni danych z biur analityków (back-office) do biurek pracowników bezpośrednio obsługujących klientów (front-office) nie odbywa się bez dodatkowych kosztów. Ta zmiana pociąga za sobą konieczność zapewnienia wsparcia informatycznego dużo większej liczbie użytkowników, którzy są skupieni na bieżącej działalności przedsiębiorstwa. Wsparcie musi też być udzielane szybciej, ponieważ od szybkości i jakości działania użytkowników operacyjnych zależy zadowolenie klienta.
Eksploracja danych
Przedstawimy teraz drugi kierunek rozwoju, którego celem jest wzbogacenie funkcjonalności hurtowni danych. Kierunkiem tym jest eksploracja danych (ang. data mining) – dziedzina zajmująca się pozyskiwaniem wiedzy z ogromnych wolumenów danych składowanych w hurtowniach danych. Dobrą ilustracją użyteczności eksploracji danych jest porównanie rodzajów pytań, na jakie potrafią udzielać odpowiedzi poszczególne narzędzia. Użytkownik tradycyjnej bazy danych może zapytać: „Ile kartonów mleka kupił Kowalski w grudniu 2008 roku?”. Użytkownik hurtowni danych może zapytać: „Ile różnych rodzajów nabiału (z podziałem na mleko, kefir, jogurt i śmietanę) kupiono w Polsce (z podziałem na województwa) w całym 2008 roku i jak te liczby mają się do analogicznych zakupów w roku ubiegłym?”. Użytkownik wyposażony w narzędzia eksploracji danych może pójść o krok dalej i zapytać: „Czy jeśli Kowalskiemu zaoferuję dużą paczkę płatków śniadaniowych w promocyjnej cenie, to z jakim prawdopodobieństwem Kowalski kupi też miód i pieczywo chrupkie?” Tradycyjna baza danych przetwarza dane atomowe. Hurtownia danych umożliwia przetwarzanie danych podsumowywanych i grupowanych wedle różnych kryteriów analizy. Eksploracja przenosi analizę o jeden poziom wyżej, analizując wiedzę odkrytą w danych. Wiedza może być reprezentowana w postaci regularności, reguł, korelacji, wyjątków, trendów itp. Do dnia dzisiejszego opracowano dziesiątki algorytmów, których celem jest znajdowanie różnych modeli wiedzy w ogromnych wolumenach danych. W ramach niniejszego artykułu nie sposób przedstawić całego bogactwa metod, modeli i algorytmów dostępnych dla narzędzi eksploracji danych. Poniżej zamieszczono uproszczoną prezentację najpopularniejszych modeli wraz z przykładami ich praktycznego zastosowania.
Jednym z najczęściej stosowanych modeli wiedzy są reguły asocjacyjne (ang. association rules). Reguła asocjacyjna to wyrażenie statystycznie wiążące ze sobą elementy występujące w bardzo dużej liczbie transakcji. Z każdą regułą asocjacyjną związane są dwie miary statystyczne, zwane wsparciem i ufnością reguły, które reprezentują powszechność i siłę reguły. Przykładowo, analizując koszyki zakupów klientów można odkryć regułę asocjacyjną postaci {chleb,kiełbasa}{keczup} (2%,80%), a jej interpretacja jest następująca: 2% klientów sklepu kupiło chleb, kiełbasę i keczup w trakcie pojedynczej wizyty w sklepie, przy czym 80% koszyków zawierających chleb i kiełbasę, zawierało również keczup. Odkryte reguły asocjacyjne mogą być wykorzystane do organizowania promocji i sprzedaży wiązanej, do konstruowania katalogów wysyłkowych, ustalania rozmieszczenia towarów na półkach itp. Inne zastosowania reguł asocjacyjnych to automatyczne rekomendacje – powszechnie wykorzystywane w sklepach internetowych. Klient przeglądający zawartość swojego koszyka w księgarni internetowej widzi również inne rekomendowane pozycje („klienci, którzy kupili tę książkę, kupili również…”). Rzecz jasna, rekomendacje te są generowane na podstawie reguł asocjacyjnych odkrytych w bazie danych. Jeszcze inny przykład zastosowania reguł asocjacyjnych to konstrukcja ofert wiązanych.
Przykładowo, jeśli informacje o połączeniach telefonicznych wykonanych przez abonenta w trakcie miesiąca są przechowywane w postaci zbioru obiektów, gdzie każdy obiekt reprezentuje pojedyncze połączenie (np. scharakteryzowane przez czas trwania, koszt, rodzaj abonamentu), to reguły asocjacyjne mogą być wykorzystane do znalezienia korelacji między typami połączeń. Taka wiedza może być użyta, przykładowo: do zaproponowania abonentom bardziej korzystnych planów taryfowych lub pakietów usług wiązanych.
Do bardzo popularnych technik eksploracji danych należy bez wątpienia klasyfikacja (ang. classification). W pewnym uproszczeniu, klasyfikator to wyrocznia, która potrafi przewidywać przyszłość na podstawie wiedzy nabytej w procesie uczenia. Przykładowo: jeśli dysponujemy bazą danych demograficznych klientów, którzy ubiegali się o kredyt konsumpcyjny, oraz posiadamy wystarczająco dużą historię spłat przyznanych kredytów, klasyfikator może nam posłużyć do zbudowania wyroczni przewidującej, czy nowy klient starający się o kredyt będzie go spłacał terminowo. Budowanie klasyfikatora nazywa się procesem uczenia. Klasyfikator przegląda dane demograficzne i dane historyczne o wcześniejszych klientach, starając się znaleźć cechy (lub kombinacje cech) klientów, które często prowadziły do zaniechania spłat kredytu. Należy tu podkreślić, że nie mówimy o prostych zależnościach (np. klienci o niskich zarobkach i dużej liczbie dzieci nie spłacają wysokich rat kredytu terminowo). Klasyfikatory potrafią znajdować bardzo subtelne sygnały, świadczące o tym, że dany klient jest (lub z dużym prawdopodobieństwem będzie) mało wiarygodny. Najczęściej są to sygnały umykające analitykom przetwarzającym wnioski kredytowe ręcznie. Nie trzeba też nikogo przekonywać o przewadze takiego elastycznego systemu przyznawania kredytów nad statycznym systemem, w którym jedna miara jest przykładana do wszystkich klientów – przykładem takiej uniformizacji są procedury przyznawania kredytów tylko i wyłącznie w oparciu o zaświadczenia o wysokości zarobków. W przeciwieństwie do ręcznej analizy, klasyfikator potrafi przewidywać przyszłą sytuację rodzinną i finansową osoby ubiegającej się o kredyt, stąd może dostosować decyzję do każdego wniosku indywidualnie.
Klasyfikacja może być wykorzystywana wszędzie tam, gdzie dysponujemy zbiorem danych historycznych (tzw. zbiorem uczącym), oraz stoimy przed koniecznością przewidzenia przyszłości. Wskazywanie pacjentów do szczegółowej diagnostyki, określanie prawdopodobieństwa przejścia klienta do konkurencji, określanie najbardziej obiecujących klientów – to wszystko przykłady zastosowania metod klasyfikacji w praktyce.
Na koniec wspomnijmy o jeszcze jednej technice eksploracji danych, zwanej analizą skupień (ang. clustering). Analiza skupień polega na znajdowaniu grup obiektów bardzo podobnych do siebie, np. znajdowanie grup klientów o podobnych profilach, znajdowanie pacjentów o podobnych symptomach chorobowych czy znajdowanie produktów trafiających do tych samych grup klientów.
W przypadku analizy skupień często nie jest znana ani prawdziwa liczba skupień, ani prawdziwe przypisanie obiektów do grup. Metody analizy skupień umożliwiają przypisanie nowego obiektu (klienta, pacjenta, produktu) do jednej z wcześniej odkrytych grup. Powszechnie wykorzystuje się te metody do segmentacji rynku oraz w systemach rekomendacyjnych.
Eksploracja danych to nowa i niezwykle prężnie rozwijająca się dziedzina. Jej istotność została szybko dostrzeżona przez producentów systemów baz danych. Najnowsze wersje oprogramowania dostarczanego przez wiodących producentów na rynku posiadają wbudowane silniki eksploracji danych (Oracle Data Mining, SQL Server Data Mining, IBM Intelligent Miner), umożliwiające ścisłą integrację narzędzi do eksploracji danych z bazą danych. Oprócz tego na rynku jest dostępnych bardzo wiele narzędzi oferujących bogaty wachlarz technik eksploracji (SPSS Clementine, Statistica Data Miner, SAS Enterprise Miner, Angoss Knowledge Studio). Warto także nie zapominać o szerokiej ofercie darmowego oprogramowania, którego jakość niewiele ustępuje płatnemu, kosztownemu oprogramowaniu (Rapid Miner, Weka). Zresztą, w przypadku eksploracji danych to nie narzędzia stanowią główny koszt, lecz ludzie. Eksploracja jest bardziej sztuką, niż rzemiosłem, bardzo wiele zależy tu od doświadczenia, intuicji i wiedzy osoby poszukującej wzorców w hurtowni danych. Nawet najlepsze narzędzie okaże się bezradne w rękach ignoranta. Stąd – przedsiębiorstwa rozważające wdrażanie rozwiązań bazujących na eksploracji danych powinny w pierwszej kolejności zainwestować w zasoby ludzkie, a dopiero później kupować oprogramowanie.
Podsumowanie
W niniejszym artykule zajęliśmy się aktualnym stanem wiedzy w dziedzinie hurtowni danych. Wskazaliśmy, że tradycyjne hurtownie danych często nie potrafią sprostać coraz bardziej zaawansowanym wymaganiom, stawianym przez użytkowników. Następnie, opisaliśmy dwa rozwiązania, które mogą dokonać rewitalizacji hurtowni danych i w pełni wykorzystać drzemiący w niej potencjał. Zaprezentowane przez nas rozwiązania idą w dwóch kierunkach: operacyjnym i analitycznym. Operacyjny kierunek rozwoju hurtowni danych wiąże się z pojęciem aktywnej hurtowni danych, nowoczesnego systemu informatycznego łączącego w sobie cechy tradycyjnej hurtowni danych i operacyjnej składnicy danych. Rozwiązanie to powoduje aktywizację pracowników na szczeblu operacyjnym, poprawia przepływ wiedzy w przedsiębiorstwie, oraz umożliwia ściślejsze powiązanie strategii z taktyką przedsiębiorstwa. Drugie z zaprezentowanych rozwiązań wzbogaca zdolności analityczne hurtowni danych poprzez dostarczenie metod odkrywania i wizualizacji wiedzy ukrytej w danych. Eksploracja danych, bo to o niej mowa, przenosi możliwości analityczne hurtowni danych na zupełnie nowy poziom, oferując dostęp do wzorców, regularności, trendów, wyjątków i osobliwości ukrytych w gigantycznych repozytoriach danych. Dziś oba rozwiązania mogą się wydawać zbyt skomplikowane i złożone. Jutro staną się palącą koniecznością nowoczesnych systemów informatycznych.
Przypisy
[1] Oryginalne Prawo Moore’a dotyczyło gęstości upakowania tranzystorów w układzie scalonym.



