Business Intelligence
BIPL_174x129_logo

Business Intelligence

Aliasy: BI, Analityka Biznesowa

O Business Intelligence (BI) mówi się ostatnio coraz więcej, w bardzo różnym kontekście. BI stało się modne i powstało wokół niego wiele szumu, a różne osoby używają tego terminu w odniesieniu do bardzo różnych aspektów. Artykuł ten syntetyzuje i systematyzuje pojęcia i wiedzę związaną z Business Intelligence i Hurtowniami Danych w oparciu o kompletną architekturę rozwiązań tego typu.

Spis Treści

Definicje

Pojęcie Business Intelligence rozumiane jest na wiele sposobów i pokrywa szerokie spektrum zagadnień, takich jak: praktyki, metodyki, narzędzia, czy technologie informatyczne związane z analizą danych. Najczęściej kojarzone jest z tzw. Hurtowniami Danych (Data Warehouse) oraz systemami analityczno-raportującymi, jednak zakres BI jest dużo szerszy.

Nie ma jednej, powszechnie uznanej definicji BI. W języku polskim nie mamy także żadnego odpowiednika dla Business Intelligence (czasem stosowane „inteligencja biznesowa”, „wywiad gospodarczy”, czy „analityka biznesowa” są nieodpowiednie, lub zupełnie mylące).

Jedna z definicji mówi, że BI to zbiór praktyk, metodyk, narzędzi i technologii informatycznych, służących zbieraniu i integrowaniu danych w celu dostarczania informacji i wiedzy właściwym osobom, we właściwym miejscu oraz we właściwym czasie.

Business Intelligence może być postrzegane, jako przekształcanie danych w informacje, a informacji w wiedzę w celu optymalizacji działania procesów biznesowych i całej organizacji. Dość dobrze sens BI oddaje jeden z popularnych sloganów marketingowych, mówiących że BI to „dostarczanie właściwej informacji, właściwym osobom we właściwym czasie”

Nie można również, a często tak się dzieje, utożsamiać BI jedynie z narzędziami informatycznymi. BI to przede wszystkim kultura organizacyjna nastawiona na świadome podejmowanie decyzji na podstawie faktów.

Z biznesowego punktu widzenia

Rozwiązania Business Intelligence (BI) pozwalają spojrzeć na przedsiębiorstwo z dowolnej perspektywy i wydobyć potrzebne w danej chwili informacje. Środowiska analityczne klasy BI gromadzą i integrują dane z różnorodnych źródeł operacyjnych, przetwarzają je w model zrozumiały biznesowo i udostępniają go użytkownikom biznesowym w postaci przejrzystej, pewnej informacji.

Kto potrzebuje Business Intelligence?

Każda firma przekracza kiedyś próg, w którym intuicja przestaje wystarczać, aby podejmować optymalne decyzje biznesowe. Rosnąca ilość danych w systemach operacyjnych sprawia, że klasyczne raportowanie nie zdaje egzaminu. Pojawiają się problemy z wydajnością oraz stopniem skomplikowania wymagań analitycznych. Niejednokrotnie odpowiedniej informacji nie udaje się zdobyć na czas. Potrzeba właściwej informacji dla właściwych osób we właściwym czasie jest kluczowym czynnikiem, który skłania firmy do inwestycji w BI.

Typowa architektura rozwiązania BI w skrócie

Sercem rozwiązań BI są Hurtownie Danych, czyli bazy danych zorientowane na wydajną obsługę zaawansowanych zapytań analitycznych. Dane ładowane są do Hurtowni z różnorodnych systemów źródłowych (jak np. ERP, czy CRM) za pomocą procesów ETL (Extract, Transform, Load), które czyszczą i integrują dane w jeden spójny model, który stanowi tzw. jedną wersję prawdy dla organizacji. Jest to zrozumiały biznesowo tzw. model wielowymiarowy, który zawiera dane o wysokiej jakości (Data Quality).

Z Hurtowni dane z reguły pobierane są do silników zorientowanych na wydajne przetwarzanie wielowymiarowych zapytań analitycznych (OLAP, On-Line Analytical Processing), które pozwalają na szybką analizę w różnych wymiarach i na różnych poziomach abstrakcji (np. zestawienia roczne, kwartalne, czy miesięczne).

Dostęp do danych zapewniają przyjazne użytkownikom biznesowym narzędzia raportujące i analityczne, które prezentują informacje w postaci powiązanych ze sobą, przejrzystych i interaktywnych raportów i analiz, np. tzw. kokpitów menadżerskich (Dashboards). Dodatkowo istnieją aplikacje zajmujące się dostarczaniem raportów do użytkowników, monitorowaniem stanu i zgłaszaniem sytuacji alarmowych.

Niejednokrotnie z Hurtowni Danych korzystają inne zaawansowane systemy planowania i budżetowania, czy te przeznaczone do wdrażania Balanced Scorecard (BSC), czy Activity Based Costing (ABC). Hurtownie Danych są również popularnym źródłem danych dla systemów zorientowanych na odkrywanie wiedzy w danych poprzez ich eksplorację (Data Mining). Najpopularniejsze rozwiązania klasy Business Intelligence, w postaci zintegrowanych platform internetowych, zapewniają użytkownikom biznesowym dostęp do raportów, analiz i usług poprzez przeglądarkę internetową w spójnym środowisku analitycznym.

Koncepcyjny schemat kompletnej architektury Business Intelligence przedstawiono na poniższym schemacie.

Rys historyczny

Systemy, obecnie nazywane Business Intelligence, wyewoluowały z rozwiązań klasy DSS, EIS, czy MIS. Pojęcia te są ze sobą mocno związane i trudno zaznaczyć jasne granice pomiędzy nimi. Najstarszym z pojęć jest DSS, czyli Decision Support Systems (Systemy Wspomagania Decyzji, SWD). Pojęcie to ma swoje początki w badaniach z przełomu lat 50-tych i 60-tych ubiegłego stulecia, zostało zdefiniowane na początku lat 70-tych, a największą popularność zdobyło w latach 80-tych. Jak sama nazwa wskazuje, odnosi się ono systemów informatycznych wspierających podejmowanie decyzji. Na przestrzeni czasu DSS przyjęło nazywać się systemy, które pozwalały wykorzystywać dane, informacje i wiedzę do rozwiązywania słabo ustrukturalizowanych problemów decyzyjnych.

Efektem wykorzystania DSS poprzez wysoko wyspecjalizowanych analityków były parametryzowane analizy i raporty, które udostępniano wyższej kadrze kierowniczej, czy członkom zarządów poprzez tzw. systemy informowania kierownictwa EIS (Executive Information Systems), które największą popularność osiągnęły zaczynając od połowy do końca lat 80-tych. Mianem MIS, czyli Management Information Systems, przyjęło się nazywać szeroką grupę systemów, z DSS i EIS włącznie, które służą do wsparcia zarządzania poprzez analizę danych.

Lata 90-te to początki kompleksowych rozwiązań analitycznych, opartych o Hurtownie Danych i zintegrowane modele korporacyjne, przetwarzanie analityczne w czasie rzeczywistym (OLAP) wraz z aplikacjami służącymi do dostępu do tych danych i ich analizy, zwane Business Intelligence. Sam termin Business Intelligence (w rozumieniu zgodnym z dzisiejszym) został po raz pierwszy użyty przez Howarda Dresnera, późniejszego analityka Gartnera, w roku 1989, jednak do powszechnego użytku wszedł on dopiero pod koniec lat 90-tych.

Źródła danych

Historycznie, głównymi źródłami, z których zasilano Hurtownie Danych, były transakcyjne, operacyjne systemy działające w przedsiębiorstwach, czyli m. in. MRP/MRPII, ERP, czy CRM. Obecnie źródłem danych dla systemów BI może być dosłownie wszystko, co w formie elektronicznej przechowuje dane.

Są to już nie tylko standardowe systemy, ale również dane np. z sieci www na temat ruchu wygenerowanego przez klientów w odpowiedzi na daną kampanię mailingową.

Przestały to być także jedynie wewnętrzne źródła danych i niejednokrotnie do hurtowni trafiają dane zewnętrzne z systemów należących do partnerów (integracja B2B), czy nawet klientów, albo dane benchmarkingowe na temat rynku.

Coraz częściej mamy też do czynienia nie tylko z danymi w pełni ustrukturalizowanymi, jak np. te z systemów ERP, ale również z tymi częściowo ustrukturalizowanymi (semi-structured data) jak wiadomości e-mail, czy tymi bez ścisłej struktury (unstructured data) jak dokumenty tekstowe. Obecnie niczym nadzwyczajnym w ramach BI nie są już także dane dźwiękowe, video, czy grafiki (np. skany dokumentów).

W ramach systemów BI pojawiają się również dane lokalizacyjne. Powiązanie analiz klasy GIS z danymi z Hurtowni Danych w ramach spójnych środowisk analitycznych nazywane jest Location Intelligence.

Integracja danych

Zanim dane z systemów źródłowych trafią do Hurtowni Danych, muszą zostać oczyszczone i przetransformowane do docelowego modelu. Jest to jedna z najbardziej pracochłonnych części projektów klasy BI/DW (Business Intelligence & Data Warehouse). Szacuje się, że projektowanie i implementacja tzw. procesów ETL (Extract, Transform, Load) pochłania ok. 70% zasobów w projekcie.

Pierwszym etapem tworzenia warstwy integracji jest tzw. profilowanie danych, którego celem jest lepsze poznanie nie tylko struktury, ale przede wszystkim charakterystyki danych, czyli ich zawartości, jakości oraz budowy złożonych struktur. Na tym etapie tworzone i analizowane są podstawowe statystyki danych, identyfikowane są m. in. dane brakujące, czy wartości znacząco odstające od pozostałych, jak również wewnętrzne niespójności. Przykładowymi niespójnościami może być różna reprezentacja tych samych danych, przez co „Aleja Solidarności” może być reprezentowana również jako „Al. Solidarności”, „Solidarności”, czy „ul. Solidarności”. Innym przykładem może być ten sam klient, figurujący w dwóch różnych systemach pod różnymi nazwiskami (np. ze względu na zmianę stanu cywilnego), czy ta sama data zapisana w kilku różnych formatach.

Wiedza na temat struktury i charakterystyki danych w systemach źródłowych, w połączeniu z projektem docelowego wielowymiarowego modelu danych (wynikającego głównie z wymagań biznesowych) pozawala na zdefiniowane właściwych procesów integracji danych, podczas których zostaną one oczyszczone (tzw. Data Cleansing), jak również zostanie zapewniona ich jakość (Data Quality) oraz zostaną one przetransformowane do docelowego modelu. Za pobieranie danych z systemów źródłowych, ich transformację oraz ładowanie do Hurtowni Danych odpowiadają procesy ETL. Odmianą procesów ETL są procesy EL-T, w których transformacja danych następuje już po załadowaniu do Hurtowni Danych, przed ich wykorzystaniem.

W procesie integracji danych bardzo pomocne są systemy klasy Master Data Management (MDM). Zawierają one najważniejsze dla organizacji dane referencyjne (tzw. Master Data), które charakteryzuje wysoka jakość i wiarygodność oraz aktualność. Pozwala to zaoszczędzić wiele pracy związanej z czyszczeniem danych, która na potrzeby tych systemów została wykonana już wcześniej.

Analityczne źródła danych

Jednym z najważniejszych komponentów rozwiązań klasy BI są Hurtownie Danych. Według definicji Billa Inmona z 1990 roku, Hurtowania Danych jest:

  • tematycznie uporządkowanym (subject oriented),
  • zintegrowanym (integrated),
  • zależnym od wymiaru czasowego (time variant),
  • nieulotnym (non-vloatile)

zbiorem danych, wspierającym procesy podejmowania decyzji. Oznacza to, że Hurtownia Danych zawiera informacje uporządkowane względem konkretnych obszarów tematycznych. Zbierane są one z wielu różnych systemów źródłowych i łączone w spójny, wielowymiarowy model, zorientowany na biznesowe zapytania analityczne. Wszelkie dane (tzw. fakty) w hurtowni określone są względem wymiaru czasowego. Żadne dane (z reguły) nie są również ani nadpisywane, ani usuwane z hurtowni.

Mini Hurtownie Danych, które są ograniczone do wybranego zakresu tematycznego (np. departamentu marketingu) nazywane są Data Marts. W poprawnej architekturze BI Data Marty (termin jest często spolszczany) powinny być ładowane bezpośrednio z korporacyjnej Hurtowni Danych w celu zapewnienie tzw. jednej wersji prawdy i uniknięcia niespójnych definicji, czy różnych danych na ten sam temat.

Jedną z głównych zalet Business Intelligence jest integracja danych do wspomnianego wcześniej, spójnego modelu wielowymiarowego. Jest to model z jednej strony odzwierciedlający logiczne, biznesowe struktury danych (przez co lepiej jest rozumiany przez osoby biznesowe, nie techniczne), z drugiej zoptymalizowany pod kątem przetwarzania skomplikowanych zapytań analitycznych. Kluczowym elementem modelu wielowymiarowego są tzw. fakty, czyli zdarzenia charakteryzujące dany proces biznesowy. Przykładowym faktem dla procesu sprzedaży w hipermarkecie może być zeskanowanie przy kasie kodu kreskowego produktu. Taki fakt (z reguły będący typową transakcją w systemie OLTP) dzieje się w pewnym kontekście biznesowym i charakteryzowany jest przez tzw. wymiary. Wymiarami dla faktu sprzedaży mogą być np. czas, w którym dzieje się dana sprzedaż, produkt jaki jest sprzedawany, klient kupujący produkt, lokalizacja punktu sprzedaży, itp. Fakty są z reguły charakteryzowane ilościowo poprzez tzw. miary. Przykładowe miary to cena katalogowa produktu, przyznany upust, czy zapłacony podatek. Dane z modelu wielowymiarowego są niejednokrotnie ładowane do tzw. kostek OLAP (On-Line Analytical Processing), które pozwalają na efektywną analizę danych, przechowywanych wraz z uprzednio przeliczonymi agregatami w pamięci RAM.

W ramach dygresji i pewnej ciekawostki można dodać, że obecnie w systemach BI analizowane są dane na coraz niższym poziomie agregacji. Dawniej BI pozwalało na analizę danych zbiorczych. Później, wraz ze wzrostem możliwości RDBMS oraz sprzętu, w Hurtowniach Danych pojawiały się coraz bardziej granularne dane, aż do poziomu transakcji. Obecnie, dzięki technologiom takim jak RFID, jesteśmy w stanie analizować tzw. sub-transakcje, czyli zdarzenia które doprowadziły do finalnej transakcji, jak np. zdjęcie z półki i obejrzenie przez klienta kilku produktów, aż do wyboru tego właściwego, który został zakupiony. Kolejnym poziomem analizy (i nie jest to wymysł akademicki, a praktyka w niektórych działach marketingu w USA!) analizowane są tzw. light-touch data fragments, czyli dane o zdarzeniach jeszcze przed sub-transakcjami. Przykładem mogą być tutaj dane z sieci komórkowej, dzięki którym możemy się dowiedzieć, że dany klient mijał nasz sklep siedmiokrotnie, zanim do niego wszedł po raz pierwszy, obejrzał kilka produktów z półki, a następnie zakupił ten wybrany.

Na schemacie architektury BI, w ramach analitycznych źródeł danych, wymienione zostały jeszcze dwa opcjonalne elementy architektury. Są to Data Staging Area (DSA) oraz Operational Data Store (ODS). Tzw. staging to przeważnie kopia danych z systemów źródłowych, utworzona w celu minimalizacji ich obciążenia podczas odczytu danych, jak również miejsce w którym dane są czyszczone i przetwarzane na potrzeby procesów ETL. Jest to swoista „kuchnia” Hurtowni Danych, gdzie dane są przygotowywane do prezentacji. ODS zawiera za to dane operacyjne, częściowo już przetworzone, zintegrowane, a czasem również częściowo zagregowane. Służy on m. in. do zbierania danych z systemów źródłowych, podczas gdy te mają niespójne okna czasowe dostępności (np. w przypadku korporacji globalnych), zanim trafią one do Hurtowni Danych. Innym zastosowaniem ODS jest raportowanie operacyjne, które nie może zostać wykonane bezpośrednio na systemie źródłowym oraz nie ma sensu wykonywanie go na Hurtowni Danych. Przykładem jest tutaj np. generacja zestawień billingowych w telekomach. ODS oraz DSA (chociaż nie jest to zalecane) mogą być też wykorzystywane jako źródła danych dla narzędzi do eksploracji danych.

Zaawansowana analityka biznesowa

Warstwa zaawansowanej analityki biznesowej (Business Analytics) jest elementem, który dopiero wkracza w schematy standardowej architektury Business Intelligence. Jej aspekty znane i stosowane są od dawna, często z wykorzystaniem hurtowni jako źródła danych, jednak systemy i rozwiązania tej klasy z reguły stały niejako obok korporacyjnej architektury BI i służyły jednorazowym projektom, lub specjalistycznym analizom. Obecnie analityka biznesowa staje się integralną częścią rozwiązań BI, związane z nią analizy i raporty są dostępne w zintegrowanych środowiskach BI dla użytkowników biznesowych, a dane będące wynikiem działania złożonych modeli i analiz trafiają z powrotem do systemów źródłowych, czy do Hurtowni Danych, gdzie wzbogacają ich wartość informacyjną.

Kluczowym aspektem analityki biznesowej jest tzw. odkrywanie wiedzy w danych (KDD) i jego najważniejszy etap - eksploracja danych (Data Mining). Poza klasyczną eksploracją danych (wykorzystującą takie metody jak klasyfikacja, segmentacja, czy wyszukiwanie asocjacji i algorytmy takie jak drzewa decyzyjne, sieci neuronowe, regresje, reguły asocjacyjne, itp.) możemy do analityki biznesowej zaliczyć metody wywodzące się z badań operacyjnych, czy statystyki oraz bardziej nowoczesne rodzaje analiz, takie jak Text Mining, czy Web Mining.

Aplikacje BI, raportowanie i wizualizacja

Najbliższym użytkownikom biznesowym elementem architektury BI są tzw. aplikacje Business Intelligence udostępniające analizy, raporty i wizualizacje danych. Z reguły rozwiązania te oparte są o zintegrowane portale internetowe, chociaż tzw. aplikacje stand-alone wciąż są spotykane, np. w kontekście coraz popularniejszych analiz in-memory. Ważnym elementem jest tutaj biznesowa abstrakcja danych - semantyczny model zrozumiały biznesowo. Warstwa ta w różnych rozwiązaniach nazywana jest w różny sposób i tak możemy się spotkać np. ze światmi (uniwerse), przyjaznymi schematami danych (user friendly schema) i innymi. W oparciu o warstwę semantyki biznesowej użytkownicy biznesowi bez wiedzy i umiejętności technicznych, mogą przeprowadzać zaawansowane analizy, spośród których najpopularniejsze są tzw. analizy wielowymiarowe.

Wielowymiarowy model danych daje użytkownikom systemów BI możliwość prowadzenia analizy wielowymiarowej, z reguły opartej o tabele przestawne (tzw. pivot tables). Pozwalają one analizować fakty poprzez zestawianie wartości miar w wybranym kontekście biznesowym, określanym przez wymiary. Ważnym jej aspektem są wewnętrzne hierarchie, jakie z reguły zawierają wymiary. Przykładowo wymiar czasu może posiadać hierarchię rok - kwartał - miesiąc - dzień. Każdy wymiar może posiadać także kilka alternatywnych hierarchii i tak czas możemy postrzegać również poprzez hierarchię rok - tydzień - dzień.

Z interaktywną analizą wielowymiarową związanych jest kilka pojęć, określających typy działań podejmowane przez analityka. Drill-down oznacza schodzenie od ogółu do szczegółu, np. przejście z analizy rocznej na miesięczną. Roll-up to operacja odwrotna do drill-down, czyli agregacja danych. Mianem slice&dice określa się analizę, w której ograniczamy zbiór danych, np. do konkretnego roku, czy produktu, czyli go filtrujemy. Drill-through to przejście do innego obszaru tematycznego przy zachowaniu kontekstu analizy - np. z analizy sprzedaży dla konkretnego produktu w danym czasie i regionie, analityk może przejść do analizy reklamacji. Zmiana rozłożenia wymiarów w wierszach i kolumnach tabeli przestawnej, przy jednoczesnym zachowaniu kontekstu i semantyki analizy nazywana jest obracaniem kostki (rotation).

Do pozostałych elementów składających się na warstwę aplikacji BI możemy zaliczyć różnego rodzaju parametryzowane i interaktywne zestawienia i analizy, z reguły dostępne poprzez internetowe portale analityczne. W ramach tych portali często stosowane są tzw. kokpity menadżerskie (Dashboards), na których w przejrzysty, graficzny sposób prezentowane są kluczowe dla danej osoby, czy funkcji informacje. Raporty mogą być także harmonogramowane i dostarczane w różnorodnej formie do zainteresowanych osób i tak np. sprzedawca może otrzymywać w postaci wiadomości MMS codzienny raport na temat zakupów swoich klientów oraz realizacji targetu, a dyrektor sprzedaży drogą mailową w formacie PDF informację na temat regionalnych wyników oraz realizacji celu i wykorzystania budżetu. Ważną funkcję pełnią także tzw. alerty, które w sytuacji osiągnięcia przez wybrane kluczowe wskaźniki wydajności (Key Performance Indicators, KPI) wartości niepokojących mogą informować np. drogą mailową wybrane osoby o sytuacjach wyjątkowych. Coraz popularniejsze stają się także mobilne rozwiązania BI w postaci aplikacji na smartphone’y, czy tablety.

Innymi popularnymi elementami tej warstwy są narzędzia do tworzenia raportów i analizy danych, udostępniane użytkownikom biznesowym. Są to m. in. rozwiązania do projektowania i tworzenia raportów ad-hoc, także tych o skomplikowanym layoucie i gotowych do wydruku (pixel-perfect), jak również coraz popularniejsze narzędzia klasy data discovery, w szczególności te oparte o analizy in-memory. Narzędziami BI, które pobierają dane z hurtowni i umożliwiają ich analizę są mogą być także arkusze kalkulacyjne.

W ramach omawianej warstwy możliwe jest również stosowanie różnorodnych aplikacji dedykowanych do konkretnych celów biznesowych, jak np. aplikacje do planowania i budżetowania, systemy do wdrażania zrównoważonej karty wyników (Balanced Scorecard, BSC), czy rachunku kosztów działań (Activity Based Costing, ABC).

Podsumowanie

W artykule tym w telegraficznym skrócie przedstawione i usystematyzowane zostały najpopularniejsze i najczęściej stosowane elementy składowe Business Intelligence. Przedstawiona została współczesna, możliwie kompletna i rozbudowana architektura systemów tej klasy, jednak sytuacja na rynku rozwiązań Business Intelligence jest dynamiczna. Obecnie obserwujemy swoistą rywalizację pomiędzy dostawcami klasycznych, usystematyzowanych i pozwalających na utrzymanie wysokiego stopnia spójności rozwiązań BI oraz dostawcami narzędzi klasy data discovery, którzy dążą do uproszczenia architektury systemów BI i dania użytkownikom biznesowym większej prostoty i swobody w korzystaniu z narzędzi analitycznych, kosztem trudności w utrzymaniu spójności i integralności. Najprawdopodobniej w nadchodzących latach będziemy obserwowali zbliżanie się do siebie tych dwóch filozofii, jednak kompleksowa architektura rozwiązań BI w najbliższym czasie raczej nie ulegnie poważnym zmianom.

Inne źródła

Business Intelligence od strony koncepcyjnej opisane jest również w artykule Tomasza Mierzwy.

Zewnętrzne źródła:

Polska i Anglojęzyczna Wikipedia;

Marcin Choiński

Author_Marcin_Choinski

Pasjonat wszystkiego co związane z Hurtowniami Danych oraz Business Intelligence. Posiada kilkuletnie doświadczenie w kierowaniu projektami BI i Data Mining oraz budowaniu produktów klasy DW/BI. Współwłaściciel i red. nacz. portalu BI.PL. Prywatnie entuzjasta biegania oraz zjeżdżania z góry na jednej desce.

Share |
Komentarze
Nie ma jeszcze żadnych komentarzy
Business Intelligence Portal | BI.PL