ETL
sample image

ETL

Aliasy: Element Bazy Wiedzy nie posiada aliasów

Extract, Transform, Load (ETL) - procesy pobierania danych z systemów źródłowych, ich transformacji oraz ładowania do Hurtowni Danych.

Spis Treści

ETL z biznesowego punktu widzenia

Aby dane znalazły się w Hurtowni Danych, muszą zostać zebrane z systemów źródłowych, odpowiednio przetworzone, oczyszczone (Data Cleansing) zintegrowane oraz załadowane w docelowej postaci do hurtowni. ETL jest akronimem od słów: Extract (ekstrakcja danych z systemów źródłowych), Transform (transformacja i integracja do modelu docelowego), Load (ładowanie danych do hurtowni).

Proces ETL wnosi wartość dodaną do danych, na którą składają się:

  • usunięcie błędów w danych oraz obsłużenie "luk w danych" (ang. missing data),
  • zapewnienie udokumentowanych miar wiarygodności danych,
  • przechowywanie informacji o przepływie danych;
  • dostosowanie danych z różnych źródeł do stanu, w którym mogą być używane razem,
  • przygotowanie danych w formie, z której mogą korzystać narzędzia analityczne użytkowników biznesowych.

Dane ładowane są z systemów źródłowych w czasie, kiedy te są najmniej obciążone, lub wyłączone, aby nie zakłócać ich pracy. W dużych, międzynarodowych korporacjach może nie być takiego czasu, w którym wszystkie systemy źródłowe mogą zostać obciążone pobieraniem z nich danych. W takich sytuacjach stosowany jest ODS (Operational Data Source) – przejściowe źródło danych, w którym dane trzymane są przed załadowaniem do hurtowni. ODS może być wykorzystywany także do raportowania operacyjnego, którym nie można obciążać systemów źródłowych, jak np. generowanie billingów dla klientów.

Projekt i implementacja procesu ETL jest bardzo ważnym elementem wdrożenia systemu BI i zajmuje ok. 70% jego czasu.

Narzędzia ETL

Na rynku dostępnych jest wiele platform ETL. Wśród najpopularniejszych można wymienić:

Inne źródła

Polecane źródła informacji o procesach ETL:

Bibliografia:

Ralph Kimball, Joe Caserta, The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data, Wiley Publishing Inc.

Marcin Choiński

Author_Marcin_Choinski

Pasjonat wszystkiego co związane z Hurtowniami Danych oraz Business Intelligence. Posiada kilkuletnie doświadczenie w kierowaniu projektami BI i Data Mining oraz budowaniu produktów klasy DW/BI. Współwłaściciel i red. nacz. portalu BI.PL. Prywatnie entuzjasta biegania oraz zjeżdżania z góry na jednej desce.

Share |
Komentarze
Nie ma jeszcze żadnych komentarzy
Business Intelligence Portal | BI.PL