ETL
Aliasy: Element Bazy Wiedzy nie posiada aliasów
Extract, Transform, Load (ETL) - procesy pobierania danych z systemów źródłowych, ich transformacji oraz ładowania do Hurtowni Danych.
Spis Treści
ETL z biznesowego punktu widzenia
Aby dane znalazły się w Hurtowni Danych, muszą zostać zebrane z systemów źródłowych, odpowiednio przetworzone, oczyszczone (Data Cleansing) zintegrowane oraz załadowane w docelowej postaci do hurtowni. ETL jest akronimem od słów: Extract (ekstrakcja danych z systemów źródłowych), Transform (transformacja i integracja do modelu docelowego), Load (ładowanie danych do hurtowni).
Proces ETL wnosi wartość dodaną do danych, na którą składają się:
- usunięcie błędów w danych oraz obsłużenie "luk w danych" (ang. missing data),
- zapewnienie udokumentowanych miar wiarygodności danych,
- przechowywanie informacji o przepływie danych;
- dostosowanie danych z różnych źródeł do stanu, w którym mogą być używane razem,
- przygotowanie danych w formie, z której mogą korzystać narzędzia analityczne użytkowników biznesowych.
Dane ładowane są z systemów źródłowych w czasie, kiedy te są najmniej obciążone, lub wyłączone, aby nie zakłócać ich pracy. W dużych, międzynarodowych korporacjach może nie być takiego czasu, w którym wszystkie systemy źródłowe mogą zostać obciążone pobieraniem z nich danych. W takich sytuacjach stosowany jest ODS (Operational Data Source) – przejściowe źródło danych, w którym dane trzymane są przed załadowaniem do hurtowni. ODS może być wykorzystywany także do raportowania operacyjnego, którym nie można obciążać systemów źródłowych, jak np. generowanie billingów dla klientów.
Projekt i implementacja procesu ETL jest bardzo ważnym elementem wdrożenia systemu BI i zajmuje ok. 70% jego czasu.
Narzędzia ETL
Na rynku dostępnych jest wiele platform ETL. Wśród najpopularniejszych można wymienić:
- Oracle Data Integration Suite (Oracle Warehouse Builder, Oracle Data Integrator);
- IBM InfoSphere DataStage, IBM Cognos DecisionStream;
- SAS Enterprise Data Integration Server;
- SAP BusinessObjects Data Integrator;
- Microsoft SQL Server 2008 Integration Services (wcześniejsza wersja 2005);
- Talend Data Integration;
- Ab Initio;
- Pentaho Data Integration (Kettle - OpenSource);
- Informatica PowerCenter;
- Information Builders iWay Software;
Inne źródła
Polecane źródła informacji o procesach ETL:



