Kup Teraz. Petabajt. BCM!
sample image

Kup Teraz. Petabajt. BCM!

Kiedy myślimy o NAPRAWDĘ dużych wolumenach danych, pierwsze, co przychodzi do głowy, to ogromne globalne serwisy internetowe, mające zwyczaj trzymania wszystkich kliknięć wszystkich użytkowników i wyciągania z tego zaawansowaną analityką pożytecznych danych behawioralnych, które można wykorzystać samemu, albo za przyzwoite pieniądze sprzedać reklamodawcom. Google, Facebook i okolice, Youtube, LinkedIn, Twitter, Amazon. I eBay, monstrualny serwis aukcyjny.

Spis Treści

Hurtownia danych eBaya, zwana Singularity (Osobliwość), przechowuje parę petabajtów danych o kliknięciach użytkowników. Odbywa się na niej także budowanie z tych kliknięć opisów sesji użytkowników. Do tej pory wykorzystywano platformę Greenplum – niedużej firmy, pakietującej razem sprzęt i własne rozwiązanie bazodanowe i dostarczającej hurtownię z „pudełka”. Jednego z podgryzaczy – patrz punkt o Podgryzaczach poniżej.

Teraz rozeszła się wieść (link), że w Singularity 2.0 eBay stosuje platformę Teradata, której już wcześniej używał do swojej bardziej „klasycznej” hurtowni. Greenplum zostaje jako przechowalnia surowych danych i będzie wykorzystywany do zasilania „prawdziwej” hurtowni opartej na Teradacie.

Teradata będzie mieć kolejną okazję zaistnieć w rozwiązaniach największych z największych – to znakomita referencja, ale może także wywindować wizerunek marki pod niebo: „Eee, po co nam Teradata, przy naszych skromnych stu terabajtach…”. Bo mało kto ma tyle danych co eBay.

Co to znaczy dużo danych?

6,5 petabajta = 6500 terabajtów. W przeliczeniu na flagowe okręty Oracle’a: żeby zmieścić te dane potrzeba by ponad 200 największych serwerów Exadata. W przeliczeniu na największe hurtownie danych w Polsce – telekomunikacyjne: można by w tym przechować dane o wszystkich połączeniach telefonicznych w Polsce za 400 lat. Tylko że wtedy nie mieliśmy jeszcze telefonów.

Samo przechowanie tych danych byłoby niczym, gdyby nie dało się z nich korzystać. Tu architekci eBaya mają interesujące, bardzo proaktywne podejście, zwane myląco Analytics as a Service.

Sprzęt jest tani, drogi jest development

Mamy wszystkie dane. Mamy dość pary pod pokrywką, żeby nie zaprzątać sobie głowy optymalizacją zapytań. Jesteśmy w stanie wytrzymać wszystkie zapytania użytkowników (no, może parę najgorszych czasem odstrzelimy) – nie zastanawiając się za wiele, udostępniamy im te dane, których chcą – i nie przepisujemy ich z miejsca na miejsce, niech szaleją sobie po największych tablicach hurtowni, której obowiązkiem jest poradzić sobie z takim obciążeniem.

Cały projekt stworzenia wirtualnego Data Martu sprowadza się do napisania paru widoków i ustawienia odpowiednich uprawnień.

Dzięki temu można małym ryzykiem wypróbowywać nowe analizy. W analizie chodzi przecież o zbadanie „nieznanego” a badając nieznane, zawsze można zrobić coś nie tak. Lepiej przekonać się o tym po paru dniach, a może tygodniach, niż poświęcać kilka miesięcy na wielki projekt, który może skończyć się spektakularną klapą.

Wirtualne Data Marty przeważnie służą przez parę miesięcy i rzadko stają się systemami produkcyjnymi. Ponieważ nie zajmują przestrzeni na dysku, ani nie wymagają ładowania, kiedy przestają z nich korzystać użytkownicy, to tak jakby przestawały istnieć – nie obciążają już maszyn, można robić kolejne marty.

Teradata kontratakuje

Wspomniany powyżej GreenPlum należy do trzech firm podgryzających dotąd pozycję Teradaty swoimi małymi, zgrabnymi „data appliances” – hurtowniami danych w pudełku wielkości dużej lodówki: GreenPlum, DatAllegro, Netezza.

Wszyscy zostali stosunkowo niedawno pożarci przez większe koncerny: GreenPlum przez EMC, bardziej znanego jako producent macierzy dyskowych Symmetrix (paradoksalnie, to dostawca macierzy dla Teradaty), DatAllegro przez Microsoft (i na razie słuch o nich zaginął, może coś się wykluje w SQL Serverze 2020), Netezza przez IBM-a (co zasługuje na szersze potraktowanie i spodziewajcie się tego na blogu). W ten sposób nowi challengerzy na rynku zlali się z głównym nurtem, Wielką Trójką korporacyjnych rozwiązań.

Decyzja eBaya oznacza krok w drugą stronę – odzyskanie przez Teradatę kawałka rynku, na które ostatnio te trzy firmy dość skutecznie wkraczały. Trzeba było bowiem dostawić naprawdę sporo nowych node’ów.

Wojciech Próchniewicz

Author_Wojciech_Prochniewicz

Architekt rozwiązań Business Intelligence w Infovide-Matrix. Specjalność: wymyślanie prostych rozwiązań czegoś, co jest z pozoru niemożliwe oraz malowanie diagramów architektur, zwanych przez resztę firmy "kotłowniami". Budowanie pomostów w rozumieniu architektury przez wszystkich, od sponsora projektu, do programisty. Bywał w telekomach, bankowości, ubezpieczeniach i metalurgii. Motto: „If you think good architecture is expensive, try bad architecture.” Prywatnie tłumaczy z angielskiego powieści science-fiction i grywa na klawiszach.

E-mail: wprochniewicz@ivmx.pl

Share |
Komentarze
Nie ma jeszcze żadnych komentarzy
Business Intelligence Portal | BI.PL