centrum promocji informatyki
E-MAIL
zapisz się zapisz się zapisz się wypisz się
O NASSZKOLENIAMEDIA O NASPARTNERZYREGULAMINKONTAKT

Warszawa, 23.10.2008 Koordynator: Iwona Brokowska

Dlaczego warto wziąć udział w warsztatach?
W cyklu wykładów warsztatowych zostanie przedstawiony przegląd problematyki dotyczącej projektowania i zarządzania procesami ETL. W szczególności omówione zostaną następujące zagadnienia:

  • architektura techniczna hurtowni danych i ETL,
  • modelowanie procesów ETL,
  • dostęp do źródeł danych,
  • techniki wykrywania zmian w źródłach danych,
  • problematyka czyszczenia danych,
  • zarządzanie procesem ładowania danych,
  • odtwarzanie procesów ETL po awarii,
  • ETL czasu rzeczywistego,
  • kierunki rozwojowe technologii ETL.

Ponadto, zostaną przedstawione założenia odnośnie do budowy systemu hurtowni danych i aplikacji analitycznych dla największego w Europie dostawcy platformy aukcji internetowych Allegro.

Kto może być zainteresowany tematyką warsztatów?

  • kadra zarządzająca (działów IT, finansów, marketingu i analiz),
  • kierownicy projektów systemów HD i BI,
  • projektanci i programiści systemów HD i BI.

Wprowadzenie do problematyki
System hurtowni danych (SHD) jest aktualnie podstawowym narzędziem informatycznym wspomagającym podejmowanie strategicznych decyzji biznesowych i wspomagającym zarządzanie przedsiębiorstwem. W skład systemu hurtowni danych wchodzą trzy podstawowe komponenty, tj. baza (hurtownia) danych, aplikacje analityczne i warstwa ETL (ang. Extraction-Translation-Loading). Zadaniem bazy danych jest składowanie danych, zapewnienie bezpieczeństwa danych i efektywnego przetwarzania danych. Zadaniem aplikacji analitycznych jest analiza danych i wizualizacja wyników. Zadaniem warstwy ETL jest zasilanie hurtowni danymi pochodzącymi z wielu heterogenicznych i rozproszonych źródeł. Z punktu widzenia budowania hurtowni danych, a następnie jej utrzymania, warstwa ETL jest krytyczna. Po pierwsze dla tego, że odpowiada za zapewnienie właściwej jakości danych. Po drugie, dlatego że odpowiada za aktualność danych w hurtowni. Po trzecie, jej praca musi się zakończyć w ściśle określonym oknie czasowym. Z praktyki wynika, że projektowanie, implementowanie, wdrażanie i utrzymanie warstwy ETL wymaga wykorzystania od 50 do 70% zasobów ludzkich, sprzętowych i finansowych przeznaczonych na cały projekt.

Zajęcia będą prowadzone w grupie składającej się z maksimum 30 osób.

Koordynator merytoryczny: dr hab. inż. Robert Wrembel (Politechnika Poznańska, Wydział Informatyki i Zarządzania, Instytut Informatyki)

PROGRAM

23 października 2008 r.
10:00 Objęcie prowadzenia obrad i wykład wprowadzający połączony z dyskusją: Problematyka zasilania hurtowni danych - procesy ETL

W cyklu życia, hurtownia danych jest cyklicznie zasilana danymi. Dane te zazwyczaj pochodzą z wielu heterogenicznych źródeł, co w konsekwencji wymaga transformacji danych do wspólnej reprezentacji, usuwania niespójności, eliminowania duplikatów, oczyszczania danych i integrowania w jeden spójny zbiór. Dopiero tak przetworzone dane są wczytywane do hurtowni. Oprogramowaniem odpowiedzialnym za ww. przetwarzanie jest tzw. oprogramowanie ETL (ang. Extraction-Translation-Loading). Projektowanie warstwy ETL i procesów w niej wykonywanych jest bardzo trudne ze względu na złożoność problemów, które należy rozwiązać. W prezentacji zostanie przedstawiona problematyka dotycząca projektowania tej warstwy, tj. warstwa ETL i jej komponenty w ogólnej architekturze hurtowni danych, problematyka ekstrakcji danych, problematyka transformacji danych, problematyka wczytywania danych, wykorzystanie metadanych, słabe strony istniejących rozwiązań i trendy rozwojowe.

dr hab. inż. Robert Wrembel
(Politechnika Poznańska, Wydział Informatyki i Zarządzania, Instytut Informatyki)

11:30 Wykład i dyskusja: Modelowanie procesu ekstrakcji danych (ETL)

Hurtownie danych (DW) gromadzą ogromne zbiory danych, które pochodzą z rozproszonych i najczęściej heterogenicznych źródeł danych. Dane pochodzące z tych źródeł nim zostaną załadowane do DW poddawane są wielu złożonym operacjom przetwarzania, takim jak np.: wyszukiwanie duplikatów, usuwanie niespójności w danych, konwersja danych do wspólnego formatu, dodawanie unikalnych kluczy, wykonywanie złączeń, filtrowanie, agregacja itp. W czasie typowego ładowania danych do DW pojemności przetwarzanych danych mierzy się w gigabajtach i stąd proces ten może zajmować nawet dziesiątki godzin. W obszarze pośrednim ETL dane są przygotowywane i przetwarzane, a następnie przenoszone do DW. Gdy zbiory danych biorące udział w procesie ETL są duże konieczne staje się stosowanie wydajnych algorytmów przetwarzania danych minimalizujących czas trwania ekstrakcji. Skracanie tego czasu jest istotne z dwóch powodów: po pierwsze, im krócej trwa proces ETL tym mniejsze jest prawdopodobieństwo, że zostanie on przerwany wystąpieniem awarii (np. uszkodzenie dysku, brak zasilania, itp.), po drugie, na proces ETL przeznaczone jest z reguły niewielkie okno czasowe, w którym cały proces musi się zmieścić ( DW nie jest dostępna w czasie ładowania danych). Do modelowania i analizy procesu ETL używa się acyklicznego grafu skierowanego o postaci G=(V,Q), gdzie: V - zbiór węzłów, Q - zbiór skierowanych krawędzi.

Michał Gorawski
(Instytut Informatyki Politechniki Śląskiej)

12:45 Przerwa, poczęstunek
13:15 Wykład i dyskusja: Nowe modele odtwarzania procesu ETL

Zakłócenia procesu ekstrakcji (ETL) mogą spowodować jego upadek, który przerywa operację ładowania DW. Upadek może być spowodowany wystąpieniem błędów (np. nieprawidłowe dane, upadek RDBMS) lub uszkodzeń platform sprzętowych (np. awaria zasilania, uszkodzenie procesora) W takim przypadku, zwykle dane już przetworzone są usuwane, a cały proces ETL powinien być natychmiast wznowiony - w przeciwnym wypadku baza DW będzie nieaktualna i niekompletna. Wtedy wykonanie przerwanego procesu przekłada się na kolejny cykl ładowania. Akcja wznowienia procesu ekstrakcji polegająca na dokończeniu przerwanego procesu ładowania danych nazywana jest odtwarzaniem ETL. W wyniku odtwarzania ETL zbiór danych wynikowych ekstrakcji powinien się pokrywać ze zbiorem danych, który powstałby, gdyby nie doszło do jej przerwania. Algorytmy poszczególnych podprocesów ekstrakcji wspomagających odtwarzanie są modyfikowane, co nie tylko komplikuje projekty, ale przede wszystkim obniża wydajność przetwarzania. Nowe modele odtwarzania ETL realizują algorytmy wieloinsertorowego odtwarzania Design-Resume R(m) oraz odtwarzania hybrydowego SDR(m).

dr inż. Marcin Gorawski
(Instytut Informatyki Politechniki Śląskiej)

14:30 Wykład: Alegros way from XLS based controlling to a modern BI environment
The talk will cover the following issues:
  • management summary
  • figures and facts about Allegro
  • they don't know what they don't know
  • controlling in a startup company (xls, html, mail based)
  • things becoming more complex (fast growing, steering is more important)
  • moving from day2day business to a more strategic thinking
  • process of a IT masterplan (ASIS to SHOULDBE)
  • BI as part of the IT masterplan (DWH as the heart)
  • BI road map of Allegro (legacy systems -> ETL -> DWH -> AGGREGATION -> cubes / mining / prediction / simulation etc.)
  • next steps and outlook
  • Q&Ak
Christian Maar
(szef działu informatyki na region EMEA firmy TRADUS)

16:00 Zakończenie warsztatu, wręczenie certyfikatów
  
e-mailkontakt Na górę strony
Copyright © 2002 Centrum Promocji Informatyki Sp. z o.o. | ul. Miedzyborska 50 | tel. (0-22) 870 69 10, 870 69 78