Wprowadzenie do pytań i odpowiedzi podczas wywiadu ETL

ETL oznacza Extract-Transform-Load. Jest to systemowa podstawa hurtowni danych, w której dane są pobierane z różnych źródeł, a następnie są przekształcane w miejscu, w którym dane są egzekwowane lub przetwarzane, aby zapewnić jakość, spójność danych w odpowiednim formacie prezentacji, a następnie dane są ładowane do hurtowni danych w formacie prezentacji, dzięki czemu użytkownik końcowy może łatwo uzyskać informacje i podjąć decyzję.

Poniżej znajdują się najlepsze pytania do wywiadu ETL 2019, które są często zadawane podczas wywiadu

Jeśli szukasz pracy związanej z ETL, musisz przygotować się na pytania do wywiadu ETL 2019. Chociaż każda rozmowa kwalifikacyjna jest inna, a zakres pracy jest również inny, możemy pomóc Ci z najlepszymi pytaniami i odpowiedziami do wywiadu ETL, które pomogą ci zrobić krok naprzód i odnieść sukces w rozmowie kwalifikacyjnej.

Część 1 - Pytania do wywiadu ETL (podstawowe)

Ta pierwsza część obejmuje podstawowe pytania i odpowiedzi podczas wywiadu ETL

1. Rozwiń system ETL w hurtowni danych? Wyjaśnić

Odpowiedź:
System Extract-Transform-Load (ETL) jest fundamentem hurtowni danych. Właściwie zaprojektowany system ETL wyodrębnia dane z systemów źródłowych, egzekwuje standardy jakości i spójności danych, potwierdza dane, dzięki czemu można korzystać z osobnych źródeł, a na koniec dostarcza dane w formacie gotowym do prezentacji, aby twórcy aplikacji mogli budować aplikacje i użytkowników końcowych może podejmować decyzje.

2. Znaczenie systemu ETL w hurtowni danych?

Odpowiedź :
Usuwa błędy i koryguje brakujące dane. Zapewnia udokumentowane miary zaufania do danych. Przechwytuje przepływ danych ponadnarodowych do przechowywania. Dostosowuje dane z wielu źródeł do wspólnego wykorzystania. Konstruuje dane, które będą mogły być wykorzystywane przez narzędzia użytkownika końcowego.

3. Jaki jest codzienny proces w systemie ETL?

Odpowiedź :
Zbuduj pakiet rozwojowy / testowy / produkcyjny procesów ETL. Poznaj kompromisy różnych struktur danych zaplecza, w tym plików płaskich, znormalizowanych schematów, schematów XML i schematów łączenia gwiaździstego. Analizuj i wydobywaj dane źródłowe. Zbuduj kompleksowy podsystem czyszczenia danych. Przekształć dane w schematy wymiarowe, aby zapewnić najbardziej efektywne dostarczanie do użytkowników końcowych, narzędzi analizy biznesowej, narzędzi do eksploracji danych, modułów OLAP i aplikacji analitycznych. Dostarczaj dane skutecznie zarówno do wysoce scentralizowanych, jak i głęboko rozproszonych hurtowni danych, stosując te same techniki. Dostrój cały proces ETL, aby uzyskać optymalną wydajność.

Przejdźmy do następnych pytań do wywiadu ETL.

4. Formaty danych w systemie ETL?

Odpowiedź :
W ETL istnieje różny format danych, niektóre z nich to pliki płaskie, zestawy danych XML, niezależne tabele robocze DBMS, znormalizowane schematy encji / relacji (E / R) i modele danych wymiarowych.

5. Profilowanie danych w systemie ETL?

Odpowiedź :
Profilowanie danych to systematyczne badanie jakości, zakresu i kontekstu źródła danych, aby umożliwić budowę systemu ETL. Z jednej strony bardzo czyste źródło danych, które zostało dobrze utrzymane, zanim dotarło do hurtowni danych, wymaga minimalnej transformacji i interwencji człowieka w celu załadowania bezpośrednio do tabel ostatecznych wymiarów i tabel faktów.

6. Co to jest walidator ETL?

Odpowiedź :
ETL Validator to narzędzie do testowania danych, które znacznie upraszcza testowanie projektów integracji danych, hurtowni danych i migracji danych. Wykorzystuje naszą opatentowaną architekturę ELV do wyodrębniania, ładowania i sprawdzania poprawności danych ze źródeł danych, takich jak bazy danych, pliki płaskie, XML, Hadoop i systemy BI.

Część 2 - Pytania do wywiadu ETL (zaawansowane)

Rzućmy teraz okiem na zaawansowane pytania do wywiadu ETL.

7. Jakie są operacje w systemie ETL?

Odpowiedź :
Trzy następujące operacje: Wyodrębnia dane z systemu międzynarodowego, którym może być Oracle, Microsoft lub dowolna inna relacyjna baza danych, Przekształca dane, wykonując operacje czyszczenia danych. Obciążenie to proces zapisywania danych w docelowej bazie danych.

8. Wymień niektóre narzędzia ETL najczęściej używane na rynku?

Odpowiedź:
Na rynku dostępnych jest wiele narzędzi ETL, ale niektóre z najbardziej preferowanych narzędzi ETL
• Oracle Warehouse Builder (OWB)
• SAP Data Services.
• Serwer informacyjny IBM Infosphere.
• Zarządzanie danymi SAS.
• Power Center Informatica.
• Elixir Repertoire for Data ETL.
• Data Migrator (IBI)
• SQL Server Integration Services (SSIS)

9. Jakie są role i obowiązki zespołu ETL?

Odpowiedź:
Rolą zespołu ETL na najwyższym poziomie jest budowanie zaplecza hurtowni danych.
• Dostarczaj dane najskuteczniej do narzędzi użytkownika końcowego
• Dodaj wartość do danych w etapach czyszczenia i zgodności
• Chroń i dokumentuj rodowód danych
• Wydobywanie danych z oryginalnych źródeł
• Dane dotyczące zapewnienia i czyszczenia
• Zgodność z etykietami i środkami w danych do osiągnięcia
• spójność w oryginalnych źródłach
• Dostarczanie danych w formacie fizycznym, który może być wykorzystywany przez narzędzia zapytań,
• Autorzy raportów i pulpity nawigacyjne.

Przejdźmy do następnych pytań do wywiadu ETL.

10. Jaka jest rola analizy wpływu w systemie ETL?

Odpowiedź:
Analiza wpływu bada metadane powiązane z obiektem (w tym przypadku tabelą lub kolumną) i określa, na co wpływa zmiana jego struktury lub zawartości. Zmiana obiektów tymczasowych danych może przerwać procesy, które są niezbędne do prawidłowego załadowania hurtowni danych. Zezwolenie na zmiany doraźne w obiektach przemieszczania danych ma negatywny wpływ na powodzenie projektu. Po utworzeniu tabeli w obszarze przejściowym należy przeprowadzić analizę wpływu przed wprowadzeniem jakichkolwiek zmian. Wielu dostawców narzędzi ETL zapewnia funkcję analizy wpływu, ale ta funkcja jest często pomijana podczas weryfikacji koncepcji produktu ETL, ponieważ jest to funkcja zaplecza i
Nie bardzo ważne, dopóki hurtownia danych nie uruchomi się i nie zacznie ewoluować.

11. Jak przetwarzacie płaski plik o stałej długości?

Odpowiedź:
Układ pliku o stałej długości powinien zawierać nazwę pliku, od którego zaczyna się pole; jego długość; i jego typ danych (zwykle tekst lub liczba). Czasami dostarczana jest pozycja końcowa. Jeśli tak nie jest, musisz obliczyć pozycję końcową każdego pola na podstawie jego pozycji początkowej i długości, jeśli jest to wymagane przez twoje narzędzie ETL. W większości narzędzi ETL najprawdopodobniej raz trzeba ręcznie wprowadzić układ pliku płaskiego. Po wprowadzeniu układu narzędzie zapamiętuje układ i oczekuje tego samego układu za każdym razem, gdy wchodzi w interakcję z rzeczywistym plikiem płaskim. W przypadku zmiany układu pliku lub przesunięcia danych z przypisanych pozycji proces ETL musi zostać zaprogramowany na niepowodzenie. Podczas przetwarzania plików płaskich o stałej długości, spróbuj sprawdzić, czy pozycje danych w pliku są dokładne. Szybkim sprawdzaniem poprawności pozycji jest przetestowanie dowolnego pola daty (lub godziny), aby upewnić się, że jest to poprawna data. Jeśli pozycje są przesunięte, pole daty najprawdopodobniej zawiera znaki alfabetu lub liczby nielogiczne. Inne pola z bardzo specyficznymi domenami można testować w ten sam sposób. XML oferuje bardziej konkretne możliwości sprawdzania poprawności. Jeśli problemem jest walidacja lub spójność danych, spróbuj przekonać dostawcę danych do dostarczenia danych w formacie XML.

12.Dlaczego ETL w czasie rzeczywistym w hurtowni danych?

Odpowiedź:
Hurtownia danych potrzebna do zapewnienia niezachwianego zestawu danych decydentom biznesowym, zapewniającego wiarygodną podłogę informacyjną, na której można stać. W celu uzyskania aktualnych raportów z migoczącej bazy danych użytkownicy biznesowi zostali przekierowani do aplikacji produkcyjnych, które prowadzą firmę. W związku z tym użytkownicy musieli udać się do hurtowni danych, aby zobaczyć historyczny obraz tego, co wydarzyło się wczoraj w firmie, i musieli przejrzeć wiele systemów OLTP, aby zobaczyć obraz tego, co się dzisiaj dzieje. Użytkownicy biznesowi nigdy w pełni nie zaakceptowali tego podziału. Hurtownie danych oczywiście absolutnie potrzebują ciągłych strumieni informacji o klientach z operacji, ale systemy operacyjne w coraz większym stopniu polegają również na wzbogacaniu hurtowni danych o informacje o klientach. Dlatego można przewidzieć, że organizacje zaczęły badać alternatywne rozwiązania architektoniczne, które mogą wspierać bardziej ogólne scenariusze integracji, przenosząc dane operacyjne między aplikacjami oraz jednocześnie do i z magazynu z coraz większą pilnością.

Polecane artykuły

Jest to przewodnik po liście pytań i odpowiedzi podczas wywiadu ETL, aby kandydat mógł łatwo przełamać pytania związane z wywiadem ETL. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Azure Paas vs Iaas - Funkcje
  2. 9 Niesamowitych pytań i odpowiedzi na rozmowę MapReduce
  3. Top 11 najbardziej przydatnych pytań i odpowiedzi podczas wywiadu RDBMS
  4. 10 najbardziej niesamowitych pytań do wywiadu PHP dla doświadczonych
  5. Poznaj 5 najważniejszych przydatnych pytań i odpowiedzi na wywiad w DBA

Kategoria: