Wprowadzenie do wywiadu z inżynierem danych Pytania i odpowiedzi

Inżynieria danych to termin, w którym wszyscy są tego świadomi i jest dość popularna w dziedzinie Big Data. Inżynieria danych odnosi się do infrastruktury danych lub architektury danych. Surowe dane generowane z różnych źródeł, takich jak media społecznościowe, telefony komórkowe, www (internet), muszą zostać przekształcone, oczyszczone, sprofilowane i zagregowane na potrzeby biznesowe. Te surowe dane są również określane jako Dark Data. Praktyka projektowania, architekturowania i wdrażania systemu przetwarzania danych pomaga w przekształcaniu danych w odpowiednią informację lub zestaw danych, takich informacji lub zestawu danych jest określany jako inżynieria danych.

Poniżej znajduje się lista najlepszych pytań i odpowiedzi na wywiad z inżynierem danych w 2019 r .:

Jeśli szukasz pracy związanej z inżynierem danych, musisz przygotować się na pytania dotyczące rozmowy z inżynierem danych 2019. Chociaż każde pytanie dotyczące wywiadu z inżynierem danych jest inne, a zakres zadania jest inny, możemy pomóc w uzyskaniu odpowiedzi na najważniejsze pytania dotyczące wywiadu z inżynierem danych, które pomogą Ci podjąć skok i odnieść sukces w rozmowie z inżynierem danych.

1. Co to jest inżynieria danych?

Odpowiedź:
Inżynieria danych jest terminem dość popularnym w dziedzinie Big Data i odnosi się głównie do infrastruktury danych lub architektury danych.
Dane generowane przez wiele źródeł, takich jak media społecznościowe, telefony komórkowe, www (internet) są surowymi danymi. Należy go przekształcić, oczyścić, profilować i agregować na potrzeby biznesowe. Możemy nazywać te surowe dane ciemnymi danymi, które zapalimy, aby te ciemne dane były przydatne. Praktyka projektowania, projektowania i wdrażania systemu przetwarzania danych, który pomoże przekształcić dane w użyteczne informacje, nazywa się inżynierią danych.

2. Wyjaśnić codzienną pracę inżyniera danych?

Odpowiedź:
Codzienna praca inżyniera danych obejmuje:
za. obsługa zarządzania danymi w organizacji
b. obsługa i utrzymanie źródłowych systemów danych i obszarów przejściowych
do. robi ETL lub ELT i transformację danych
re. uproszczenie czyszczenia danych i usprawnienie ich duplikacji i budowania
mi. tworzenie ad-hoc zapytania danych i wyodrębnianie
Zobacz poniżej wizualizację informującą o rzeczach, nad którymi pracuje inżynier danych: -

3. Czy masz doświadczenie w modelowaniu danych?

Odpowiedź:
Można powiedzieć, że pracował nad projektem dla klienta finansowego / ubezpieczenia zdrowotnego, w którym używał narzędzi ETL, takich jak Informatica / Talend / Pentaho itp., Do przekształcania i przetwarzania danych pobranych z bazy danych MySQL / RDS / SQL i wysyła przekaż te informacje dostawcom, którzy mogą pomóc zwiększyć ich przychody. Można pokazać poniżej architekturę modelu danych na wysokim poziomie. Składa się z klucza podstawowego, encji, atrybutów, relacji, ograniczeń itp.

4. Jakie są różne typy schematów projektowych w modelowaniu danych? Wyjaśnij na przykładzie?

Odpowiedź:
Istnieją dwa typy schematów w modelowaniu danych:
za. Schemat gwiezdny
Ten schemat jest podzielony na dwa. Jeden to tabela faktów, a drugi to tabela wymiarów, w której wszystkie tabele wymiarów są połączone z tabelą faktów. Tabela kluczy obcych w rzeczywistości odnosi się do kluczy podstawowych obecnych w tabelach wymiarów. Zobacz poniżej architekturę schematu gwiazdy:

b. Schemat płatka śniegu
W tym schemacie poziom normalizacji jest zwiększony, tutaj tabela faktów pozostanie taka sama jak w schemacie gwiazdy, tutaj tabele wymiarów są znormalizowane. Ze względu na wiele warstw tabel wymiarów wygląda jak płatek śniegu, stąd nazwa schematu płatka śniegu. Zobacz poniżej architekturę: -

5. Z jakiego narzędzia ETL korzystasz i jak najlepiej to porównać z innymi?

Odpowiedź:
Można powiedzieć, że używał Informatica jako narzędzia ETL z wielu powodów, przede wszystkim dlatego, że zgodnie z Gartner Magic Quadrant for Data Integration Tools Informatica zajmuje 10. pozycję z rzędu. Jest łatwy w użyciu i do nauki oraz ma funkcje do łączenia z różnymi źródłami danych i typami danych, komponentami wielokrotnego użytku i funkcjami, które sprawiają, że jest najbardziej lubiany przez programistów ETL. Ma również własny harmonogram, co jest kolejną zaletą, ponieważ inne narzędzia ETL muszą używać zewnętrznego harmonogramu do planowania zadań.

6. Które technologie / język programowania należy posiadać / Naucz się być inżynierem danych?

Odpowiedź:
Matematyka (algebra liniowa i prawdopodobieństwo)
Statystyka (statystyki podsumowujące)
Techniki uczenia maszynowego
Języki R i SAS
Bazy danych SQL, Hive QL
Python (najczęściej używany)
Oprócz nich należy posiadać wiedzę z zakresu rozwiązywania problemów, analizy i architektury bazy danych.

7. Jakie są typowe problemy, z którymi borykają się inżynierowie danych?

Odpowiedź:
1. Integracja w czasie rzeczywistym / integracja ciągła
2. Przechowywanie Ogromna ilość danych to jeden problem, informacje z tych danych to inny problem.
3. Których narzędzi można użyć, które zapewnią najlepszą wydajność, przechowywanie, wydajność i wyniki.
4. Czy skala pamięci? Załóżmy, skąd wiedzieć, ile czasu zajmie przetwarzanie całego zestawu danych?
5. Uwzględnienie konfiguracji procesorów i pamięci RAM
6. Jak radzić sobie z awariami, czy istnieje odporność na awarie, czy nie?

8. W jaki sposób architekt danych różni się od inżyniera danych?

Odpowiedź:
Architekt danych to osoba zarządzająca danymi, zwłaszcza gdy mamy do czynienia z różnymi liczbami różnych źródeł danych. Należy mieć dogłębną wiedzę o tym, jak działa baza danych, jak dane odnoszą się do problemów biznesowych i jak zmiany zakłócą wykorzystanie danych organizacji, a następnie architekt danych będzie manipulował / przekształcał architekturę danych zgodnie z nimi.
Głównym obowiązkiem architekta danych jest praca nad hurtownią danych, rozwój architektury danych lub centrum / hurtowni danych przedsiębiorstwa.
Natomiast inżynier danych pomaga w instalowaniu rozwiązań hurtowni danych, modelowaniu danych, opracowywaniu i testowaniu architektury baz danych.

9. Opisz czas, w którym znalazłeś nowy przypadek użycia istniejącej bazy danych, który miałby pozytywny wpływ na biznes?

Odpowiedź:
Podczas gdy w erze Big Data SQL nie będzie miał następujących funkcji:
za. RDBMS to DB zorientowane na schemat, więc lepiej jest dla danych ustrukturyzowanych niż dla danych częściowo ustrukturyzowanych lub nieustrukturyzowanych.
b. Nie można przetworzyć nieprzewidzianych i nieustrukturyzowanych danych.
do. Nie jest skalowalny w poziomie, tzn. Równoległe wykonywanie i przechowywanie nie jest możliwe w SQL.
re. Występuje problem z wydajnością, gdy liczba użytkowników wzrośnie.
mi. Służy głównie do przetwarzania transakcji online.

Aby przezwyciężyć te wady, możemy użyć bazy danych NoSQL, tj. Nie tylko SQL.
Tak więc w projekcie można używać różnych rodzajów DB NoSQL, takich jak Cassandra, Mongo DB, Graph DB, HBase itp.

10. Czy masz doświadczenie w pracy w środowisku przetwarzania w chmurze? Jakie widzisz korzyści w pracy w jednym?

Odpowiedź:
Można powiedzieć, że tak. Cloud Computing Environment jest gotowe do przeniesienia środowiska do produkcji, rozwoju i testowania bez konieczności integracji wielu instancji / serwerów Linux / Windows. Na rynku istnieje wiele usług przetwarzania w chmurze, takich jak AWS (usługi internetowe Amazon), Azure (Microsoft), GCP (Google Cloud Platform). Usługa przetwarzania w chmurze zapewnia następujące funkcje, takie jak elastyczność, tj. Środowisko skaluje się zgodnie z wymaganiami, odzyskiwanie po awarii poprzez tworzenie kopii zapasowych i migawek, praca z dowolnego miejsca dzięki VPN, bezpieczne środowisko i przyjazne dla środowiska, ponieważ działa na sprzęcie towarowym, tj. Komputerach ogólnego przeznaczenia, które są tanie.

Wniosek

Na powyższym blogu zachowaliśmy najczęściej zadawane pytania na temat Inżyniera danych oraz o tym, jak można na nie odpowiedzieć, podając punkty funkcji.

Polecany artykuł:

Jest to obszerny przewodnik po pytaniach i odpowiedziach na pytania inżyniera danych, dzięki czemu kandydat może łatwo stłumić pytania związane z wywiadem. ten artykuł zawiera wszystkie najważniejsze pytania i odpowiedzi z wywiadu dla inżyniera danych. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Najważniejsze Azure Paas vs. Iaas
  2. Pytania do wywiadu Big Data
  3. 5 najważniejszych pytań do wywiadu Elasticsearch
  4. Wywiad PIG Pytania i odpowiedzi
  5. Top 5 najcenniejszych pytań do wywiadu z zakresu nauki o danych