Hadoop Cluster Interview Pytania i odpowiedzi

Celem tego artykułu jest pomoc wszystkim aspirującym do Big Data w udzieleniu odpowiedzi na wszystkie pytania Hadoop Cluster Interview związane z konfiguracją środowiska Big Data w organizacji. Ten kwestionariusz pomoże w skonfigurowaniu węzłów danych, węzła nazw i określeniu pojemności serwera hostowanego przez demony Big Data.

Więc jeśli w końcu znalazłeś swoją wymarzoną pracę w Hadoop Cluster, ale zastanawiasz się, jak złamać wywiad w Hadoop Cluster i jakie mogą być prawdopodobne pytania dotyczące wywiadu w Hadoop Cluster. Każda rozmowa kwalifikacyjna jest inna, a zakres pracy również inny. Mając to na uwadze, opracowaliśmy najczęstsze pytania i odpowiedzi dotyczące wywiadu klastrowego Hadoop, aby pomóc Ci odnieść sukces w rozmowie.

Oto niektóre z najważniejszych pytań do wywiadu klastrowego Hadoop, które są często zadawane podczas wywiadu:

1. Jakie są główne komponenty Hadoop w klastrze Hadoop?

Odpowiedź :
Hadoop to platforma, w której przetwarzamy duże zbiory danych, lub Hadoop to platforma, na której można przetwarzać ogromne ilości danych na serwerach towarowych. Hadoop to połączenie wielu składników. Poniżej znajdują się główne elementy środowiska Hadoop.
Węzeł nazw : jest to węzeł główny, który dba o wszystkie informacje o węzłach danych i lokalizację przechowywania danych w formacie metadanych.
Dodatkowy węzeł nazwy : Działa jako podstawowy węzeł nazwy, jeśli główny węzeł nazwy ulegnie awarii.
HDFS (Hadoop Distributed File System) : Dba o całe miejsce przechowywania klastra Hadoop.
Węzły danych : węzły danych są węzłami podrzędnymi. Rzeczywiste dane są zapisywane w węzłach podrzędnych do przetwarzania.
YARN (Yet Another Resource Negotiator) : platforma programowa do pisania aplikacji i przetwarzania ogromnych ilości danych. Zapewnia te same funkcje, co MapReduce, dodatkowo pozwala na równoległe uruchamianie każdego zadania wsadowego w klastrze Hadoop.

2.Jak zaplanować przechowywanie danych w klastrze Hadoop?

Odpowiedź :
Pamięć masowa oparta jest na formule (Storage = codzienne przyjmowanie danych * replikacja).
Jeśli klaster Hadoop pobiera dane 120 TB na dobę, a my mamy domyślny współczynnik replikacji, więc dzienne zapotrzebowanie na przechowywanie danych byłoby
Wymagane miejsce na dysku = 120 TB (codzienne przyjmowanie danych) * 3 (domyślna replikacja) => 360 TB
W związku z tym musimy skonfigurować co najmniej 360 TB klastra danych na potrzeby codziennego przetwarzania danych.
Przechowywanie zależy również od wymogu przechowywania danych. Jeśli chcemy, aby dane były przechowywane przez 2 lata w tym samym klastrze, musimy ustawić węzły danych zgodnie z wymogami dotyczącymi przechowywania.

3. Oblicz liczbę węzłów danych.

Odpowiedź :
Musimy obliczyć liczbę węzłów danych wymaganych dla klastra Hadoop. Załóżmy, że mamy serwery z JBOD 10 dysków, a każdy dysk ma pojemność 4 TB, więc każdy serwer ma pamięć 40 TB. Klaster Hadoop otrzymuje dane 120 TB dziennie i 360 TB po zastosowaniu domyślnego współczynnika replikacji.
Liczba węzłów danych = dzienne przetwarzanie danych / pojemność węzła danych
Liczba węzłów danych = 360/40 => 9 węzłów danych
Dlatego dla klastra Hadoop, który otrzymuje 120 TB danych z powyższą konfiguracją, wystarczy skonfigurować tylko 9 węzłów danych.

4.Jak zmienić współczynnik replikacji w klastrze Hadoop?

Odpowiedź :
Edytuj plik hdfs-site.xml. Domyślna ścieżka znajduje się w folderze conf / katalogu instalacyjnego Hadoop. zmień / dodaj następującą właściwość w pliku hdfs-site.xml:
dfs.replication
3)
Blokuj replikację
Współczynnik replikacji 3 nie jest obowiązkowy. Można go również ustawić jako 1. Współczynnik replikacji 5 działa również w klastrze Hadoop. Ustawienie wartości domyślnej zwiększa wydajność klastra i wymaga minimalnego sprzętu.
Zwiększenie współczynnika replikacji spowodowałoby wzrost wymagań sprzętowych, ponieważ miejsce do przechowywania danych jest mnożone przez współczynnik replikacji.

5.Jaki jest domyślny rozmiar bloku danych w Hadoop i jak go zmienić?

Odpowiedź :
Rozmiar bloku zmniejsza / dzieli dane na bloki i zapisuje je w różnych węzłach danych.
Domyślnie rozmiar bloku wynosi 128 MB (w Apache Hadoop) i możemy zmodyfikować domyślny rozmiar bloku.
Edytuj plik hdfs-site.xml. Domyślna ścieżka znajduje się w folderze conf / katalogu instalacyjnego Hadoop. zmień / dodaj następującą właściwość w pliku hdfs-site.xml:
dfs.block.size
134217728
Rozmiar bloku
rozmiar bloku w bajtach wynosi 134 217 728 lub 128 MB. Ponadto określ rozmiar za pomocą przyrostka (bez rozróżniania wielkości liter), takiego jak k (kilo-), m (mega-), g (giga-) lub t (tera-), aby ustawić rozmiar bloku w KB, MB, TB itp…

6.Jak długo klaster Hadoop powinien przechowywać usunięty plik HDFS w katalogu delete / trash?

Odpowiedź :
„Fs.trash.interval” to parametr określający, jak długo HDFS może przechowywać każdy usunięty plik w środowisku Hadoop w celu odzyskania usuniętego pliku.
Okres interwału można zdefiniować tylko w minutach. Dla 2-dniowego interwału pobierania musimy określić właściwość w płynnym formacie.
Zmodyfikuj plik core-site.xml i dodaj / zmodyfikuj go, używając następującej właściwości
fs.trash.interval
2880
Domyślnie interwał pobierania wynosi 0, ale administrator Hadoop może dodawać / modyfikować powyższą właściwość zgodnie z wymaganiami.

7.Jakie są podstawowe polecenia uruchamiania i zatrzymywania demonów Hadoop?

Odpowiedź :
Wszystkie polecenia uruchamiające i zatrzymujące demony zapisane w folderze sbin /.
./sbin/stop-all.sh - Aby zatrzymać wszystkie demony jednocześnie.
hadoop-daemon.sh nazwa węzła początkowego
Początkowy węzeł danych Hadoop-daemon.sh
yarn-daemon.sh, uruchom menedżera zasobów
yarn-daemon.sh, uruchom menedżera węzłów
mr-jobhistory-daemon.sh uruchom serwer historii

8. Jaka jest właściwość definiująca przydział pamięci dla zadań zarządzanych przez YARN?

Odpowiedź :
Właściwość „yarn.nodemanager.resource.memory-mb” należy zmodyfikować / dodać, aby zmienić przydział pamięci dla wszystkich zadań zarządzanych przez YARN.
Określa ilość pamięci RAM w MB. Węzły danych zajmują 70% faktycznej pamięci RAM na YARN. Węzeł danych z 96 GB użyje 68 GB dla YARN, reszta pamięci RAM jest używana przez demona Data Node dla „Non-YARN-Work”
Zmodyfikuj plik „plik yarn.xml” i dodaj / zmodyfikuj następującą właściwość.
yarn.nodemanager.resource.memory-mb
68608
Wartość domyślna yarn.nodemanager.resource.memory-mb wynosi 8 192 MB (8 GB). Jeśli węzły danych mają dużą pojemność pamięci RAM, musimy zmienić wartość na maksymalnie 70%, w przeciwnym razie będziemy marnować pamięć.

9.Jakie są zalecenia dotyczące zmiany rozmiaru węzła nazw?

Odpowiedź :
Zalecane są następujące szczegóły dotyczące konfigurowania węzła głównego na bardzo początkowym etapie.
Procesory: do procesów wystarczy pojedynczy procesor z 6-8 rdzeniami.
Pamięć RAM: do przetwarzania danych i zadań serwer powinien mieć co najmniej 24-96 GB pamięci RAM.
Przechowywanie: Ponieważ żadne dane HDFS nie są przechowywane w węźle głównym. Możesz 1-2 TB jako pamięć lokalną
Ponieważ trudno jest zdecydować o przyszłych obciążeniach, zaprojektuj klaster, wybierając sprzęt, taki jak procesor, pamięć RAM i pamięć, którą z czasem można łatwo zaktualizować.

10. Jakie są domyślne porty w klastrze Hadoop?

Odpowiedź :

Nazwa demonaDomyślny numer portu
Węzeł nazw50070
Węzły danych50075
Drugi węzeł nazwy.50090
Węzeł zapasowy / kontrolny.50105
Job Tracker.50030
Narzędzia do śledzenia zadań.50060

Polecane artykuły

Jest to przewodnik po liście pytań i odpowiedzi do wywiadu klastrowego Hadoop, aby kandydat mógł łatwo przełamać pytania dotyczące wywiadu klastrowego Hadoop. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Elasticsearch Wywiad Pytania i odpowiedzi na górę i najbardziej przydatne
  2. 9 Niesamowitych pytań i odpowiedzi na rozmowę MapReduce
  3. 8 Najbardziej użyteczny przewodnik po pytaniach do wywiadu Big Data
  4. Wywiad ETL Pytania i odpowiedzi, które powinieneś wiedzieć