Wprowadzenie do wywiadu administracyjnego Hadoop Pytania i odpowiedzi

W końcu znalazłeś swoją wymarzoną pracę w Hadoop Admin, ale zastanawiasz się, jak złamać wywiad Hadoop Admin i jakie mogą być prawdopodobne pytania Hadoop Admin Interview. Każda rozmowa kwalifikacyjna jest inna, a zakres pracy również inny. Mając to na uwadze, opracowaliśmy najczęstsze pytania i odpowiedzi dotyczące wywiadu administracyjnego Hadoop, aby pomóc Ci odnieść sukces w rozmowie kwalifikacyjnej.

Poniżej znajdują się pytania do wywiadu administracyjnego Hadoop, które pomogą ci złamać wywiad z Hadoop.

1. Czym jest świadomość stojaka? I dlaczego jest to konieczne?

Odpowiedź:
Świadomość w szafie polega na rozmieszczeniu węzłów danych w wielu szafach. HDFS postępuje zgodnie z algorytmem świadomości szaf, aby umieścić bloki danych. Szafa może pomieścić wiele serwerów. A w przypadku klastra może istnieć wiele stojaków. Załóżmy, że istnieje klaster Hadoop z 12 węzłami. Mogą istnieć 3 szafy z 4 serwerami na każdym. Wszystkie 3 szafy są połączone, tak że wszystkie 12 węzłów jest połączonych i tworzą klaster. Decydując o liczbie szaf, należy wziąć pod uwagę czynnik replikacji. Jeśli każdego dnia będzie płynąć 100 GB danych z czynnikiem replikacji 3. To 300 GB danych będzie musiało znajdować się w klastrze. Lepszą opcją jest replikacja danych w szafach. Nawet jeśli dowolny węzeł ulegnie awarii, replika znajdzie się w innym stojaku.

2. Jaki jest domyślny rozmiar bloku i jak jest zdefiniowany?

Odpowiedź:
128 MB i jest zdefiniowany w pliku hdfs-site.xml, a także można go dostosować w zależności od ilości danych i poziomu dostępu. Powiedzmy, że 100 GB danych przepływa w ciągu dnia, dane są segregowane i przechowywane w klastrze. Jaka będzie liczba plików? 800 plików. (1024 * 100/128) (1024 à przekonwertowano GB na MB.) Istnieją dwa sposoby ustawienia niestandardowego rozmiaru bloku danych.

  1. hadoop fs -D fs.local.block.size = 134217728 (w bitach)
  2. W pliku hdfs-site.xml dodaj tę właściwość à block.size wraz z rozmiarem bitów.

Jeśli zmienisz domyślny rozmiar na 512 MB, ponieważ rozmiar danych jest ogromny, liczba wygenerowanych plików wyniesie 200. (1024 * 100/512)

3. Jak uzyskać raport o systemie plików hdfs? O dostępności dysku i liczbie aktywnych węzłów?

Odpowiedź:
Polecenie: sudo -u hdfs dfsadmin –report

Oto lista wyświetlanych informacji,

  1. Skonfigurowana pojemność - Całkowita pojemność dostępna w formacie hdfs
  2. Obecna pojemność - jest to całkowita ilość miejsca przydzielonego na zasoby, które będą znajdować się obok użycia miejsca przez przerzuty i fsimage.
  3. Pozostały DFS - jest to ilość wolnego miejsca w HDFS na przechowywanie większej liczby plików
  4. Używany system plików DFS - jest to miejsce w pamięci, które zostało wykorzystane przez system plików HDFS.
  5. Wykorzystany DFS% - procentowo
  6. Pod replikowanymi blokami - liczba bloków
  7. Bloki z uszkodzonymi replikami - jeśli są uszkodzone bloki
  8. Brakujące bloki
  9. Brakujące bloki (ze współczynnikiem replikacji 1)

4. Co to jest wyważarka Hadoop i dlaczego jest konieczna?

Odpowiedź:
Dane rozproszone w węzłach nie są rozmieszczone we właściwej proporcji, co oznacza, że ​​wykorzystanie każdego węzła może nie być zrównoważone. Jeden węzeł może być nadmiernie wykorzystywany, a drugi może być niedostatecznie wykorzystywany. Prowadzi to do uzyskania efektu kosztownego podczas uruchamiania dowolnego procesu i kończy się na dużym zużyciu tych węzłów. Aby rozwiązać ten problem, wykorzystywany jest moduł równoważenia Hadoop, który równoważy wykorzystanie danych w węzłach. Tak więc za każdym razem, gdy wykonywany jest moduł równoważenia, dane są przenoszone przez miejsca, w których zapełniane są niewykorzystane węzły, a nadmiernie wykorzystywane węzły będą zwalniane.

5. Różnica między Cloudera i Ambari?

Odpowiedź:

Menedżer ClouderaAmbari
Narzędzie administracyjne dla ClouderaNarzędzie administracyjne do pracy w Horton
Monitoruje i zarządza całym klastrem oraz raportuje użycie i wszelkie problemyMonitoruje i zarządza całym klastrem oraz raportuje użycie i wszelkie problemy
Pochodzi z płatnej usługi ClouderaOtwarte źródło

6. Jakie są główne czynności wykonywane przez administratora Hadoop?

Odpowiedź:
Monitoruj kondycję klastra - Istnieje wiele stron aplikacji, które należy monitorować, jeśli uruchomione zostaną jakiekolwiek procesy. (Serwer historii zadań, menedżer zasobów YARN, menedżer / ambasador Cloudera w zależności od dystrybucji)

włącz zabezpieczenia - SSL lub Kerberos

Dostrój wydajność - wyważarka Hadoop

W razie potrzeby dodaj nowe węzły danych - zmiany i konfiguracje infrastruktury

Opcjonalnie można włączyć serwer śledzenia historii zadań MapReduce à Czasami ponowne uruchomienie usług może zwolnić pamięć podręczną. To wtedy klaster z pustym procesem.

7. Co to jest Kerberos?

Odpowiedź:
Do synchronizacji każdej usługi wymagane jest uwierzytelnienie w celu uruchomienia procesu. Zalecane jest włączenie Kerberos. Ponieważ mamy do czynienia z przetwarzaniem rozproszonym, zawsze dobrą praktyką jest szyfrowanie podczas uzyskiwania dostępu do danych i ich przetwarzania. Ponieważ każdy węzeł jest połączony, a wszelkie przekazywanie informacji odbywa się w sieci. Ponieważ Hadoop używa Kerberos, hasła nie są wysyłane przez sieci. Zamiast tego do obliczania kluczy szyfrowania używane są hasła. Wiadomości są wymieniane między klientem a serwerem. Mówiąc najprościej, Kerberos zapewnia sobie tożsamość (węzły) w bezpieczny sposób dzięki szyfrowaniu.

Konfiguracja w pliku core-site.xml
Hadoop.security.authentication: Kerberos

8. Jaka jest ważna lista poleceń hdfs?

Odpowiedź:

PoleceniaCel, powód
hdfs dfs –lsAby wyświetlić listę plików z systemu plików hdfs.
Hdfs dfs –putSkopiuj plik z systemu lokalnego do systemu plików hdfs
Hdfs dfs –chmod 777Nadaj plikowi uprawnienia do odczytu, zapisu i wykonywania
Hdfs dfs –getSkopiuj plik z systemu plików hdfs do lokalnego systemu plików
Hdfs dfs –catWyświetl zawartość pliku z systemu plików hdfs
Hdfs dfs –rmUsuń plik z systemu plików hdfs. Ale zostanie przeniesiony do ścieżki pliku kosza (jest to jak kosz w systemie Windows)
Hdfs dfs –rm –skipTrashUsuwa plik na stałe z klastra.
Hdfs dfs –touchzUtwórz plik w systemie plików hdfs

9. Jak sprawdzić dzienniki zadania Hadoop przesłane w klastrze i jak zakończyć już uruchomiony proces?

Odpowiedź:
yarn logs –applicationId - wzorzec aplikacji generuje dzienniki na swoim kontenerze i zostanie dołączony z wygenerowanym identyfikatorem. Pomoże to w monitorowaniu stanu procesu i informacji w dzienniku.

yarn application –kill - Jeśli istniejący proces, który był uruchomiony w klastrze, musi zostać zakończony, komenda kill jest używana, gdy identyfikator aplikacji służy do zakończenia zadania w klastrze.

Polecany artykuł

Jest to przewodnik po liście pytań i odpowiedzi do wywiadu administracyjnego Hadoop, aby kandydat mógł z łatwością przełamać pytania związane z wywiadem administracyjnym Hadoop. Możesz także przejrzeć poniższe artykuły, aby dowiedzieć się więcej

  1. Hadoop Cluster Interview Pytania i odpowiedzi - 10 najbardziej przydatnych
  2. Pytania do wywiadu dotyczące modelowania danych - 10 ważnych pytań
  3. Pytania do wywiadu systemowego SAS - 10 najważniejszych przydatnych pytań