Pytania do wywiadu administracyjnego Hadoop Najbardziej przydatne i najczęściej zadawane pytania

Wprowadzenie do wywiadu administracyjnego Hadoop Pytania i odpowiedzi

W końcu znalazłeś swoją wymarzoną pracę w Hadoop Admin, ale zastanawiasz się, jak złamać wywiad Hadoop Admin i jakie mogą być prawdopodobne pytania Hadoop Admin Interview. Każda rozmowa kwalifikacyjna jest inna, a zakres pracy również inny. Mając to na uwadze, opracowaliśmy najczęstsze pytania i odpowiedzi dotyczące wywiadu administracyjnego Hadoop, aby pomóc Ci odnieść sukces w rozmowie kwalifikacyjnej.

Poniżej znajdują się pytania do wywiadu administracyjnego Hadoop, które pomogą ci złamać wywiad z Hadoop.

1. Czym jest świadomość stojaka? I dlaczego jest to konieczne?

Odpowiedź:
Świadomość w szafie polega na rozmieszczeniu węzłów danych w wielu szafach. HDFS postępuje zgodnie z algorytmem świadomości szaf, aby umieścić bloki danych. Szafa może pomieścić wiele serwerów. A w przypadku klastra może istnieć wiele stojaków. Załóżmy, że istnieje klaster Hadoop z 12 węzłami. Mogą istnieć 3 szafy z 4 serwerami na każdym. Wszystkie 3 szafy są połączone, tak że wszystkie 12 węzłów jest połączonych i tworzą klaster. Decydując o liczbie szaf, należy wziąć pod uwagę czynnik replikacji. Jeśli każdego dnia będzie płynąć 100 GB danych z czynnikiem replikacji 3. To 300 GB danych będzie musiało znajdować się w klastrze. Lepszą opcją jest replikacja danych w szafach. Nawet jeśli dowolny węzeł ulegnie awarii, replika znajdzie się w innym stojaku.

2. Jaki jest domyślny rozmiar bloku i jak jest zdefiniowany?

Odpowiedź:
128 MB i jest zdefiniowany w pliku hdfs-site.xml, a także można go dostosować w zależności od ilości danych i poziomu dostępu. Powiedzmy, że 100 GB danych przepływa w ciągu dnia, dane są segregowane i przechowywane w klastrze. Jaka będzie liczba plików? 800 plików. (1024 * 100/128) (1024 à przekonwertowano GB na MB.) Istnieją dwa sposoby ustawienia niestandardowego rozmiaru bloku danych.

hadoop fs -D fs.local.block.size = 134217728 (w bitach)
W pliku hdfs-site.xml dodaj tę właściwość à block.size wraz z rozmiarem bitów.

Jeśli zmienisz domyślny rozmiar na 512 MB, ponieważ rozmiar danych jest ogromny, liczba wygenerowanych plików wyniesie 200. (1024 * 100/512)

3. Jak uzyskać raport o systemie plików hdfs? O dostępności dysku i liczbie aktywnych węzłów?

Odpowiedź:
Polecenie: sudo -u hdfs dfsadmin –report

Oto lista wyświetlanych informacji,

Skonfigurowana pojemność - Całkowita pojemność dostępna w formacie hdfs
Obecna pojemność - jest to całkowita ilość miejsca przydzielonego na zasoby, które będą znajdować się obok użycia miejsca przez przerzuty i fsimage.
Pozostały DFS - jest to ilość wolnego miejsca w HDFS na przechowywanie większej liczby plików
Używany system plików DFS - jest to miejsce w pamięci, które zostało wykorzystane przez system plików HDFS.
Wykorzystany DFS% - procentowo
Pod replikowanymi blokami - liczba bloków
Bloki z uszkodzonymi replikami - jeśli są uszkodzone bloki
Brakujące bloki
Brakujące bloki (ze współczynnikiem replikacji 1)

4. Co to jest wyważarka Hadoop i dlaczego jest konieczna?

Odpowiedź:
Dane rozproszone w węzłach nie są rozmieszczone we właściwej proporcji, co oznacza, że wykorzystanie każdego węzła może nie być zrównoważone. Jeden węzeł może być nadmiernie wykorzystywany, a drugi może być niedostatecznie wykorzystywany. Prowadzi to do uzyskania efektu kosztownego podczas uruchamiania dowolnego procesu i kończy się na dużym zużyciu tych węzłów. Aby rozwiązać ten problem, wykorzystywany jest moduł równoważenia Hadoop, który równoważy wykorzystanie danych w węzłach. Tak więc za każdym razem, gdy wykonywany jest moduł równoważenia, dane są przenoszone przez miejsca, w których zapełniane są niewykorzystane węzły, a nadmiernie wykorzystywane węzły będą zwalniane.

5. Różnica między Cloudera i Ambari?

Odpowiedź:

Menedżer Cloudera	Ambari
Narzędzie administracyjne dla Cloudera	Narzędzie administracyjne do pracy w Horton
Monitoruje i zarządza całym klastrem oraz raportuje użycie i wszelkie problemy	Monitoruje i zarządza całym klastrem oraz raportuje użycie i wszelkie problemy
Pochodzi z płatnej usługi Cloudera	Otwarte źródło

6. Jakie są główne czynności wykonywane przez administratora Hadoop?

Odpowiedź:
Monitoruj kondycję klastra - Istnieje wiele stron aplikacji, które należy monitorować, jeśli uruchomione zostaną jakiekolwiek procesy. (Serwer historii zadań, menedżer zasobów YARN, menedżer / ambasador Cloudera w zależności od dystrybucji)

włącz zabezpieczenia - SSL lub Kerberos

Dostrój wydajność - wyważarka Hadoop

W razie potrzeby dodaj nowe węzły danych - zmiany i konfiguracje infrastruktury

Opcjonalnie można włączyć serwer śledzenia historii zadań MapReduce à Czasami ponowne uruchomienie usług może zwolnić pamięć podręczną. To wtedy klaster z pustym procesem.

7. Co to jest Kerberos?

Odpowiedź:
Do synchronizacji każdej usługi wymagane jest uwierzytelnienie w celu uruchomienia procesu. Zalecane jest włączenie Kerberos. Ponieważ mamy do czynienia z przetwarzaniem rozproszonym, zawsze dobrą praktyką jest szyfrowanie podczas uzyskiwania dostępu do danych i ich przetwarzania. Ponieważ każdy węzeł jest połączony, a wszelkie przekazywanie informacji odbywa się w sieci. Ponieważ Hadoop używa Kerberos, hasła nie są wysyłane przez sieci. Zamiast tego do obliczania kluczy szyfrowania używane są hasła. Wiadomości są wymieniane między klientem a serwerem. Mówiąc najprościej, Kerberos zapewnia sobie tożsamość (węzły) w bezpieczny sposób dzięki szyfrowaniu.

Konfiguracja w pliku core-site.xml
Hadoop.security.authentication: Kerberos

8. Jaka jest ważna lista poleceń hdfs?

Odpowiedź:

Polecenia	Cel, powód
hdfs dfs –ls	Aby wyświetlić listę plików z systemu plików hdfs.
Hdfs dfs –put	Skopiuj plik z systemu lokalnego do systemu plików hdfs
Hdfs dfs –chmod 777	Nadaj plikowi uprawnienia do odczytu, zapisu i wykonywania
Hdfs dfs –get	Skopiuj plik z systemu plików hdfs do lokalnego systemu plików
Hdfs dfs –cat	Wyświetl zawartość pliku z systemu plików hdfs
Hdfs dfs –rm	Usuń plik z systemu plików hdfs. Ale zostanie przeniesiony do ścieżki pliku kosza (jest to jak kosz w systemie Windows)
Hdfs dfs –rm –skipTrash	Usuwa plik na stałe z klastra.
Hdfs dfs –touchz	Utwórz plik w systemie plików hdfs

9. Jak sprawdzić dzienniki zadania Hadoop przesłane w klastrze i jak zakończyć już uruchomiony proces?

Odpowiedź:
yarn logs –applicationId - wzorzec aplikacji generuje dzienniki na swoim kontenerze i zostanie dołączony z wygenerowanym identyfikatorem. Pomoże to w monitorowaniu stanu procesu i informacji w dzienniku.

yarn application –kill - Jeśli istniejący proces, który był uruchomiony w klastrze, musi zostać zakończony, komenda kill jest używana, gdy identyfikator aplikacji służy do zakończenia zadania w klastrze.

Polecany artykuł

Jest to przewodnik po liście pytań i odpowiedzi do wywiadu administracyjnego Hadoop, aby kandydat mógł z łatwością przełamać pytania związane z wywiadem administracyjnym Hadoop. Możesz także przejrzeć poniższe artykuły, aby dowiedzieć się więcej

Hadoop Cluster Interview Pytania i odpowiedzi - 10 najbardziej przydatnych
Pytania do wywiadu dotyczące modelowania danych - 10 ważnych pytań
Pytania do wywiadu systemowego SAS - 10 najważniejszych przydatnych pytań

Pytania do wywiadu administracyjnego Hadoop Najbardziej przydatne i najczęściej zadawane pytania

Spisie treści:

Wprowadzenie do wywiadu administracyjnego Hadoop Pytania i odpowiedzi

1. Czym jest świadomość stojaka? I dlaczego jest to konieczne?

2. Jaki jest domyślny rozmiar bloku i jak jest zdefiniowany?

3. Jak uzyskać raport o systemie plików hdfs? O dostępności dysku i liczbie aktywnych węzłów?

4. Co to jest wyważarka Hadoop i dlaczego jest konieczna?

5. Różnica między Cloudera i Ambari?

6. Jakie są główne czynności wykonywane przez administratora Hadoop?

7. Co to jest Kerberos?

8. Jaka jest ważna lista poleceń hdfs?

9. Jak sprawdzić dzienniki zadania Hadoop przesłane w klastrze i jak zakończyć już uruchomiony proces?

Polecany artykuł

TOP 7 Przydatne fakty strategów marketingu cyfrowego, które musisz znać

Digital Ocean vs AWS - Top 6 najlepszych różnic, które powinieneś znać

Koszt bezpośredni a koszt pośredni 6 najważniejszych różnic dzięki infografikom

Korzyści z marketingu bezpośredniego - Zalety i wady - Rodzaje

Tabela wymiarów - Wprowadzenie - Rodzaje - Jak to działa - Zalety

Narzędzie Lasso - selekcje w Photoshopie

Zapisz zdjęcia na e-mail lub w Internecie w Photoshop CS5

Wybierz Temat w Photoshop CC 2018 - Photoshop Essentials

Nawigacja w programie Photoshop: porady Sztuczki i skróty

Tryb mieszania nakładki w Photoshopie

Wyostrz obrazy w Photoshopie z filtrem górnoprzepustowym

Szybka porada edycji zdjęć: Zwiększ kontrast dzięki trybom mieszania programu Photoshop

Photoshop Layer Masks Zaawansowane porady i wskazówki

Sztuczka z filtrowaniem zdjęć w Photoshopie - wybierz Filtruj kolory ze swoich zdjęć

Bezpłatna transformacja w programie Photoshop CC 2019 - nowe funkcje i zmiany