Wprowadzenie do wywiadu administracyjnego Hadoop Pytania i odpowiedzi
W końcu znalazłeś swoją wymarzoną pracę w Hadoop Admin, ale zastanawiasz się, jak złamać wywiad Hadoop Admin i jakie mogą być prawdopodobne pytania Hadoop Admin Interview. Każda rozmowa kwalifikacyjna jest inna, a zakres pracy również inny. Mając to na uwadze, opracowaliśmy najczęstsze pytania i odpowiedzi dotyczące wywiadu administracyjnego Hadoop, aby pomóc Ci odnieść sukces w rozmowie kwalifikacyjnej.
Poniżej znajdują się pytania do wywiadu administracyjnego Hadoop, które pomogą ci złamać wywiad z Hadoop.
1. Czym jest świadomość stojaka? I dlaczego jest to konieczne?
Odpowiedź:
Świadomość w szafie polega na rozmieszczeniu węzłów danych w wielu szafach. HDFS postępuje zgodnie z algorytmem świadomości szaf, aby umieścić bloki danych. Szafa może pomieścić wiele serwerów. A w przypadku klastra może istnieć wiele stojaków. Załóżmy, że istnieje klaster Hadoop z 12 węzłami. Mogą istnieć 3 szafy z 4 serwerami na każdym. Wszystkie 3 szafy są połączone, tak że wszystkie 12 węzłów jest połączonych i tworzą klaster. Decydując o liczbie szaf, należy wziąć pod uwagę czynnik replikacji. Jeśli każdego dnia będzie płynąć 100 GB danych z czynnikiem replikacji 3. To 300 GB danych będzie musiało znajdować się w klastrze. Lepszą opcją jest replikacja danych w szafach. Nawet jeśli dowolny węzeł ulegnie awarii, replika znajdzie się w innym stojaku.
2. Jaki jest domyślny rozmiar bloku i jak jest zdefiniowany?
Odpowiedź:
128 MB i jest zdefiniowany w pliku hdfs-site.xml, a także można go dostosować w zależności od ilości danych i poziomu dostępu. Powiedzmy, że 100 GB danych przepływa w ciągu dnia, dane są segregowane i przechowywane w klastrze. Jaka będzie liczba plików? 800 plików. (1024 * 100/128) (1024 à przekonwertowano GB na MB.) Istnieją dwa sposoby ustawienia niestandardowego rozmiaru bloku danych.
- hadoop fs -D fs.local.block.size = 134217728 (w bitach)
- W pliku hdfs-site.xml dodaj tę właściwość à block.size wraz z rozmiarem bitów.
Jeśli zmienisz domyślny rozmiar na 512 MB, ponieważ rozmiar danych jest ogromny, liczba wygenerowanych plików wyniesie 200. (1024 * 100/512)
3. Jak uzyskać raport o systemie plików hdfs? O dostępności dysku i liczbie aktywnych węzłów?
Odpowiedź:
Polecenie: sudo -u hdfs dfsadmin –report
Oto lista wyświetlanych informacji,
- Skonfigurowana pojemność - Całkowita pojemność dostępna w formacie hdfs
- Obecna pojemność - jest to całkowita ilość miejsca przydzielonego na zasoby, które będą znajdować się obok użycia miejsca przez przerzuty i fsimage.
- Pozostały DFS - jest to ilość wolnego miejsca w HDFS na przechowywanie większej liczby plików
- Używany system plików DFS - jest to miejsce w pamięci, które zostało wykorzystane przez system plików HDFS.
- Wykorzystany DFS% - procentowo
- Pod replikowanymi blokami - liczba bloków
- Bloki z uszkodzonymi replikami - jeśli są uszkodzone bloki
- Brakujące bloki
- Brakujące bloki (ze współczynnikiem replikacji 1)
4. Co to jest wyważarka Hadoop i dlaczego jest konieczna?
Odpowiedź:
Dane rozproszone w węzłach nie są rozmieszczone we właściwej proporcji, co oznacza, że wykorzystanie każdego węzła może nie być zrównoważone. Jeden węzeł może być nadmiernie wykorzystywany, a drugi może być niedostatecznie wykorzystywany. Prowadzi to do uzyskania efektu kosztownego podczas uruchamiania dowolnego procesu i kończy się na dużym zużyciu tych węzłów. Aby rozwiązać ten problem, wykorzystywany jest moduł równoważenia Hadoop, który równoważy wykorzystanie danych w węzłach. Tak więc za każdym razem, gdy wykonywany jest moduł równoważenia, dane są przenoszone przez miejsca, w których zapełniane są niewykorzystane węzły, a nadmiernie wykorzystywane węzły będą zwalniane.
5. Różnica między Cloudera i Ambari?
Odpowiedź:
Menedżer Cloudera | Ambari |
Narzędzie administracyjne dla Cloudera | Narzędzie administracyjne do pracy w Horton |
Monitoruje i zarządza całym klastrem oraz raportuje użycie i wszelkie problemy | Monitoruje i zarządza całym klastrem oraz raportuje użycie i wszelkie problemy |
Pochodzi z płatnej usługi Cloudera | Otwarte źródło |
6. Jakie są główne czynności wykonywane przez administratora Hadoop?
Odpowiedź:
Monitoruj kondycję klastra - Istnieje wiele stron aplikacji, które należy monitorować, jeśli uruchomione zostaną jakiekolwiek procesy. (Serwer historii zadań, menedżer zasobów YARN, menedżer / ambasador Cloudera w zależności od dystrybucji)
włącz zabezpieczenia - SSL lub Kerberos
Dostrój wydajność - wyważarka Hadoop
W razie potrzeby dodaj nowe węzły danych - zmiany i konfiguracje infrastruktury
Opcjonalnie można włączyć serwer śledzenia historii zadań MapReduce à Czasami ponowne uruchomienie usług może zwolnić pamięć podręczną. To wtedy klaster z pustym procesem.
7. Co to jest Kerberos?
Odpowiedź:
Do synchronizacji każdej usługi wymagane jest uwierzytelnienie w celu uruchomienia procesu. Zalecane jest włączenie Kerberos. Ponieważ mamy do czynienia z przetwarzaniem rozproszonym, zawsze dobrą praktyką jest szyfrowanie podczas uzyskiwania dostępu do danych i ich przetwarzania. Ponieważ każdy węzeł jest połączony, a wszelkie przekazywanie informacji odbywa się w sieci. Ponieważ Hadoop używa Kerberos, hasła nie są wysyłane przez sieci. Zamiast tego do obliczania kluczy szyfrowania używane są hasła. Wiadomości są wymieniane między klientem a serwerem. Mówiąc najprościej, Kerberos zapewnia sobie tożsamość (węzły) w bezpieczny sposób dzięki szyfrowaniu.
Konfiguracja w pliku core-site.xml
Hadoop.security.authentication: Kerberos
8. Jaka jest ważna lista poleceń hdfs?
Odpowiedź:
Polecenia | Cel, powód |
hdfs dfs –ls | Aby wyświetlić listę plików z systemu plików hdfs. |
Hdfs dfs –put | Skopiuj plik z systemu lokalnego do systemu plików hdfs |
Hdfs dfs –chmod 777 | Nadaj plikowi uprawnienia do odczytu, zapisu i wykonywania |
Hdfs dfs –get | Skopiuj plik z systemu plików hdfs do lokalnego systemu plików |
Hdfs dfs –cat | Wyświetl zawartość pliku z systemu plików hdfs |
Hdfs dfs –rm | Usuń plik z systemu plików hdfs. Ale zostanie przeniesiony do ścieżki pliku kosza (jest to jak kosz w systemie Windows) |
Hdfs dfs –rm –skipTrash | Usuwa plik na stałe z klastra. |
Hdfs dfs –touchz | Utwórz plik w systemie plików hdfs |
9. Jak sprawdzić dzienniki zadania Hadoop przesłane w klastrze i jak zakończyć już uruchomiony proces?
Odpowiedź:
yarn logs –applicationId - wzorzec aplikacji generuje dzienniki na swoim kontenerze i zostanie dołączony z wygenerowanym identyfikatorem. Pomoże to w monitorowaniu stanu procesu i informacji w dzienniku.
yarn application –kill - Jeśli istniejący proces, który był uruchomiony w klastrze, musi zostać zakończony, komenda kill jest używana, gdy identyfikator aplikacji służy do zakończenia zadania w klastrze.
Polecany artykuł
Jest to przewodnik po liście pytań i odpowiedzi do wywiadu administracyjnego Hadoop, aby kandydat mógł z łatwością przełamać pytania związane z wywiadem administracyjnym Hadoop. Możesz także przejrzeć poniższe artykuły, aby dowiedzieć się więcej
- Hadoop Cluster Interview Pytania i odpowiedzi - 10 najbardziej przydatnych
- Pytania do wywiadu dotyczące modelowania danych - 10 ważnych pytań
- Pytania do wywiadu systemowego SAS - 10 najważniejszych przydatnych pytań