Wprowadzenie do ula Wywiad Pytania i odpowiedzi

W nowej erze danych Hive to pakiet narzędzi infrastruktury ETL i hurtowni danych o otwartych źródłach w skali petabajtów do przechowywania strukturalnych i nieustrukturyzowanych danych opartych na rozproszonym systemie plików (HDFS)
do analizowania, wysyłania zapytań i eksploracji ogromnych zbiorów danych poprzez włączenie języka podobnego do SQL zwanego HiveQL (HQL) i łatwe wykonywanie zapytań poprzez planowanie Hadoop MapReduce.

Hive jest zbudowany na platformie Hadoop w celu przetwarzania i analizowania dużych zbiorów danych oraz ułatwia wysyłanie zapytań.
Ul został pierwotnie stworzony przez Facebooka, później został udoskonalony i opracowany jako open source przez Apache Software Foundation i nazwał go Apive Hive. Obecnie istnieje wiele firm, które korzystają z Apache Hive w swoich rozwiązaniach Big Data.

Jeśli szukasz pracy związanej z Hive, musisz przygotować się na pytania Hive Interview Questions 2018. Chociaż każda rozmowa kwalifikacyjna jest inna, a zakres pracy również inny, możemy Ci pomóc z najlepszymi pytaniami i odpowiedziami na rozmowę w 2018 r., Które pomogą Ci zrobić krok naprzód i odnieść sukces w rozmowie kwalifikacyjnej.

Poniżej znajduje się górna lista pytań do Hive, które najczęściej zadawane są podczas wywiadu. Te pytania są podzielone na dwie części:

Część 1 - Pytania do ula (podstawowe)

Ta pierwsza część obejmuje podstawowe pytania i odpowiedzi podczas wywiadu Hive.

1. Wymień różne elementy architektury Hive?

Odpowiedź:
W architekturze Hive znajduje się pięć podstawowych komponentów wymienionych poniżej:
• Interfejs użytkownika (UI): Działa jako komunikator między użytkownikami a sterownikami, gdy użytkownik zapisuje zapytania, które interfejs użytkownika akceptuje i uruchamia w sterowniku, dostępne są dwa rodzaje interfejsu, są to wiersz poleceń i interfejs GUI.
• Driver: Utrzymuje cykl życia zapytania HiveQL. Odbiera zapytania z interfejsu użytkownika i tworzy sesję w celu przetworzenia zapytania.
• Kompilator: odbiera plany zapytań od sterownika i pobiera wymagane informacje z Metastore w celu wykonania planu.
• Metastore: Przechowuje informacje o danych, takie jak tabela; może to być stół wewnętrzny lub zewnętrzny. Wysyła informacje o metadanych do kompilatora w celu wykonania zapytania.
• Execute Engine: usługa Hive wykona wynik w silniku wykonania; wykonuje zapytanie w MapReduce w celu przetworzenia danych. Odpowiada za kontrolowanie każdego etapu dla wszystkich tych komponentów.

2. Jakie rodzaje trybów może obsługiwać Hive?

Odpowiedź:
Jest to typowe pytanie Hive Interview Pytania zadawane podczas wywiadu. Hive może działać w dwóch trybach w zależności od wielkości danych,
Te tryby to:
• Tryb zmniejszania mapy
•Tryb lokalny

3. Jakie są scenariusze, w których Hive może i nie może być używany?

Odpowiedź :
Podczas tworzenia aplikacji hurtowni danych, gdy dane są statyczne, gdy aplikacja nie potrzebuje wysokiego czasu odpowiedzi, gdy ilość danych jest ogromna, gdy dane nie zmieniają się szybko i gdy używasz zapytań zamiast skryptów. Hive obsługuje tylko transakcje OLAP, nie nadaje się do transakcji OLTP.

Przejdźmy do następnych pytań do Hive Interview Questions.

4. Jakie formaty plików obsługuje Hive? Wymień typy aplikacji obsługiwanych przez HIVE?

Odpowiedź:
Domyślnie Hive obsługuje format pliku tekstowego, a także obsługuje format pliku binarnego, taki jak plik sekwencji, pliki ORC, pliki parkietu, pliki Avro Data.
• Plik sekwencji: jest to zazwyczaj plik w formacie binarnym, który można skompresować i podzielić.
• Plik ORC: Zoptymalizowany plik wiersza z kolumną jest zapisywany w pliku kolumnowym i w pliku zorientowanym na kolumnę.
• Plik parkietu: jest to plik binarny zorientowany na kolumnę, bardzo wydajny w przypadku zapytań na dużą skalę.
• Plik danych Avro: jest taki sam jak format pliku sekwencji, który jest plikiem dzielnym, kompresowalnym i zorientowanym na wiersze.
Maksymalny rozmiar ciągu danych typu dozwolonego w gałęzi wynosi 2 GB.

Hive to platforma hurtowni danych, która jest odpowiednia dla aplikacji napisanych w Javie, C ++, PHP, Python lub Ruby.

5. Jakie są różne typy tabel dostępnych w gałęzi?

Odpowiedź:
Istnieją dwa typy tabel w aplikacji Hive, są to:
• Zarządzane tabele: dane i schemat kontrolują gałąź.
• Tabele zewnętrzne: Tylko schemat kontroluje gałąź.

Część 2 - Pytania do ula (zaawansowane)

Przyjrzyjmy się teraz zaawansowanym pytaniom Hive Interview Questions.

6. Co to jest metastore w ulu? Wymień i wyjaśnij różne typy konfiguracji Hive Metastores?

Odpowiedź:
Metastore in Hive służy do przechowywania informacji o metadanych, jest to centralne repozytorium w Hive. Pozwala na przechowywanie informacji o metadanych w zewnętrznej bazie danych. Domyślnie Hive przechowuje informacje o metadanych w bazie danych Derby, ale można je również przechowywać w innych bazach danych, takich jak Oracle, MySql itp.
Istnieją trzy typy konfiguracji Metastore, są to:
• Wbudowany przerzutnik: jest to tryb domyślny; może uzyskać lokalny dostęp do biblioteki Hive, wszystkie operacje wiersza poleceń są wykonywane w trybie osadzonym. Usługa Hive, usługa metastore i baza danych działają w tej samej maszynie JVM.
• Lokalny metastore: Przechowuje dane w zewnętrznej bazie danych, takiej jak MySql lub Oracle. Usługa Hive i usługa metastore działają w tej samej maszynie JVM, łączą się z bazą danych działającą w oddzielnej maszynie JVM.
• Zdalny metastore: używa trybu zdalnego do uruchamiania zapytań, w tym przypadku usługa metastore i usługa gałęzi działają w oddzielnej maszynie JVM. Możesz mieć wiele serwerów metastore, aby zwiększyć dostępność.

7. Co to jest procesor zapytań Hive? Jakie są różne elementy procesora zapytań Hive?

Odpowiedź:
To są często zadawane pytania Hive podczas wywiadu. Procesor zapytań Hive służy do konwersji SQL na zadania MapReduce. Zadania są wykonywane na podstawie kolejności zależności.
Elementy procesora zapytań Hive są wymienione poniżej:
• Analizator semantyczny
• UDF i UDAF
• Optymalizator
•Operator
• Parser
• Silnik wykonania
• Sprawdzanie typu
• Generowanie planu logicznego
• Generowanie planu fizycznego

8. Jaka jest funkcjonalność Object-Inspector w gałęzi?

Odpowiedź:
Składa się z gałęzi, która służy do identyfikacji struktury poszczególnych kolumn i struktury wewnętrznej obiektów wierszy. Do złożonych obiektów przechowywanych w wielu formatach można uzyskać dostęp za pomocą Object-Inspector w gałęzi.
Object-Inspector zidentyfikuje strukturę obiektu i sposoby dostępu do wewnętrznych pól wewnątrz obiektu.

Przejdźmy do następnych pytań do Hive Interview Questions.

9. Jakie są różne sposoby łączenia aplikacji z serwerem Hive?

Odpowiedź:
Istnieją trzy sposoby łączenia aplikacji z serwerem Hive, są to:
• Thrift Client: służy do uruchamiania wszystkich poleceń gałęzi przy użyciu innego języka programowania, takiego jak Java, C ++, PHP, Python lub Ruby.
• Sterownik ODBC: Będzie obsługiwał protokół ODBC
• Sterownik JDBC: Będzie obsługiwał protokół JDBC

10. Jakie są domyślne klasy odczytu i zapisu w gałęzi?

Odpowiedź:
Poniżej znajdują się klasy do odczytu i zapisu dostępne w gałęzi:
• TextInputFormat - ta klasa służy do odczytu danych w formacie zwykłego tekstu.
• HiveIgnoreKeyTextOutputFormat - ta klasa służy do zapisywania danych w formacie zwykłego tekstu.
• SequenceFileInputFormat - ta klasa służy do odczytu danych w formacie pliku sekwencji Hadoop.
• SequenceFileOutputFormat - ta klasa służy do zapisywania danych w formacie pliku sekwencji Hadoop.

Polecany artykuł

Jest to przewodnik po liście pytań do odpowiedzi na ule i odpowiedziach, dzięki czemu kandydat może łatwo stłumić te pytania podczas wywiadu. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Top 5 przydatnych pytań i odpowiedzi na wywiad DBA
  2. 12 najbardziej niesamowitych pytań i odpowiedzi na wywiad GitHub
  3. 15 najważniejszych pytań i odpowiedzi na wywiad z Rubinem
  4. 10 najbardziej przydatnych pytań do wywiadu HBase