Wprowadzenie do pytań i odpowiedzi podczas wywiadu Apache PIG

W końcu znalazłeś swoją wymarzoną pracę w Apache PIG, ale zastanawiamy się, jak złamać wywiad Apache PIG 2019 i jakie mogą być prawdopodobne pytania podczas rozmowy kwalifikacyjnej Apache PIG. Każda rozmowa kwalifikacyjna Apache PIG jest inna, a zakres zadania również inny. Mając to na uwadze, opracowaliśmy najczęstsze pytania i odpowiedzi podczas wywiadu Apache PIG, aby pomóc Ci odnieść sukces w wywiadzie Apache PIG.

Poniżej znajduje się lista najczęściej zadawanych pytań podczas wywiadu Apig PIG Interview 2019

1. Jakie są kluczowe różnice między MapReduce a Apache Pig?

Odpowiedź:
Oto kluczowe różnice między Apache Pig i MapReduce, dzięki którym Apache Pig pojawił się na zdjęciu:
• MapReduce to niskopoziomowy model przetwarzania danych, podczas gdy Apache Pig jest platformą przepływu danych wysokiego poziomu
• Bez pisania złożonych implementacji Java w MapReduce, programiści mogą łatwo osiągnąć te same implementacje przy użyciu Pig Latin.
• Apache Pig zapewnia zagnieżdżone typy danych, takie jak torby, krotki i mapy, ponieważ brakuje ich w MapReduce.
• Pig obsługuje operacje danych, takie jak filtry, łączenia, porządkowanie, sortowanie itp. Za pomocą wielu wbudowanych operatorów. Natomiast wykonywanie tej samej funkcji w MapReduce jest ogromnym zadaniem.

2. Wyjaśnij zastosowania MapReduce w Pig.

Odpowiedź:
Programy Apache Pig są napisane w języku zapytań znanym jako Pig Latin, który jest podobny do języka zapytań SQL. Aby wykonać zapytanie, potrzebny jest silnik wykonawczy. Silnik Pig konwertuje zapytania na zadania MapReduce, dlatego MapReduce działa jako silnik wykonawczy i jest potrzebny do uruchomienia programów.

3. Wyjaśnij zastosowania Pig.

Odpowiedź:
Możemy używać Świni w trzech kategoriach, są to:
• Potok danych ETL: Pomaga zapełnić naszą hurtownię danych. Pig może potokować dane do zewnętrznej aplikacji, poczeka do zakończenia, aby otrzymać przetworzone dane i będzie kontynuował od tego momentu. Jest to najczęstszy przypadek użycia Pig.
• Badania surowych danych.
• Przetwarzanie iteracyjne.

4. Porównaj Apache Pig i SQL.

Odpowiedź:
• Apache Pig różni się od SQL pod względem wykorzystania do ETL, leniwej oceny, przechowywania danych w dowolnym momencie w potoku, obsługi podziałów potoku i jawnej deklaracji planów wykonania. SQL (język zapytań strukturalnych) jest zorientowany na zapytania, które dają pojedynczy wynik. SQL nie ma wbudowanego mechanizmu dzielenia strumienia przetwarzania danych i stosowania różnych operatorów do każdego podstrumienia.
• Apache Pig pozwala na dołączenie kodu użytkownika w dowolnym punkcie potoku, natomiast jeśli SQL, gdzie należy użyć danych, musi zostać najpierw zaimportowany do bazy danych, a następnie rozpoczyna się proces czyszczenia i transformacji.

5. Wyjaśnij różne złożone typy danych w Pig.

Odpowiedź:
Apache Pig obsługuje trzy złożone typy danych
• Mapy - są to kluczowe sklepy wartości połączone razem za pomocą #.
Przykład: („miasto” # „pune”, „pin” # 411045) • Krotki - podobnie jak w wierszu w tabeli, gdzie różne elementy są oddzielone przecinkiem. Krotki mogą mieć wiele atrybutów.
• Torby - nieuporządkowana kolekcja krotek. Torba pozwala na wiele zduplikowanych krotek.
Przykład: ((„Mumbai”, 022), („New Delhi”, 011), („Kolkata”, 44))

6. Wyjaśnij różne modele wykonania dostępne w Pig.

Odpowiedź:
Są to trzy różne tryby wykonywania dostępne w Pig,
• Tryb interaktywny lub tryb Grunt.
Tryb interaktywny lub tryb pomruku: Interaktywna powłoka Pig jest znana jako skorupa pomruku. Jeśli nie zostanie określony żaden plik do uruchomienia w Pig, uruchomi się.
• Tryb wsadowy lub tryb skryptu.
Pig wykonuje określone polecenia w pliku skryptu.
• Tryb osadzony
Możemy osadzać programy Pig w Javie i możemy uruchamiać programy z Java.

7. Wyjaśnij plany wykonania (plan logiczny i fizyczny) skryptu świni

Odpowiedź:
Plany logiczne i fizyczne są tworzone podczas wykonywania skryptu świni. Skrypty świni są oparte na sprawdzaniu interpretera. Plan logiczny jest tworzony przez sprawdzanie semantyczne i podstawowe analizowanie, a przetwarzanie danych nie odbywa się podczas tworzenia planu logicznego. Dla każdej linii w skrypcie Pig sprawdzanie składni jest wykonywane dla operatorów i tworzony jest plan logiczny. Ilekroć w skrypcie wystąpi błąd, zgłaszany jest wyjątek i kończy się wykonywanie programu, w przeciwnym razie każda instrukcja w skrypcie ma swój własny logiczny plan.
Plan logiczny zawiera kolekcję operatorów w skrypcie, ale nie zawiera krawędzi między operatorami.
Po wygenerowaniu planu logicznego wykonanie skryptu przechodzi do planu fizycznego, w którym znajduje się opis operatorów fizycznych, których będzie używać Apache Pig, do wykonania skryptu Pig. Plan fizyczny przypomina mniej więcej szereg zadań MapReduce, ale wtedy plan nie zawiera żadnych odniesień do tego, jak zostanie wykonany w MapReduce. Podczas tworzenia planu fizycznego operator logiczny grupy dyskusyjnej jest konwertowany na 3 operatory fizyczne, a mianowicie –Rozmieszczenie lokalne, Przegrupowanie globalne i Pakiet. Funkcje ładowania i przechowywania zwykle są rozwiązywane w planie fizycznym.

8. Jakie narzędzia debugowania są używane w skryptach Apache Pig?

Odpowiedź:
Opisz i wyjaśnij to ważne narzędzia do debugowania w Apache Pig.
• Narzędzie wyjaśniania jest przydatne dla programistów Hadoop podczas próby debugowania błędów lub optymalizacji skryptów PigLatin. Wyjaśnienie można zastosować do określonego aliasu w skrypcie lub można zastosować do całego skryptu w interaktywnej powłoce gruntu. Narzędzie wyjaśniania tworzy kilka wykresów w formacie tekstowym, które można wydrukować do pliku.
• Narzędzie opisujące debugowanie jest pomocne dla programistów podczas pisania skryptów Pig, ponieważ pokazuje schemat relacji w skrypcie. Początkujący, którzy próbują nauczyć się Apache Pig, mogą skorzystać z narzędzia opisowego, aby zrozumieć, w jaki sposób każdy operator wprowadza zmiany w danych. Skrypt świni może mieć wiele opisów.

9. Jakie są przypadki użycia świni Apache, o których możesz pomyśleć?

Odpowiedź:
• Narzędzie Big Data Apache Pig jest używane w szczególności do iteracyjnego przetwarzania, badań surowych danych i tradycyjnych potoków danych ETL. Ponieważ Pig może działać w okolicznościach, w których schemat nie jest znany, niespójny lub niekompletny - jest szeroko stosowany przez badaczy, którzy chcą wykorzystać dane przed ich wyczyszczeniem i załadowaniem do hurtowni danych.
• Na przykład w celu zbudowania modeli prognozowania zachowania może być wykorzystywany przez stronę internetową do śledzenia reakcji odwiedzających na różnego rodzaju reklamy, obrazy, artykuły itp.

10. Podkreśl różnicę między operatorami grup i grup w Pig.

Odpowiedź:
Obaj operatorzy mogą pracować z jedną lub kilkoma relacjami. Operatorzy grupy i grupy są identyczni. Operator grupy zbiera wszystkie rekordy za pomocą tego samego klucza. Cogroup jest kombinacją grupy i łączenia, jest uogólnieniem grupy zamiast gromadzenia rekordów jednego wejścia zależy od klucza, zbiera zapisy n danych wejściowych na podstawie klucza. Jednocześnie możemy Cogroup do 127 relacji.

Polecane artykuły

Jest to przewodnik po liście pytań i odpowiedzi w rozmowie Apig PIG podczas wywiadu, dzięki czemu kandydat może łatwo przełamać te pytania podczas wywiadu Apache PIG. Ten artykuł zawiera wszystkie przydatne pytania i odpowiedzi na wywiad Apig PIG podczas wywiadu. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Świnia Apache kontra rój Apache
  2. 10 najważniejszych trudnych pytań do wywiadu
  3. 8 skutecznych kroków do przygotowania się do wywiadu wewnętrznego
  4. Ważne wskazówki dotyczące przetrwania wywiadu panelowego (przydatne)