Wprowadzenie do MapReduce Wywiad Pytania i odpowiedzi

MapReduce to prosty model programowania danych równoległych zaprojektowany pod kątem skalowalności i odporności na uszkodzenia. Można powiedzieć, że MapReduce jest strukturą, która wykorzystuje koncepcję węzłów, aby zrównoważyć problemy występujące w dużych zestawach danych, jeśli są siecią lokalną, używa tego samego sprzętu, a jeśli MapReduce jest rozproszona geograficznie, używa odpowiednio innego sprzętu. MapReduce składa się zasadniczo z funkcji Map () i funkcji Reduce (). Stało się popularne dzięki projektowi Hadoop typu open source.

Poniżej znajduje się 9 ważnych pytań i odpowiedzi do wywiadu MapReduce z 2019 r .:

Jeśli szukasz pracy związanej z MapReduce, musisz przygotować się na pytania do rozmowy kwalifikacyjnej MapReduce 2019. Chociaż każda rozmowa MapReduce jest inna, a zakres pracy jest inny, możemy pomóc Ci w odpowiedzi na najważniejsze pytania dotyczące rozmowy kwalifikacyjnej MapReduce z odpowiedziami, które pomogą ci zrobić krok naprzód i odnieść sukces w rozmowie kwalifikacyjnej.

Te pytania są podzielone na dwie części:

Część 1 - pytania do wywiadu MapReduce (podstawowe)

Ta pierwsza część obejmuje podstawowe pytania i odpowiedzi do wywiadu MapReduce.

1. Co to jest MapReduce?

Odpowiedź:
MapReduce to prosty model programowania danych równoległych zaprojektowany pod kątem skalowalności i odporności na uszkodzenia. Innymi słowy, jest to struktura, która przetwarza problemy równoległe w dużych zestawach danych, wykorzystując koncepcję węzłów (liczby komputerów), które z kolei są klasyfikowane jako klastry, jeśli jest to sieć lokalna i używa tego samego sprzętu lub siatek, jeśli są rozproszone geograficznie i używają innego sprzętu. MapReduce składa się zasadniczo z funkcji Map () i funkcji Reduce (). Jest pionierem Google i przetwarza codziennie wiele petabajtów danych. Został upowszechniony przez projekt Hadoop typu open source i jest używany w Yahoo, Facebook i Amazon, aby wymienić tylko kilka.

2. W jakim celu firma MapReduce stosuje firmę?

Odpowiedź:
Google
• Budowa indeksu dla wyszukiwarki Google
Proces konstruowania indeksu pozycyjnego lub niepozycjonalnego nazywa się budowaniem indeksu lub indeksowaniem. Rolą MapReduce jest Index Construction i jest przeznaczony dla dużych klastrów komputerowych. Celem klastra jest rozwiązywanie problemów obliczeniowych dla węzłów lub komputerów zbudowanych ze standardowych części zamiast superkomputera.
• Grupowanie artykułów w Google News
W przypadku grupowania artykułów strony są najpierw klasyfikowane według tego, czy są potrzebne do grupowania. Strony zawierają wiele informacji, które nie są potrzebne do tworzenia klastrów. Następnie artykuł jest wprowadzany do postaci wektorowej na podstawie słów kluczowych i wagi. Następnie są grupowane za pomocą algorytmów.
• Statystyczne tłumaczenie maszynowe
Tłumaczenie dwujęzycznych korpusów tekstowych przez analizę generuje modele statystyczne, które tłumaczą jeden język na inny przy użyciu wag i jest redukowane do najbardziej prawdopodobnego tłumaczenia.
Wieśniak
• „Mapa sieci” zasilająca Yahoo! Szukaj
Podobnie jak w przypadku grupowania artykułów w Google News, MapReduce służy do grupowania wyników wyszukiwania w Yahoo! Platforma.
• Wykrywanie spamu dla Yahoo! Poczta
Facebook
• Data Mining
Niedawny trend eksplozji danych spowodował potrzebę opracowania wyrafinowanych metod dzielenia danych na części, które można łatwo wykorzystać w kolejnym etapie analizy.
• d Optymalizacja
• Wykrywanie spamu

Przejdźmy do następnych pytań do wywiadu MapReduce.

3. Jakie są cele projektowe MapReduce

Odpowiedź:
Skalowalność do dużych woluminów danych
Ponieważ MapReduce jest strukturą, która ma na celu pracę z równoległymi danymi przy użyciu koncepcji węzłów, które są liczbą komputerów jako klastrów lub siatek, jest skalowalne do n liczby komputerów. Jednym z głównych celów projektowych MapReduce jest skalowalność do 1000 komputerów, a więc 10 000 dysków.
Efektywność kosztowa
Ponieważ MapReduce działa z równoległymi danymi w węzłach lub liczbie komputerów, następujące powody sprawiają, że jest to opłacalne:
-Cheap maszyny towarowe zamiast superkomputera. Choć tanie, są niewiarygodne.
-Comity Network
-Automatyczna odporność na uszkodzenia, tzn. Wymagana jest mniejsza liczba administratorów.
- Jest łatwy w użyciu, tzn. Wymaga mniejszej liczby programistów.

4. Jakie są wyzwania MapReduce?

Odpowiedź:
Jest to typowe pytanie zadawane podczas wywiadu MapReduce. Główne wyzwania MapReduce są następujące:
-Złożenie węzłów nie powiedzie się, szczególnie jeśli masz ich wiele
Średni czas między awariami dla 1 węzła wynosi 3 lata. Średni czas między awariami dla 1000 węzłów wynosi 1 dzień. Rozwiązaniem jest wbudowanie odporności na uszkodzenia w samym systemie.
- Sieć lokalna jest równa lub implikuje niską przepustowość
Rozwiązaniem dla niskiej przepustowości jest wypychanie obliczeń do danych.
-Programowanie systemów rozproszonych jest trudne
Rozwiązaniem tego jest to, że zgodnie z modelem programowania równoległego danych użytkownicy piszą funkcje „mapuj” i „zmniejszaj”. System dystrybuuje pracę i obsługuje usterki.

5. Czym jest model programowania MapReduce?

Odpowiedź:
Model programowania MapReduce opiera się na koncepcji zwanej rekordami klucz-wartość. Zapewnia również paradygmaty równoległego przetwarzania danych. Aby przetwarzać dane w MapReduce, zarówno dane wejściowe, jak i wyjściowe muszą być odwzorowane na format wielu par klucz-wartość. Pojedyncza para klucz-wartość jest również nazywana rekordem. Model programowania MapReduce składa się z funkcji Map () i funkcji Reduce. Ich model jest następujący.
Funkcja Map (): (K in, V in) list (K inter, V inter)
Funkcja zmniejszania (): (K inter, list (V inter)) list (K out, V out)

Część 2 - pytania do wywiadu MapReduce (zaawansowane)

Rzućmy teraz okiem na zaawansowane pytania do wywiadu MapReduce.

6. Jakie są szczegóły wykonania MapReduce?

Odpowiedź:
W przypadku wykonania MapReduce, jeden master kontroluje wykonanie zadania na wielu slaveach. Preferowane są programy odwzorowujące umieszczone w tym samym węźle lub tym samym stojaku co ich blok wejściowy, aby zminimalizować zużycie sieci. Ponadto twórcy map zapisują dane wyjściowe na dysku lokalnym przed podaniem ich do reduktorów. Umożliwia to odzyskiwanie, jeśli reduktor ulegnie awarii i pozwoli na użycie większej liczby reduktorów niż węzłów.

7. Co to jest kombinator?

Odpowiedź:
Kombinator, znany również jako pół-reduktor, działa poprzez przyjmowanie danych wejściowych z klasy Map i przekazywanie wyjściowych par klucz-wartość do klasy Reducer. Główną funkcją łącznika jest sumowanie rekordów danych wyjściowych mapy za pomocą tego samego klucza. Innymi słowy, sumator to lokalna funkcja agregująca dla powtarzających się kluczy wytwarzanych przez tę samą mapę. Działa dla funkcji asocjacyjnych, takich jak SUMA, LICZBA i MAKS. Zmniejsza rozmiar danych pośrednich, ponieważ jest to podsumowanie agregacji wartości dla wszystkich powtarzających się kluczy.

Przejdźmy do następnych pytań do wywiadu MapReduce.

8. dlaczego świnia Dlaczego nie MapReduce?

Odpowiedź:
• MapReduce pozwala programiście wykonać funkcję mapy, a następnie funkcję redukcji, ale praca nad dopasowaniem przetwarzania danych do tego wzorca, który często wymaga wielu etapów MapReduce, może być wyzwaniem.
• Dzięki Pigowi struktury danych są znacznie bogatsze, ponieważ są wielowartościowe i zagnieżdżone, a zestaw transformacji, które można zastosować do danych, jest znacznie potężniejszy. Na przykład obejmują połączenia, które nie są możliwe w MapReduce.
• Ponadto Pig to jeden program, który przekształca transformację w serię MapReduce Jobs.

9.MapReduce Criticism

Odpowiedź:
Jedną z głównych krytyków MapReduce jest to, że cykl rozwoju jest bardzo długi. Pisanie maperów i reduktorów, kompilowanie i pakowanie kodu, przesyłanie zadania i wyszukiwanie wyników jest czasochłonne. Nawet w przypadku przesyłania strumieniowego, które usuwa etap kompilacji i pakietu, doświadczenie wciąż trwa długo.

Polecany artykuł

Jest to przewodnik po Liście pytań i odpowiedzi podczas rozmowy MapReduce, aby kandydat mógł łatwo przełamać te pytania podczas rozmowy MapReduce. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. Ważne pytania dotyczące wywiadu dotyczącego analizy danych
  2. 10 pytań do wywiadu na temat najlepszego projektu
  3. Pytania do wywiadu Elasticsearch
  4. Najbardziej przydatne pytania dotyczące wywiadu rubinowego
  5. Jak działa MapReduce