Co to jest MapReduce w Hadoop
MapReduce to platforma Hadoop, która służy do niezawodnego przetwarzania równoległych ogromnych ilości danych na dużych klastrach sprzętu. Hadoop to projekt typu open source zapewniany przez fundację oprogramowania Apache. Hadoop przeprowadzał analizy w szybki i niezawodny sposób zarówno dla danych ustrukturyzowanych, jak i nieustrukturyzowanych. Hadoop może obsługiwać bardzo duże zestawy danych, które mogą być zarówno danymi ustrukturyzowanymi, jak i danymi nieustrukturyzowanymi, co w rzeczywistości jest powiązane z dużymi zbiorami danych. Framework Hadoop, który pozwala aplikacji przechowywać dane w formie rozproszonej i przetwarzać duże zestawy danych w klastrach komputerów przy użyciu prostego modelu programowania, czyli Map Reduce, czyli innymi słowy możemy nazwać Map Reduce jako model programowania używany do przetwarzania ogromna ilość danych rozłożona na liczbę klastrów. Hadoop może być skalowany z pojedynczych serwerów do tysięcy węzłów obliczeniowych lub komputerów, z których każdy korzysta do obliczeń i przechowywania.
Projekt Apache Hadoop zawiera wiele podprojektów, takich jak:
- Hadoop Common: Hadoop Common posiada narzędzia, które obsługują inne podprojekty Hadoop.
- Hadoop Distributed File System (HDFS): Hadoop Distributed File System zapewnia dostęp do rozproszonego pliku do danych aplikacji.
- Hadoop MapReduce: Hadoop MapReduce to platforma programowa do przetwarzania dużych rozproszonych zestawów danych w klastrach obliczeniowych.
- Hadoop YARN: Hadoop YARN to platforma do zarządzania zasobami i planowania zadań.
W jaki sposób MapReduce w Hadoop sprawia, że praca jest tak łatwa?
MapReduce ułatwia skalowanie przetwarzania danych na setkach lub tysiącach maszyn klastrowych. Model MapReduce w rzeczywistości działa w dwóch krokach zwanych mapowaniem i redukcją, a przetwarzanie nazywane odpowiednio jako mapper i reduktor. Kiedy piszemy MapReduce dla aplikacji, skalowanie aplikacji do wielu lub nawet wielu tysięcy klastrów jest jedynie zmianą konfiguracji. Ta funkcja modelu MapReduce przyciągnęła wielu programistów.
Jak działa MapReduce w Hadoop?
Program MapReduce wykonuje się głównie w czterech krokach:
- Podziały wejściowe
- Mapa
- Człapać
- Redukować
Teraz zobaczymy każdy krok, jak działają.
1. Krok mapy
Ten krok jest kombinacją kroku podziału wejściowego i kroku Mapa. W kroku Mapa plik źródłowy jest przekazywany wiersz po wierszu. Przed przekazaniem danych wejściowych do zadania funkcji mapy dane wejściowe są dzielone na mały stały rozmiar o nazwie Podziały wejściowe. Podział danych wejściowych to fragment danych wejściowych, które mogą zostać zużyte przez pojedynczą mapę. W kroku Mapa każde podzielone dane są przekazywane do funkcji mapowania, a następnie funkcja mapowania przetwarza dane, a następnie wartości wyjściowe. Zasadniczo dane wejściowe zadania mapowania lub mapera mają postać pliku lub katalogu przechowywanego w systemie plików Hadoop (HDFS).
2. Zmniejsz krok
Ten krok jest kombinacją kroku Przetasuj i Zmniejszenia. Funkcja redukcji lub zadanie reduktora pobiera dane, które są wynikiem funkcji mapy. Po przetworzeniu przez redukcję funkcji powstaje nowy zestaw wyników, który ponownie zapisuje się w HDFS.
W ramach platformy Hadoop nie jest pewne, czy każdy klaster wykonuje zadanie Mapuj lub Zmniejsz albo Mapuj i Zmniejsz. Tak więc żądanie zadań Map and Reduce powinno zostać wysłane na odpowiednie serwery w klastrze. Sama platforma Hadoop zarządza wszystkimi zadaniami wydawania, sprawdzania ukończenia pracy, pobierania danych z HDFS, kopiowania danych do klastra węzłów i tak dalej. W Hadoop głównie przetwarzanie odbywa się na węzłach wraz z danymi w samych węzłach, co zmniejsza ruch w sieci.
Tak więc środowisko MapReduce jest bardzo pomocne w środowisku Hadoop.
Zalety MapReduce
- Skalowalność - MapReduce sprawia, że Hadoop jest wysoce skalowalny, ponieważ umożliwia przechowywanie dużych zestawów danych w formie dystrybucji na wielu serwerach. Ponieważ jest podzielony na wiele, może działać równolegle.
- Opłacalne rozwiązanie - MapReduce zapewnia bardzo opłacalne rozwiązanie dla firm, które muszą przechowywać rosnące dane i przetwarzać je w bardzo opłacalny sposób, co jest dzisiejszą potrzebą biznesową.
- Elastyczność - MapReduce sprawia, że Hadoop jest bardzo elastyczny dla różnych źródeł danych, a nawet dla różnych typów danych, takich jak dane ustrukturyzowane lub nieustrukturyzowane. Dzięki temu bardzo elastyczny jest dostęp do danych ustrukturyzowanych lub nieustrukturyzowanych i ich przetwarzanie.
- Szybko - jako pamięć masowa Hadoop w rozproszonym systemie plików, dzięki której przechowywanie danych na dysku lokalnym klastra i programów MapReduce jest również zasadniczo zlokalizowane na tych samych serwerach, co pozwala na szybsze przetwarzanie danych bez potrzeby uzyskiwania dostępu dane z innych serwerów.
- Przetwarzanie równoległe - Ponieważ dane magazynu Hadoop w rozproszonym systemie plików i działanie programu MapReduce są takie, że dzieli mapę zadań zadań i zmniejsza, i które mogą być wykonywane równolegle. Ponownie z powodu równoległego wykonywania skraca cały czas działania.
Umiejętności
Wymagane umiejętności dla MapReduce w Hadoop to dobra znajomość programowania Java (obowiązkowa), system operacyjny Linux i znajomość zapytań SQL.
Zakres MapReduce w Hadoop
MapReduce w Hadoop jest szybko rozwijającym się polem, ponieważ pole dużych danych rośnie, więc zakres MapReduce w Hadoop jest bardzo obiecujący w przyszłości, ponieważ ilość ustrukturyzowanych i nieustrukturyzowanych danych rośnie wykładniczo z dnia na dzień. Platformy mediów społecznościowych generują wiele nieuporządkowanych danych, które można wydobywać, aby uzyskać prawdziwy wgląd w różne domeny.
Wniosek
- MapReduce to platforma Hadoop, która służy do niezawodnego przetwarzania równoległych ogromnych ilości danych na dużych klastrach sprzętu.
- Projekt Apache Hadoop zawiera wiele podprojektów, takich jak Hadoop Common, Hadoop Distributed File System (HDFS), Hadoop MapReduce, Hadoop YARN.
- W kroku mapowania każde podzielone dane są przekazywane do funkcji mapowania, a następnie funkcja mapowania przetwarza dane, a następnie wartości wyjściowe.
- Funkcja redukcji lub zadanie reduktora pobiera dane, które są wynikiem funkcji mapy.
- Zalety MapReduce wymienione jako Skalowalność, Ekonomiczne rozwiązanie, Elastyczność, Szybkość, Przetwarzanie równoległe.
Polecane artykuły
To był przewodnik po czym jest MapReduce w Hadoop. Tutaj omawialiśmy Składniki, Praca, Umiejętności, Rozwój kariery i Zalety MapReduce w Hadoop. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej
- Co to jest algorytm?
- Różnice między Hadoop a MapReduce
- Co to jest Azure?
- Co to jest technologia Big Data?
- Jak działa MapReduce