Wprowadzenie do narzędzi Hadoop

Narzędzia Hadoop to środowisko służące do przetwarzania dużej ilości danych. Te dane są dystrybuowane w klastrze i przetwarzanie rozproszone jest wykonywane. Dane są przechowywane w blokach o wielkości 128 Mb i do przetworzenia i uzyskania mocy wynikowej Map Reduce jest używana. Tradycyjnie Map and Reduce pisano w Javie, ale ciężko było przekroczyć umiejętności zasobów pracujących w hurtowni danych, ponieważ nie mieli w tym doświadczenia. SQL jest dobrze znany i łatwy w użyciu, więc znajdując sposób na napisanie SQL, takiego jak zapytanie, które jest konwertowane na Map and Reduce, zostało założone przez Facebook, a później przekazane Apache, to narzędzie jest znane jako Hive. Yahoo wymyśliło również narzędzie o nazwie Pig, które podczas wykonywania jest konwertowane na Map Reduce, podobnie mamy Sqoop i flume do przenoszenia danych i narzędzi do wstrzykiwania. HBase to narzędzie do zarządzania bazą danych.

Funkcje narzędzi Hadoop

  1. Ul
  2. Świnia
  3. Sqoop
  4. HBase
  5. Zookeeper
  6. Flume

Teraz zobaczymy funkcje z krótkim wyjaśnieniem.

1. Rój

Apache Hive został założony przez Facebooka, a później przekazany fundacji Apache, która jest infrastrukturą hurtowni danych, ułatwia pisanie zapytań SQL takich jak HQL lub HiveQL. Te zapytania są wewnętrznie konwertowane na zadania Map Reduce, a przetwarzanie odbywa się przy użyciu przetwarzania rozproszonego Hadoop. Może przetwarzać dane znajdujące się w HDFS, S3 i całej pamięci kompatybilnej z Hadoop. Możemy wykorzystać udogodnienia oferowane przez Map Reduce, gdy tylko znajdziemy coś trudnego do zaimplementowania w Hive, poprzez wdrożenie funkcji zdefiniowanych przez użytkownika. Pozwala użytkownikowi zarejestrować UDF i używać go w zadaniach.

Funkcje ula

  • Hive może przetwarzać wiele rodzajów formatów plików, takich jak plik sekwencji, plik ORC, plik tekstowy itp.
  • Partycjonowanie, segmentowanie i indeksowanie są dostępne dla szybszego wykonania.
  • Skompresowane dane można również załadować do tabeli gałęzi.
  • Tabele zarządzane lub wewnętrzne i tabele zewnętrzne to najważniejsze cechy programu Hive.

2. Świnia

Yahoo opracowało świnkę Apache, aby mieć dodatkowe narzędzie do wzmocnienia Hadoop poprzez doraźny sposób implementacji Map Reduce. Pig ma silnik o nazwie Pig Engine, który konwertuje skrypty na Map Reduce. Pig jest językiem skryptowym, skrypty napisane dla Pig są w PigLatin, podobnie jak Hive tutaj, możemy również mieć UDF w celu zwiększenia funkcjonalności. Zadania w Pig są optymalizowane automatycznie, więc programiści nie muszą się tym martwić. Pig Obsługuje zarówno dane ustrukturyzowane, jak i nieustrukturyzowane.

Funkcje świni

  • Użytkownicy mogą mieć własne funkcje do specjalnego przetwarzania danych.
  • Łatwo jest pisać kody w Pig, a także długość kodu jest mniejsza.
  • System może automatycznie zoptymalizować wykonanie.

3. Sqoop

Sqoop służy do przesyłania danych z HDFS do RDBMS i odwrotnie. Możemy pobierać dane do HDFS z RDBMS, Hive itp. Oraz możemy przetwarzać i eksportować je z powrotem do RDBMS. Możemy dodawać dane wiele razy w tabeli, a także możemy utworzyć zadanie Sqoop i wykonać je „n” wiele razy.

Funkcje Sqoop

  • Sqoop może importować wszystkie tabele jednocześnie do HDFS.
  • Możemy osadzać zapytania SQL, a także warunki importu danych.
  • Możemy zaimportować dane do gałęzi, jeśli tabela jest dostępna z HDFS.
  • Liczba programów odwzorowujących może być kontrolowana, tzn. Równoległe wykonywanie może być kontrolowane poprzez określenie liczby elementów odwzorowujących.

4. HBase

System zarządzania bazą danych na HDFS nazywa się HBase. HBase to baza danych NoSQL opracowana na bazie HDFS. HBase nie jest relacyjną bazą danych, nie obsługuje strukturalnych języków zapytań. HBase wykorzystuje rozproszone przetwarzanie HDFS. Może mieć duże tabele z milionami rekordów.

Funkcje HBase

  • HBase zapewnia skalowalność zarówno liniową, jak i modułową.
  • Interfejsy API w JAVA mogą być używane do dostępu klienta.
  • HBase zapewnia powłokę do wykonywania zapytań.

5. Zookeeper

Apache Zookeeper to scentralizowana usługa utrzymywania konfiguracji, prowadzi rejestr informacji, nazewnictwa, zapewnia również rozproszoną synchronizację i usługi grupowe. Zookeeper to scentralizowane repozytorium, które jest wykorzystywane przez rozproszone aplikacje do umieszczania i pobierania danych z niego. Pomaga również w zarządzaniu węzłami, tj. Dołączaniu lub opuszczaniu węzła w klastrze. Zapewnia bardzo niezawodny rejestr danych, gdy kilka węzłów nie działa.

Funkcje Zookeeper

  • Wydajność można zwiększyć, rozdzielając zadania, które są osiągane przez dodanie większej liczby maszyn.
  • Ukrywa złożoność dystrybucji i przedstawia się jako pojedyncza maszyna.
  • Awaria kilku systemów nie wpływa na cały system, ale wadą może być częściowa utrata danych.
  • Zapewnia atomowość, tzn. Transakcja jest udana lub nieudana, ale nie w stanie niedoskonałym.

6. Flume

Apache Flume to narzędzie, które zapewnia przyjmowanie danych, które może gromadzić, agregować i transportować ogromną ilość danych z różnych źródeł do HDFS, HBase itp. Flume jest bardzo niezawodny i można go konfigurować. Został zaprojektowany do pobierania danych przesyłanych strumieniowo z serwera WWW lub danych zdarzeń do HDFS, np. Może pobierać dane z Twittera do HDFS. Flume może przechowywać dane w dowolnym scentralizowanym magazynie danych, takim jak HBase / HDFS. Jeśli występuje sytuacja, w której wytwarzanie danych ma większą szybkość w porównaniu do prędkości danych, którą można zapisać, flume działa jako mediator i zapewnia stały przepływ danych.

Funkcje Flume

  • Może pobierać dane z serwerów sieciowych wraz z danymi zdarzeń, takimi jak dane z mediów społecznościowych.
  • Transakcje flume są oparte na kanale, tzn. Utrzymywane są dwie wiadomości, jedna do wysyłania, a druga do odbierania.
  • Skalowanie w poziomie jest możliwe w rynience.
  • Jest wysoce tolerancyjny, ponieważ routing kontekstowy występuje w kanale.

Wniosek - narzędzia Hadoop

W tym artykule dowiedzieliśmy się o kilku narzędziach Hadoop i ich przydatności w świecie danych. Widzieliśmy Hive i Pig, które są używane do wysyłania zapytań i analizowania danych, sqoop do przenoszenia danych i flume do pobierania danych strumieniowych do HDFS.

Polecane artykuły

To był przewodnik po narzędziach Hadoop. Tutaj omawiamy różne Narzędzia Hadoop z ich funkcjami. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Alternatywy Hadoop
  2. Baza danych Hadoop
  3. Funkcje ciągów SQL
  4. Co to jest Big Data

Kategoria: