Wprowadzenie do alternatywnych gałęzi

Zanim omówimy alternatywy HIVE. Najpierw zrozummy, co to jest HIVE? HIVE jest więc w zasadzie narzędziem do hurtowni danych opracowanym na bazie HDFS (Hadoop Distributed File System). Służy do przekazywania interfejsu zapytań podobnego do SQL do wyszukiwania danych przechowywanych w różnych plikach zintegrowanych z Hadoop. Konwertuje zapytania podobne do SQL na zadania Map Reduce, które pomagają w łatwym wykonywaniu dużych ilości danych.

cechy

Poniżej znajdują się niektóre funkcje Hive:

  • Podobnie jak SQL, ma swój własny deklaratywny język o nazwie HiveQL.
  • Ma strukturę tabel podobną do tabel w relacyjnej bazie danych, a także zapewnia obsługę ETL (ekstrakcja / obsługa / ładowanie).
  • Ciekawą funkcją jest to, że pozwala na konwersję formatu z poziomu HIVE.

Ograniczenie alternatywnych gałęzi

Poznajmy kilka ograniczeń gałęzi:

  • Nie jest przeznaczony do OLTP (Online Transaction Processing), ale obsługuje OLAP (Online Analytical Processing).
  • Jednym ważnym ograniczeniem jest to, że nie obsługuje aktualizacji i usuwa.
  • W gałęzi podkwerendy również nie są obsługiwane.

5 ważnych alternatywnych gałęzi

Poniżej omówimy pięć ważnych alternatyw HIVE obecnych na rynku:

1. Apache Impala

Jest to silnik zapytań SQL równoległego przetwarzania równoległego open source dla danych przechowywanych w klastrze komputerowym z uruchomionym Apache Hadoop. Zostało ogłoszone w październiku 2012 roku. Poniżej przedstawiamy najważniejsze cechy Apache Impala jako alternatywy dla HIVE.

  • Impala to dobry wybór dla osób uruchamiających zapytania SQL na Hadoop i Apache HBase bez transformacji danych, ponieważ nie jest to wymagane do transformacji lub przenoszenia danych, w przeciwieństwie do HIVE.
  • Kolejną różnicą między tymi dwoma jest generowanie wyrażeń zapytań. Impala generuje je w czasie wykonywania przy użyciu llvm, podczas gdy HIVE generuje je w czasie kompilacji.
  • Hive Queries ma problem z zimnym startem, co nie ma miejsca w przypadku zapytań Impala, ponieważ w demonach Impala procesy są uruchamiane w czasie rozruchu, zawsze są gotowe do przetworzenia zapytania, dzięki czemu unika problemu zimnego startu.
  • Impala rozpoznaje formaty plików Hadoop, zabezpieczenia Hadoop, sterownik ODBC.
  • Głównym USP impala jest brutalna siła równoległego przetwarzania. Tak więc Impala jest lepszą alternatywą, jeśli zaczynasz nowy projekt.

2. Presto DB

Presto to kolejna alternatywa dla HIVE opracowana przez Facebook. Jego USP pozwala nawet wyszukiwać dane z wielu źródeł w ramach jednego zapytania. Poniżej znajdują się najważniejsze funkcje PrestoDB jako alternatywy dla HIVE.

  • Presto to rozproszony silnik zapytań SQL, który jest również bardzo szybki, ponieważ silnik zapytań Presto jest szybki i dobrze nadaje się do analizy interaktywnej.
  • USP dla Presto w porównaniu z innymi to model plug and play z różnymi źródłami danych. Dzięki temu modelowi plug and play łączenie zapytań z różnych źródeł danych jest bardzo łatwe dzięki presto.
  • W Presto małe tabele łączenia zostały wykonane szybciej. Presto przoduje w większości innych rozproszonych mechanizmów zapytań.
  • Presto nie nadaje się do łączenia dużych faktów, ponieważ nie wykorzystuje dysku i nie wykorzystuje pamięci do przetwarzania.
  • Jeszcze jednym ważnym punktem dla presto jest alokacja zasobów. Ma przydział zasobów oparty na kolejce priorytetowej.
  • Jednym z kompromisów dla dobrej wydajności w Presto jest to, że obsługa UDF nie jest dostępna w wersji presto, dzięki czemu należy napisać własną funkcję, która zwiększa obciążenie, ponieważ musi być budowana wyłącznie dla wersji presto i utrudnia interoperacyjność.

3. Spark SQL

Jest to moduł do ustrukturyzowanego przetwarzania danych, a także oprogramowania typu open source. Może także działać jako rozproszony silnik zapytań SQL, a także jedną jego unikalną częścią jest to, że zapewnia abstrakcję programowania znaną jako ramki danych. Został wydany po raz pierwszy w 2014 roku opracowany przez Apache Software Foundation. Poniżej znajdują się niektóre z najważniejszych funkcji Spark SQL jako alternatywy dla HIVE.

  • Zaletą Spark SQL jest to, że można go zaimplementować w języku Java, Scala, Python i R, natomiast HIVE można zaimplementować w języku Java.
  • Istnieje całkowite podobieństwo w podstawowym modelu bazy danych między HIVE i Spark, ponieważ dla obu podstawowych modeli baz danych jest relacyjny DBMS.
  • Jest również podobny do HIVE, ponieważ oba obsługują magazyn Key-Value jako dodatkowy model bazy danych.
  • Ma wstępnie zdefiniowane typy danych, takie jak zmiennoprzecinkowe i data.
  • Obsługuje SQL, ponieważ posiada instrukcje DML i DDL.
  • W przeciwieństwie do HIVE, który obsługuje JDBC, ODBC i Thrift, Spark SQL obsługuje tylko JDBC i ODBC.
  • Spark SQL używa Spark Core do przechowywania danych w różnych węzłach.
  • Inną istotną różnicą między Spark i HIVE są metody replikacji: W HIVE istnieje selektywny współczynnik replikacji do przechowywania nadmiarowych danych w wielu węzłach, ale w Spark SQL nie jest dostępny żaden czynnik replikacji.
  • W Spark SQL nie ma praw dostępu dla użytkowników, podczas gdy w Apache Hive mamy prawa dostępu dla użytkowników, grup.
  • Nie obsługuje tabeli transakcyjnej i nie obsługuje typu char.

4. Rekin

Jest to silnik zapytań SQL typu open source napisany w języku Scala. Ciekawym faktem, że Shark zamiast używać Map-Reduce do wykonywania swoich zapytań, używa własnych zestawów węzłów roboczych. Poniżej znajdują się niektóre funkcje Shark:

  • Korzysta z klienta wiersza polecenia.
  • Oferuje współdziałanie z Hive do udostępniania schematów.
  • Zapewnia obsługę istniejących rozszerzeń gałęzi, takich jak UDF.

Nie jest jeszcze bardzo znany, ale stanowi alternatywę dla HIVE.

5. BigSQL firmy IBM

Jest on dostarczany przez Big Blue (IBM). IBM ma własną dystrybucję Hadoop o nazwie Big Insights. W związku z tym oferowany jest Big SQL. Nie jest to oprogramowanie typu open source, ponieważ jest dostarczane przez IBM. Niektóre z oferowanych przez nich rzeczy są następujące:

  • Obsługują zarówno sterowniki JDBC, jak i OJDBC.
  • Zapewniają obsługę SQL
  • Można ich używać do wyszukiwania danych z HDFS.

Polecane artykuły

Jest to przewodnik po alternatywnych gałęziach. Tutaj omawiamy funkcje, ograniczenia i 5 ważnych alternatywnych gałęzi. Możesz również przejrzeć nasze inne powiązane artykuły, aby dowiedzieć się więcej-

  1. Alternatywy Hadoop
  2. Alternatywy w Tableau
  3. Alternatywy Google Analytics
  4. Przesyłanie strumieniowe Hadoop
  5. Hive Order By
  6. Instalacja ula
  7. Ramki danych w R.

Kategoria: