Jak zainstalować Hive?

Apache Hadoop to zbiór frameworka, który pozwala na przetwarzanie dużych danych rozproszonych w klastrze. Zgodnie z Apache Hive to projekt oprogramowania do hurtowni danych zbudowany na Apache Hadoop do dostarczania zapytań i analiz danych. Rój Apache zapewnia interfejs podobny do SQL do wysyłania zapytań i przetwarzania dużej ilości danych o nazwie HQL (język zapytań Hive). Rój Apache działa na ekosystemie Hadoop, a dane przechowywane w postaci plików oznaczają rozproszony system plików Hadoop (HDFS). Apache Hive zapewnia świetny interfejs dla użytkownika, aby uzyskać dostęp do danych i wykonywać operacje na nich w postaci tabeli, zapewnia doskonałą technikę optymalizacji w celu poprawy wydajności. Sprawienie, by zapytanie było szybsze z użyciem dużych zbiorów danych, jest bardzo trudne i uwierzcie mi, że ma to znaczenie w środowisku produkcyjnym.

W backendie kompilator konwertuje zapytania HQL na zadania redukcji map, a następnie przesyła je do środowiska Hadoop w celu wykonania.

Różnica między gałęzią a SQL

Apache Hive jest bardzo podobny do SQL, ale ponieważ wiemy, że gałąź działa na ekosystemie Hadoop i wewnętrznie konwertuje zadania na MR (Map Reduce jobs), robi to różnicę między Hive i SQL.

Hive nie byłby najlepszym podejściem do tych aplikacji, w których wymagana jest bardzo szybka reakcja i bardzo ważne jest, aby zrozumieć, że Hive lepiej nadaje się do przetwarzania wsadowego na bardzo dużych zestawach niezmiennych danych i powinniśmy zauważyć, że Hive jest zwykłym RDBMS i na koniec ale gałęzią apache jest nie tylko schemat odczytu (podczas wstawiania danych do tabeli gałęzi nie będzie przeszkadzał niedopasowaniem typu danych, ale podczas odczytu danych pokaże wartość null, jeśli typ danych nie jest dopasowany do określonego typu danych kolumny).

Wcześniejsze wymagania dotyczące instalacji gałęzi

Jak powiedziałem wcześniej, bardzo ważne jest, aby zrozumieć, że gałąź Apache działa na ekosystemie Hadoop i Hadoop powinien działać z wszystkimi demonami.

Niektóre z podstawowych demonów Hadoop są następujące:

  • Nazwa węzła
  • Węzeł danych
  • Menedżer zasobów
  • Menedżer węzłów

Aby sprawdzić wersję Hadoop poniżej, należy wykonać następujące polecenie:

Wpisz → Wersja Hadoop w wierszu polecenia, otrzymasz wersję Hadoop.

Aby sprawdzić wyzwalacz raportu klastra Hadoop poniżej polecenia:

Wpisz → Hadoop dfsadmin - raport w wierszu polecenia da ci raport całego klastra, jeśli twój serwer jest uruchomiony.

Jeśli Hadoop nie jest zainstalowany na twoim komputerze, prosząc Cię o wykonanie instrukcji Apache, aby zainstalować Hadoop w twoim systemie.

Mam nadzieję, że java została już zainstalowana również w twoim systemie. aby sprawdzić wersję Java, zapoznaj się z poniższym zrzutem ekranu.

Kroki, aby zainstalować Hive na Ubuntu

Poniżej znajdują się kroki, aby zainstalować Hive na Ubuntu:

Krok 1 : Hive tar, który możemy pobrać za pomocą poniższego polecenia w terminalu, który możemy również pobrać bezpośrednio z terminala.

Polecenie: otrzymujemy http://archive.apache.org/dist/hive/hive-2.1.0/apache-hive-2.1.0-bin.tar.gz

Krok 2 : Wyodrębnij plik tar za pomocą polecenia poniżej w terminalu, możemy bezpośrednio wyodrębnić plik tar powyżej pobranego pliku tar gałęzi.

Polecenie: tar -xzf apache-hive-2.1.0-bin.tar.gz

Zasugeruję, abyś zweryfikował za pomocą polecenia ls dotyczące wyodrębnionego pliku gałęzi.

Krok 3: Edytuj plik „ .bashrc ”, aby zaktualizować zmienne środowiskowe dla użytkownika.

Polecenie: sudo .bashrc

Dodaj następujące na końcu pliku:

# Ustaw HIVE_HOME

Wykonaj podane poniżej polecenie, aby dokończyć zmiany w bieżącym terminalu.

Polecenie: source .bashrc

Krok 5 : Musimy utworzyć katalogi Hive w lokalizacji HDFS, a w tym katalogu „magazyn” będzie to miejsce do przechowywania informacji związanych z metadanymi tabeli gałęzi i danych związanych z gałęzią.

Polecenie :

  • hdfs dfs -mkdir -p / user / hive / warehouse
  • hdfs dfs -mkdir / tmp

Krok 6 : Aby ustawić uprawnienia do odczytu i zapisu dla tabeli gałęzi, wykonaj poniższe polecenie.

Komenda:

W poniższym poleceniu, zapewniając uprawnienia do zapisu grupie użytkowników:

  • hdfs dfs -chmod g + w / user / hive / warehouse
  • hdfs dfs -chmod g + w / tmp

Konfigurowanie gałęzi : bardzo ważne jest, aby punkt instalacji gałęzi był skonfigurowany przy użyciu Hadoop. Musimy edytować hive-env.sh, plik umieszczony w katalogu $ HIVE_HOME / conf. Następujące polecenia przekierowują do folderu Hive conf i kopiują plik szablonu:

Krok 7 : Ustaw ścieżkę Hadoop w hive-env.sh

Edytuj plik hive-env.sh, dołączając następujący wiersz:

Teraz dzięki temu procesowi jesteśmy prawie gotowi i instalacje gałęzi zostały pomyślnie zakończone, ważne jest skonfigurowanie Metastore z zewnętrznym serwerem bazy danych i domyślnie środowisko Apache Hive korzysta z bazy danych Derby. Za pomocą poniższego polecenia Inicjowanie bazy danych Derby.

Polecenie: bin / schematool -initSchema -dbType derby

Krok 8 : Uruchom Hive .

Polecenie: gałęzia (wpisz gałąź w terminalu w obrębie drugiego terminalu gałęzi, otworzy się).

Praca z gałęzią: Teraz zobaczymy niektóre operacje w gałęzi, aby zobaczyć, ile tabel mamy w domyślnej bazie danych. Zobacz poniższe zrzuty ekranu na poniższych zrzutach ekranu. Nie pokazuje żadnych tabel, co oznacza, że ​​nie mamy żadnych tabel w domyślnej bazie danych .

Aby utworzyć tabelę w ulu, bardzo ważne jest, aby odwołać się do wymaganej bazy danych, w przeciwnym razie każda tabela zostanie utworzona w domyślnej bazie danych.

Ważne polecenia w gałęzi

1: pokaż bazy danych (pokaże wszystkie bazy danych, które zostały utworzone do tej pory).

2: utwórz bazę danych, jeśli nie istnieje mydb (to polecenie utworzy jedną bazę danych o nazwie „ mydb”, jeśli „ mydb” nie istnieje, a jeśli „ mydb już istnieje, nie spowoduje to również błędu”)

3: używaj bazy danych, ilekroć musimy użyć polecenia DDl na konkretnej bazie danych, powinniśmy użyć polecenia „użyj bazy danych”, w naszym przypadku, gdy już utworzyliśmy polecenie „mydb”. Polecenie show byłoby używane mydb.

Ważne polecenie HDL DDL

TWORZENIE, KROPANIE, TRUNCATE, POKAŻ, OPIS .

  • Utwórz : - Utwórz instrukcję służącą do utworzenia bazy danych lub tabeli w gałęzi.

Przykład: gałąź> utwórz bazę danych Firma; (tworzenie bazy danych)

Hive> użyj firmy;

Hive> utwórz pracownika tabeli (id int, name String, wynagrodzenie String); (spowoduje to utworzenie pracownika tabeli w bazie danych firmy, ponieważ wykonaliśmy już polecenie Użyj bazy danych).

  • Opis zawiera informacje o schemacie tabeli.

Hive> opisz pracownika; (da to szczegółowo szczegóły schematu tabeli pracowników)

  • TRUNCATE usunie dane z tabeli.

Hive> obcięty pracownik tabeli;

Możemy zainstalować Hive również w oknie, ale dla najlepszej praktyki wolę używać Ubuntu, da lepszy widok środowiska produkcyjnego, a twoje dane wzrosną w przyszłości i będzie łatwe do zarządzania.

Polecane artykuły

To był przewodnik po instalacji Hive. Tutaj omówiliśmy różne kroki, aby zainstalować Hive, polecenie DDL itp. Możesz także zapoznać się z następującymi artykułami, aby dowiedzieć się więcej:

  1. Jak zainstalować SQL Server
  2. Jak zainstalować MATLAB
  3. Polecenia i funkcje gałęzi
  4. Podstawowe pytania dotyczące wywiadu ula
  5. Architektura ula | Przepływ pracy
  6. Używanie funkcji ORDER BY w gałęzi
  7. Instalacja ula

Kategoria: