Wprowadzenie do poleceń gałęzi

Polecenie Hive to narzędzie infrastruktury hurtowni danych, które znajduje się na szczycie Hadoop w celu podsumowania Big Data. Przetwarza uporządkowane dane. Ułatwia wyszukiwanie i analizowanie danych. Polecenie Hive jest również nazywane „schematem podczas odczytu”. Hive nie weryfikuje danych po ich załadowaniu, weryfikacja następuje tylko po wysłaniu zapytania. Ta właściwość Hive sprawia, że ​​jest szybki do początkowego ładowania. To jak kopiowanie lub po prostu przenoszenie pliku bez nakładania ograniczeń lub kontroli. Ula po raz pierwszy opracował Facebook. Fundacja Apache Software Foundation podjęła ją później i dalej ją rozwijała.

Oto elementy polecenia Hive:

Ryc. 1. Elementy ula

https://www.developer.com/

Oto funkcje komendy Hive wymienione poniżej:

  1. Sklepy Hive to nieprzetworzony i przetworzony zestaw danych w Hadoop.
  2. Jest przeznaczony do przetwarzania transakcji OnLine (OLTP). OLTP to systemy, które umożliwiają przesyłanie dużych ilości danych w bardzo krótkim czasie, bez polegania na pojedynczym serwerze.
  3. Jest szybki, skalowalny i niezawodny.
  4. Podany tutaj język zapytań typu SQL nazywa się HiveQL lub HQL. Ułatwia to zadania ETL i inne analizy.

Ryc. 2. Właściwości ula

Źródła zdjęć: - Google

Istnieje również kilka ograniczeń polecenia Hive, które są wymienione poniżej:

  1. Hive nie obsługuje podkwerend.
  2. Hive z pewnością obsługuje nadpisywanie, ale niestety nie obsługuje usuwania i aktualizacji.
  3. Hive nie jest przeznaczony dla OLTP, ale jest do niego używany.

Aby wejść do interaktywnej powłoki ula:

$ HIVE_HOME / bin / hive

Podstawowe komendy gałęzi

  1. Stwórz

Spowoduje to utworzenie nowej bazy danych w gałęzi.

  1. Upuszczać

Upuszczenie usunie tabelę z gałęzi

  1. Zmieniać

Polecenie Alter pomoże zmienić nazwę tabeli lub kolumn tabeli.

Na przykład:

ula> ZMIEŃ TABELĘ pracownik ZMIEŃ NAZWĘ NA pracownik1;

  1. Pokazać

Polecenie pokaż spowoduje wyświetlenie wszystkich baz danych znajdujących się w gałęzi.

  1. Opisać

Polecenie opisywania pomoże ci uzyskać informacje o schemacie tabeli.

Pośrednie komendy gałęzi

Hive dzieli tabelę na różne pokrewne partycje na podstawie kolumn. Korzystanie z tych partycji ułatwia wyszukiwanie danych. Te partycje są dalej dzielone na segmenty, aby efektywnie uruchamiać zapytania na danych.

Innymi słowy, segmenty dystrybuują dane do zestawu klastrów, obliczając kod skrótu klucza wymienionego w zapytaniu.

  1. Dodawanie partycji

Dodawanie partycji można wykonać, zmieniając tabelę. Załóżmy, że masz tabelę „EMP” z polami takimi jak Id, Imię, Wynagrodzenie, Dział, Oznaczenie i yoj.

ula> pracownik ALTER TABLE

> DODAJ PARTYCJĘ (rok = „2012”)

lokalizacja „/ 2012 / part2012”;

  1. Zmiana nazwy partycji

ul> STRONA STANOWISKA ALTER TABELI (rok = „1203”)

ZMIEN NA PARTYCJĘ (Yoj = „1203”);

  1. Upuść partycję

ul> ZMIEŃ TABELĘ pracownik UPADEK

> PARTITION (rok = „1203”);

  1. Operatorzy relacyjni

Operatory relacyjne składają się z pewnego zestawu operatorów, który pomaga w pobieraniu odpowiednich informacji.

Na przykład: Powiedzmy, że tabela „EMP” wygląda następująco:

Wykonajmy zapytanie Hive, które przyniesie nam pracownika, którego wynagrodzenie jest wyższe niż 30000.

ul> WYBIERZ * Z EMP GDZIE Wynagrodzenie> = 40000;

  1. Operatory arytmetyczne

Są to operatory, które pomagają w wykonywaniu operacji arytmetycznych na operandach, a te z kolei zawsze zwracają typy liczb.

Na przykład: Aby dodać dwa numery, takie jak 22 i 33

ul> WYBIERZ 22 + 33 DODAJ OD temp;

  1. Operator logiczny

Operatorzy ci mają wykonywać operacje logiczne, które w zamian zawsze zwracają wartość Prawda / Fałsz.

ul> WYBIERZ * Z EMP GDZIE Wynagrodzenie> 40000 && Dept = TP;

Zaawansowane komendy gałęzi

  1. Widok

Pojęcie widoku w gałęzi jest podobne jak w SQL. Widok można utworzyć podczas wykonywania instrukcji SELECT.

Przykład:

ula> UTWÓRZ WIDOK EMP_30000 AS

WYBIERZ * Z EMP

GDZIE wynagrodzenie> 30000;

  1. Ładowanie danych do tabeli

Hive> Załaduj lokalną ścieżkę danych „/home/hduser/Desktop/AllStates.csv” do stanów tabeli;

Tutaj „Stany” to już utworzona tabela w gałęzi.

https://www.tutorialspoint.com/hive/

Hive ma kilka wbudowanych funkcji, które pomagają w lepszym uzyskaniu wyniku.

Jak okrągły, podłogowy, BIGINT itp.

  1. Przystąp

Klauzula Join może pomóc w połączeniu dwóch tabel opartych na tej samej nazwie kolumny.

Przykład:

ula> WYBIERZ c.ID, c.NAME, c.AGE, o.AMOUNT

OD KLIENTÓW c DOŁĄCZ DO ZAMÓWIEŃ o

ON (c.ID = o.CUSTOMER_ID);

Wszystkie rodzaje złączeń są obsługiwane przez Hive: lewe łączenie zewnętrzne, prawe łączenie zewnętrzne, pełne łączenie zewnętrzne.

Wskazówki i porady dotyczące używania poleceń gałęzi

Hive sprawia, że ​​przetwarzanie danych jest tak łatwe, proste i rozszerzalne, że użytkownik nie zwraca uwagi na optymalizację zapytań Hive. Ale zwracanie uwagi na kilka rzeczy podczas pisania zapytania Hive z pewnością przyniesie wielki sukces w zarządzaniu obciążeniem i oszczędności. Poniżej znajduje się kilka wskazówek na ten temat:

  1. Partycje i segmenty: Hive to narzędzie do dużych zbiorów danych, które może wyszukiwać duże zbiory danych. Jednak pisanie zapytania bez zrozumienia domeny może przynieść świetne partycje w gałęzi.

Jeśli użytkownik jest świadomy zestawu danych, odpowiednie i najczęściej używane kolumny można zgrupować w tej samej partycji. Pomoże to w szybszym i nieefektywnym uruchomieniu zapytania.

Ostatecznie nie. operacji mapowania i operacji we / wy również zostanie zmniejszonych.

Ryc. 3. Partycjonowanie

Źródła obrazów: obraz Google

Ryc. 4 Wiadro

Źródła obrazów: - Obraz Google

  1. Równoległe wykonywanie: Hive uruchamia zapytanie w wielu etapach. W niektórych przypadkach etapy te mogą zależeć od innych etapów, dlatego nie można rozpocząć, po zakończeniu poprzedniego etapu. Niezależne zadania można jednak uruchamiać równolegle, aby zaoszczędzić ogólny czas działania. Aby włączyć równoległe uruchamianie w gałęzi:

ustaw hive.exec.parallel = true;

W ten sposób zwiększy to wykorzystanie klastra.

  1. Blokuj próbkowanie: Próbkowanie danych z tabeli pozwoli na wyszukiwanie zapytań dotyczących danych.

Mimo braku danych chcemy raczej losowo próbkować zestaw danych. Próbkowanie blokowe ma różną mocną składnię, która pomaga w próbkowaniu danych na różne sposoby.

Próbkowanie można wykorzystać do znalezienia ok. informacje z zestawu danych, takie jak średnia odległość między miejscem początkowym a docelowym.

Zapytanie o 1% dużych zbiorów danych da prawie idealną odpowiedź. Eksploracja staje się łatwiejsza i skuteczniejsza.

Wniosek - polecenia gałęzi

Hive to abstrakcja wyższego poziomu na HDFS, która zapewnia elastyczny język zapytań. Pomaga w łatwiejszym wyszukiwaniu i przetwarzaniu danych.

Hive można łączyć z innymi elementami Big Data, aby w pełni wykorzystać jego funkcjonalność.

Polecane artykuły

To był przewodnik po poleceniach gałęzi. Omówiliśmy tutaj zarówno podstawowe, jak i zaawansowane polecenia Hive oraz niektóre natychmiastowe polecenia Hive. Możesz także spojrzeć na następujący artykuł, aby dowiedzieć się więcej -

  1. Hive Pytania podczas wywiadu
  2. Hive VS Hue - Top 6 przydatnych porównań
  3. Polecenia Tableau
  4. Polecenia Adobe Photoshop
  5. Używanie funkcji ORDER BY w gałęzi
  6. Pobierz i zainstaluj Hive krok po kroku

Kategoria: