Polecenie HDFS - Podstawowe i zaawansowane polecenia z poradami i wskazówkami

Spisie treści:

Anonim

Wprowadzenie do poleceń HDFS

Duże zbiory danych to słowo określające zbiory danych, które są tak duże lub złożone, że konwencjonalne oprogramowanie do przetwarzania danych nie wystarcza, aby z nimi zawrzeć pakt. Hadoop to platforma programistyczna oparta na Javie o otwartym kodzie źródłowym, która łączy w sobie przestrzeń przetwarzania i przechowywania niezwykle dużych zbiorów danych w rozproszonym środowisku komputerowym. Podstawą oprogramowania Apache jest klucz do instalacji Hadoop

Funkcje HDFS:

  • HDFS działa na architekturze Master / Slave
  • Pliki są używane przez HDFS do przechowywania danych związanych z użytkownikiem
  • zawiera ogromny zestaw katalogów i plików przechowywanych w formacie hierarchicznym.
  • Wewnątrz plik jest zgrywany na mniejsze bloki i te bloki są przechowywane w zestawie kodów danych.
  • Namenode i Datanode to część oprogramowania przeznaczona do działania na maszynach produktu, które klasycznie działają w systemie operacyjnym GNU / Linux.

Namenode:

  • W tym przypadku system plików obsługiwany jest przez węzeł nazwy
  • Namenode jest także odpowiedzialny za rejestrowanie wszystkich zmian w systemie plików, ponadto utrzymuje obraz pełnej przestrzeni nazw systemu plików i mapy bloków plików w pamięci
  • Sprawdzanie odbywa się okresowo. dlatego łatwo można powrócić do etapu przed osiągnięciem punktu awarii.

Kod danych:

  • Datanode gromadzi dane w plikach w swoim lokalnym systemie plików
  • Aby przybliżyć swoje istnienie, węzeł danych wysyła puls do węzła nazw
  • Raport blokowy będzie generowany za każde 10 odebrane uderzenie serca
  • Replikacja jest implikowana dla danych przechowywanych w tych węzłach danych

Replikacja danych:

  • Tutaj sekwencja bloków tworzy plik o domyślnym rozmiarze bloku 128 MB
  • Wszystkie bloki w pliku oprócz finalnej mają podobny rozmiar.
  • Z każdego węzła danych w klastrze element namenode odbiera bicie serca
  • BlockReport zawiera wszystkie bloki w Datanode.
  • zawiera ogromny zestaw katalogów i plików przechowywanych w formacie hierarchicznym.
  • Wewnątrz plik jest zgrywany na mniejsze bloki i te bloki są przechowywane w zestawie kodów danych.
  • Namenode i Datanode to część oprogramowania przeznaczona do działania na maszynach produktu, które klasycznie działają w systemie operacyjnym GNU / Linux.

Śledzenie zadań: debata JobTracker w NameNode w celu ustalenia pozycji danych. Znajdź także najlepsze węzły TaskTracker do wykonywania zadań w oparciu o lokalizację danych

Śledzenie zadań: TaskTracker to węzeł w klastrze, który przyjmuje zadania - operacje mapowania, zmniejszania i odtwarzania losowego - z JobTracker.

Dodatkowy węzeł punktu kontrolnego (lub): Pobiera EditLog z węzła nazw w regularnych odstępach czasu i stosuje się do jego obrazu FS. I kopiuje gotowy obraz FS do węzła nazwy podczas jego restartu. Drugi cel węzła Nazwa ma mieć punkt kontrolny w systemie plików HDFS.

PRZĘDZA:

  • YARN ma komponent centralnego menedżera zasobów, który zarządza zasobami i przypisuje je do każdej aplikacji.
  • Menedżer zasobów jest tutaj nadrzędnym, który rozstrzyga o zasobach powiązanych z klastrem, menedżer zasobów jest zwinięty z dwóch komponentów, menedżera aplikacji i programu planującego, te dwa komponenty razem zarządzają zadaniami w systemach klastra. inny komponent wywołuje menedżera węzłów (NM), który jest odpowiedzialny za zarządzanie zadaniami użytkowników i przepływem pracy w danym węźle.
  • Dokładna replikacja danych w aktywnym węźle nazw jest przechowywana przez węzeł Standby NameNode. Działa jak slave, utrzymuje stan wystarczający do zapewnienia szybkiego przełączania awaryjnego, jeśli jest to konieczne.

Podstawowe polecenia HDFS:

Podstawowe polecenia HDFS

Sr.NoWłaściwość polecenia HDFSPolecenie HDFS
1Wydrukuj wersję hadoopWersja $ hadoop
2)Wyświetl zawartość katalogu głównego w HDFS$ hadoop fs -ls
3)Podaj ilość miejsca używanego i dostępnego w aktualnie zamontowanym systemie plików$ hadoop fs -df hdfs: /
4Moduł równoważący HDFS ponownie równoważy dane w węzłach DataNodes, przenosząc bloki z węzłów nadmiernie wykorzystywanych do niewykorzystanych.$ Hadoop Balancer
5Komenda pomocy$ hadoop fs -help

Pośrednie polecenia HDFS:

Pośrednie polecenia HDFS

Sr.NoWłaściwość polecenia HDFSPolecenie HDFS
6tworzy katalog w określonej lokalizacji HDFS$ hadoop fs -mkdir / user / cloudera /
7Kopiuje dane z jednej lokalizacji do drugiej$ hadoop fs -put data / sample.txt / user / training / hadoop
8Zobacz miejsce zajmowane przez określony katalog w HDFS$ hadoop fs -du -s -h / user / cloudera /
9Usuń katalog z Hadoop$ hadoop fs -rm -r / user / cloudera / pigjobs /
10Usuwa wszystkie pliki z podanego katalogu$ hadoop fs -rm -skip Trash hadoop / retail / *
11Aby opróżnić kosz$ hadoop fs -expunge
12kopiuje dane zi do lokalnego na HDFS$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume /

$ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Zaawansowane polecenia HDFS:

Pośrednie polecenia HDFS

Sr.NoWłaściwość polecenia HDFSPolecenie HDFS
13zmień uprawnienia do plików$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14ustaw współczynnik replikacji danych dla pliku$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15Policz liczbę katalogów, plików i bajtów w plikach hdfs$ hadoop fs -count hdfs: /
16sprawiają, że tryb nazw istnieje w trybie awaryjnym$ sudo -u hdfs hdfs dfsadmin -safemode urlopu
17Hadoop formatuje nazwę węzła$ hadoop namenode -format

Wskazówki i triki HDFS:

1) Możemy osiągnąć szybsze odzyskiwanie, gdy liczba węzłów klastra jest wyższa.

2) Zwiększenie pojemności na jednostkę czasu wydłuża czas odzyskiwania.

3) Sprzęt Namenode musi być bardzo niezawodny.

4) Zaawansowany monitoring można osiągnąć dzięki ambari.

5) Głodzenie systemu można zmniejszyć, zwiększając liczbę reduktorów.

Polecane artykuły

To był przewodnik po poleceniach HDFS. Omówiliśmy tutaj polecenia, funkcje HDFS, jego podstawowe, pośrednie i zaawansowane polecenia z obrazową reprezentacją, porady i wskazówki dotyczące poleceń. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Polecenia dotyczące węzłów
  2. Polecenia Matlaba
  3. Zalety DBMS
  4. Ekosystem Hadoop
  5. Polecenia hadoop fs