Polecenie HDFS - Podstawowe i zaawansowane polecenia z poradami i wskazówkami

Wprowadzenie do poleceń HDFS

Duże zbiory danych to słowo określające zbiory danych, które są tak duże lub złożone, że konwencjonalne oprogramowanie do przetwarzania danych nie wystarcza, aby z nimi zawrzeć pakt. Hadoop to platforma programistyczna oparta na Javie o otwartym kodzie źródłowym, która łączy w sobie przestrzeń przetwarzania i przechowywania niezwykle dużych zbiorów danych w rozproszonym środowisku komputerowym. Podstawą oprogramowania Apache jest klucz do instalacji Hadoop

Funkcje HDFS:

HDFS działa na architekturze Master / Slave
Pliki są używane przez HDFS do przechowywania danych związanych z użytkownikiem
zawiera ogromny zestaw katalogów i plików przechowywanych w formacie hierarchicznym.
Wewnątrz plik jest zgrywany na mniejsze bloki i te bloki są przechowywane w zestawie kodów danych.
Namenode i Datanode to część oprogramowania przeznaczona do działania na maszynach produktu, które klasycznie działają w systemie operacyjnym GNU / Linux.

Namenode:

W tym przypadku system plików obsługiwany jest przez węzeł nazwy
Namenode jest także odpowiedzialny za rejestrowanie wszystkich zmian w systemie plików, ponadto utrzymuje obraz pełnej przestrzeni nazw systemu plików i mapy bloków plików w pamięci
Sprawdzanie odbywa się okresowo. dlatego łatwo można powrócić do etapu przed osiągnięciem punktu awarii.

Kod danych:

Datanode gromadzi dane w plikach w swoim lokalnym systemie plików
Aby przybliżyć swoje istnienie, węzeł danych wysyła puls do węzła nazw
Raport blokowy będzie generowany za każde 10 odebrane uderzenie serca
Replikacja jest implikowana dla danych przechowywanych w tych węzłach danych

Replikacja danych:

Tutaj sekwencja bloków tworzy plik o domyślnym rozmiarze bloku 128 MB
Wszystkie bloki w pliku oprócz finalnej mają podobny rozmiar.
Z każdego węzła danych w klastrze element namenode odbiera bicie serca
BlockReport zawiera wszystkie bloki w Datanode.
zawiera ogromny zestaw katalogów i plików przechowywanych w formacie hierarchicznym.
Wewnątrz plik jest zgrywany na mniejsze bloki i te bloki są przechowywane w zestawie kodów danych.
Namenode i Datanode to część oprogramowania przeznaczona do działania na maszynach produktu, które klasycznie działają w systemie operacyjnym GNU / Linux.

Śledzenie zadań: debata JobTracker w NameNode w celu ustalenia pozycji danych. Znajdź także najlepsze węzły TaskTracker do wykonywania zadań w oparciu o lokalizację danych

Śledzenie zadań: TaskTracker to węzeł w klastrze, który przyjmuje zadania - operacje mapowania, zmniejszania i odtwarzania losowego - z JobTracker.

Dodatkowy węzeł punktu kontrolnego (lub): Pobiera EditLog z węzła nazw w regularnych odstępach czasu i stosuje się do jego obrazu FS. I kopiuje gotowy obraz FS do węzła nazwy podczas jego restartu. Drugi cel węzła Nazwa ma mieć punkt kontrolny w systemie plików HDFS.

PRZĘDZA:

YARN ma komponent centralnego menedżera zasobów, który zarządza zasobami i przypisuje je do każdej aplikacji.
Menedżer zasobów jest tutaj nadrzędnym, który rozstrzyga o zasobach powiązanych z klastrem, menedżer zasobów jest zwinięty z dwóch komponentów, menedżera aplikacji i programu planującego, te dwa komponenty razem zarządzają zadaniami w systemach klastra. inny komponent wywołuje menedżera węzłów (NM), który jest odpowiedzialny za zarządzanie zadaniami użytkowników i przepływem pracy w danym węźle.
Dokładna replikacja danych w aktywnym węźle nazw jest przechowywana przez węzeł Standby NameNode. Działa jak slave, utrzymuje stan wystarczający do zapewnienia szybkiego przełączania awaryjnego, jeśli jest to konieczne.

Podstawowe polecenia HDFS:

Podstawowe polecenia HDFS
Sr.No	Właściwość polecenia HDFS	Polecenie HDFS
1	Wydrukuj wersję hadoop	Wersja $ hadoop
2)	Wyświetl zawartość katalogu głównego w HDFS	$ hadoop fs -ls
3)	Podaj ilość miejsca używanego i dostępnego w aktualnie zamontowanym systemie plików	$ hadoop fs -df hdfs: /
4	Moduł równoważący HDFS ponownie równoważy dane w węzłach DataNodes, przenosząc bloki z węzłów nadmiernie wykorzystywanych do niewykorzystanych.	$ Hadoop Balancer
5	Komenda pomocy	$ hadoop fs -help

Pośrednie polecenia HDFS:

Pośrednie polecenia HDFS
Sr.No	Właściwość polecenia HDFS	Polecenie HDFS
6	tworzy katalog w określonej lokalizacji HDFS	$ hadoop fs -mkdir / user / cloudera /
7	Kopiuje dane z jednej lokalizacji do drugiej	$ hadoop fs -put data / sample.txt / user / training / hadoop
8	Zobacz miejsce zajmowane przez określony katalog w HDFS	$ hadoop fs -du -s -h / user / cloudera /
9	Usuń katalog z Hadoop	$ hadoop fs -rm -r / user / cloudera / pigjobs /
10	Usuwa wszystkie pliki z podanego katalogu	$ hadoop fs -rm -skip Trash hadoop / retail / *
11	Aby opróżnić kosz	$ hadoop fs -expunge
12	kopiuje dane zi do lokalnego na HDFS	$ hadoop fs -copyFromLocal / home / cloudera / sample / / user / cloudera / flume / $ hadoop fs -copyToLocal / user / cloudera / pigjobs / * / home / cloudera / oozie /

Zaawansowane polecenia HDFS:

Pośrednie polecenia HDFS
Sr.No	Właściwość polecenia HDFS	Polecenie HDFS
13	zmień uprawnienia do plików	$ sudo -u hdfs hadoop fs -chmod 777 / user / cloudera / flume /
14	ustaw współczynnik replikacji danych dla pliku	$ hadoop fs -setrep -w 5 / user / cloudera / pigjobs /
15	Policz liczbę katalogów, plików i bajtów w plikach hdfs	$ hadoop fs -count hdfs: /
16	sprawiają, że tryb nazw istnieje w trybie awaryjnym	$ sudo -u hdfs hdfs dfsadmin -safemode urlopu
17	Hadoop formatuje nazwę węzła	$ hadoop namenode -format

Wskazówki i triki HDFS:

1) Możemy osiągnąć szybsze odzyskiwanie, gdy liczba węzłów klastra jest wyższa.

2) Zwiększenie pojemności na jednostkę czasu wydłuża czas odzyskiwania.

3) Sprzęt Namenode musi być bardzo niezawodny.

4) Zaawansowany monitoring można osiągnąć dzięki ambari.

5) Głodzenie systemu można zmniejszyć, zwiększając liczbę reduktorów.

Polecane artykuły

To był przewodnik po poleceniach HDFS. Omówiliśmy tutaj polecenia, funkcje HDFS, jego podstawowe, pośrednie i zaawansowane polecenia z obrazową reprezentacją, porady i wskazówki dotyczące poleceń. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

Polecenia dotyczące węzłów
Polecenia Matlaba
Zalety DBMS
Ekosystem Hadoop
Polecenia hadoop fs

Polecenie HDFS - Podstawowe i zaawansowane polecenia z poradami i wskazówkami

Spisie treści:

Wprowadzenie do poleceń HDFS

Funkcje HDFS:

Namenode:

Kod danych:

Replikacja danych:

PRZĘDZA:

Podstawowe polecenia HDFS:

Pośrednie polecenia HDFS:

Zaawansowane polecenia HDFS:

Wskazówki i triki HDFS:

Polecane artykuły

Wskaźniki w C ++ - Dowiedz się, jak tworzyć wskaźniki w C ++?

PMP vs Agile - Która certyfikacja jest najlepsza? (Infografika)

Kompleksowy i przydatny przewodnik po certyfikacji PMI - eduCBA

Wtyczki w Photoshopie - Najlepsze wtyczki Photoshop dla profesjonalistów

Polimorfizm w C # - Top 2 formy polimorfizmu w języku C # z kodem

Talend vs Mulesoft - 8 Przydatne rzeczy, które musisz wiedzieć

Materialne vs niematerialne - 8 najlepszych różnic (z infografiką)

Grupy docelowe - Top 12 kroków do angażowania treści

Odkryj 8 niesamowitych różnic między talentem a SSIS

Ważne Talend vs Pentaho - 8 przydatnych porównań do nauki

Ekstremalny kontrast zdjęcia - samouczek Photoshop

Efekty programu Photoshop - wypełnij zdjęcie większą liczbą zdjęć

Focus With Light - efekt Photoshopa

Fałdy i zagięcia Efekt w Photoshopie

Film Strip Photo Collage w Photoshopie - część 1