Zainstaluj Spark - Kompletny przewodnik po instalacji Spark

Jak zainstalować Spark?

Spark to środowisko open source do uruchamiania aplikacji analitycznych. Jest to silnik przetwarzania danych obsługiwany przez niezależną od dostawcy Apache Software Foundation do pracy na dużych zestawach danych lub dużych danych. Jest to uniwersalny klastrowy system obliczeniowy, który zapewnia interfejsy API wysokiego poziomu w Scali, Python, Java i R. Został opracowany w celu przezwyciężenia ograniczeń paradygmatu MapReduce w Hadoop. Badacze danych uważają, że Spark działa 100 razy szybciej niż MapReduce, ponieważ może buforować dane w pamięci, podczas gdy MapReduce działa więcej, czytając i zapisując na dyskach. Wykonuje przetwarzanie w pamięci, co czyni go mocniejszym i szybszym.

Spark nie ma własnego systemu plików. Przetwarza dane z różnych źródeł danych, takich jak Hadoop Distributed File System (HDFS), system Amazon S3, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Może działać na Hadoop YARN (Yet Another Negotiator zasobów), na Mesos, na EC2, na Kubernetes lub w trybie autonomicznego klastra. Wykorzystuje RDD (Resilient Distributed Dataset) do delegowania obciążeń do poszczególnych węzłów, które obsługują aplikacje iteracyjne. Ze względu na RDD programowanie jest łatwe w porównaniu do Hadoop.

Spark składa się z różnych komponentów nazywanych jako komponenty ekosystemu Spark.

Spark Core: Jest to podstawa aplikacji Spark, od której inne komponenty są bezpośrednio zależne. Zapewnia platformę dla szerokiej gamy aplikacji, takich jak planowanie, rozproszone wysyłanie zadań, przetwarzanie pamięci i porównywanie danych.
Spark Streaming: Jest to komponent, który działa na danych przesyłanych strumieniowo na żywo w celu dostarczania analiz w czasie rzeczywistym. Dane na żywo są przetwarzane w dyskretne jednostki zwane partiami, które są wykonywane w Spark Core.
Spark SQL: jest to komponent, który działa na bazie Spark Core do uruchamiania zapytań SQL na danych strukturalnych lub częściowo ustrukturyzowanych. Ramka danych to sposób na interakcję ze Spark SQL.
GraphX: Jest to silnik lub struktura obliczania wykresów, która umożliwia przetwarzanie danych wykresów. Zapewnia różne algorytmy graficzne do uruchamiania w Spark.
MLlib: Zawiera algorytmy uczenia maszynowego, które zapewniają platformę uczenia maszynowego w rozproszonym środowisku opartym na pamięci. Wydajnie wykonuje iteracyjne algorytmy dzięki możliwości przetwarzania danych w pamięci.
SparkR: Spark zapewnia pakiet R do uruchamiania lub analizowania zestawów danych za pomocą powłoki R.

Istnieją trzy sposoby instalacji lub wdrożenia Spark w systemach:

Tryb autonomiczny w Apache Spark
Hadoop YARN / Mesos
SIMR (Spark w MapReduce)

Zobaczmy wdrożenie w trybie autonomicznym.

Spark Standalone Mode of Deployment:

Krok 1: Zaktualizuj indeks pakietu

Jest to konieczne, aby zaktualizować wszystkie obecne pakiety na twoim komputerze.

Użyj polecenia : $ sudo apt-get update

Krok 2: Zainstaluj Java Development Kit (JDK)

Spowoduje to zainstalowanie JDK na twoim komputerze i pomoże ci uruchomić aplikacje Java.

Krok 3: Sprawdź, czy Java została poprawnie zainstalowana

Java jest warunkiem wstępnym do używania lub uruchamiania aplikacji Apache Spark.

Użyj polecenia : $ java –version

Ten zrzut ekranu pokazuje wersję Java i zapewnia obecność Java na komputerze.

Krok 4: Zainstaluj Scalę na swoim komputerze

Ponieważ Spark jest napisany w języku scala, należy zainstalować skalę, aby uruchomić iskrę na komputerze.

Użyj polecenia: $ sudo apt-get install scala

Krok 5: Sprawdź, czy Scala jest poprawnie zainstalowana

Zapewni to pomyślną instalację wagi w systemie.

Użyj polecenia : $ scala –wersja

Krok 6: Pobierz Apache Spark

Pobierz Apache Spark zgodnie z wersją Hadoop ze strony https://spark.apache.org/downloads.html

Kiedy przejdziesz do powyższego linku, pojawi się okno.

Krok 7: Wybierz odpowiednią wersję zgodnie z wersją Hadoop i kliknij zaznaczony link.

Pojawi się kolejne okno.

Krok 8: Kliknij na zaznaczony link, a iskra Apache zostanie pobrana do twojego systemu.

Sprawdź, czy plik .tar.gz jest dostępny w folderze pobranych plików.

Krok 9: Zainstaluj Apache Spark

Aby zainstalować Spark, należy wyodrębnić plik tar.

Użyj polecenia: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Musisz zmienić wersję wymienioną w poleceniu zgodnie z pobraną wersją. W tym pobraliśmy wersję Spark-2.4.0-bin-hadoop2.7.

Krok 10: Skonfiguruj zmienną środowiskową dla Apache Spark

Użyj polecenia: $ source ~ / .bashrc

Dodaj wiersz : eksport ŚCIEŻKA = $ ŚCIEŻKA: / usr / local / spark / bin

Krok 11: Sprawdź instalację Apache Spark

Użyj polecenia : $ Spark-shell

Jeśli instalacja się powiedzie, zostaną wygenerowane następujące dane wyjściowe.

Oznacza to pomyślną instalację Apache Spark na twoim komputerze, a Apache Spark rozpocznie się w Scali.

Wdrożenie Spark w Hadoop YARN:

Istnieją dwa tryby wdrożenia Apache Spark w Hadoop YARN.

Tryb klastra: W tym trybie YARN w klastrze zarządza sterownikiem Spark działającym w procesie głównym aplikacji. Po zainicjowaniu aplikacji klient może przejść.
Tryb klienta: W tym trybie zasoby są żądane z YARN przez aplikację master, a sterownik Spark działa w procesie klienta.

Aby wdrożyć aplikację Spark w trybie klastra, użyj polecenia:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Powyższe polecenie uruchomi program kliencki YARN, który uruchomi domyślny wzorzec aplikacji.

Aby wdrożyć aplikację Spark w trybie klienta, użyj polecenia:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Możesz uruchomić Spark Shell w trybie klienta za pomocą polecenia:

$ spark-shell –master yarn –deploy-mode client

Wskazówki i porady dotyczące korzystania z instalacji Spark:

Upewnij się, że Java jest zainstalowana na twoim komputerze przed instalacją Spark.
Jeśli używasz języka scala, upewnij się, że waga jest już zainstalowana przed użyciem Apache Spark.
Możesz używać Pythona również zamiast Scali do programowania w Spark, ale musi on być również zainstalowany jak Scala.
Możesz także uruchomić Apache Spark w systemie Windows, ale zaleca się utworzenie maszyny wirtualnej i instalację Ubuntu za pomocą Oracle Virtual Box lub VMWare Player .
Spark może działać bez Hadoop (tj. W trybie autonomicznym), ale jeśli wymagana jest konfiguracja z wieloma węzłami, potrzebne są menedżery zasobów, takie jak YARN lub Mesos.
Podczas korzystania z YARN nie jest konieczne instalowanie Spark we wszystkich trzech węzłach. Musisz zainstalować Apache Spark tylko w jednym węźle.
Podczas korzystania z YARN, jeśli jesteś w tej samej sieci lokalnej z klastrem, możesz użyć trybu klienta, natomiast jeśli jesteś daleko, możesz użyć trybu klastra.

Polecane artykuły - Spark Install

To był przewodnik po instalacji Spark. Tutaj widzieliśmy, jak wdrożyć Apache Spark w trybie autonomicznym i na menedżerze zasobów YARN, a także wymieniono kilka wskazówek i wskazówek dotyczących bezproblemowej instalacji Spark. Możesz także spojrzeć na następujący artykuł, aby dowiedzieć się więcej -

Jak korzystać z poleceń Spark
Kariera w Spark - musisz spróbować
Różnice Splunk vs Spark
Spark Wywiad Pytania i odpowiedzi
Zalety przesyłania strumieniowego Spark
Rodzaje złączeń w Spark SQL (przykłady)

Zainstaluj Spark - Kompletny przewodnik po instalacji Spark

Spisie treści:

Jak zainstalować Spark?

Spark składa się z różnych komponentów nazywanych jako komponenty ekosystemu Spark.

Istnieją trzy sposoby instalacji lub wdrożenia Spark w systemach:

Spark Standalone Mode of Deployment:

Krok 1: Zaktualizuj indeks pakietu

Krok 2: Zainstaluj Java Development Kit (JDK)

Krok 3: Sprawdź, czy Java została poprawnie zainstalowana

Krok 4: Zainstaluj Scalę na swoim komputerze

Krok 5: Sprawdź, czy Scala jest poprawnie zainstalowana

Krok 6: Pobierz Apache Spark

Krok 7: Wybierz odpowiednią wersję zgodnie z wersją Hadoop i kliknij zaznaczony link.

Krok 8: Kliknij na zaznaczony link, a iskra Apache zostanie pobrana do twojego systemu.

Krok 9: Zainstaluj Apache Spark

Krok 10: Skonfiguruj zmienną środowiskową dla Apache Spark

Krok 11: Sprawdź instalację Apache Spark

Wdrożenie Spark w Hadoop YARN:

Wskazówki i porady dotyczące korzystania z instalacji Spark:

Polecane artykuły - Spark Install

Narzędzie Lasso magnetyczne - selekcje w Photoshopie

Samouczek czynności w Photoshopie - akcje domyślne

Essentials Shapes And Shape Layers Essentials

Zrozumienie masek warstw w Photoshopie

Tworzenie powtarzalnych wzorów z niestandardowych kształtów w Photoshopie

Korzyści z całkowitego zarządzania jakością - Cykl i zalety TQM

Formuła wskaźnika kosztów całkowitych - Kalkulator TER (szablon Excel)

Nowe 10 korzyści Narzędzia programistyczne dla początkujących (bezpłatny)

Uwagi dotyczące całościowego zarządzania jakością - Zasada i cykl PDCA z korzyściami

Top 20 łatwych skrótów Microsoft Excel (Advance)

Rodzaje bezpieczeństwa cybernetycznego - Różne typy i narzędzia cyberbezpieczeństwa

Rodzaje modelu danych - Top 4 różne typy modeli danych

Rodzaje modeli finansowych - eduCBA

Rodzaje hurtowni danych - Najpopularniejsze typy hurtowni danych

Rodzaje systemu zapobiegania włamaniom - Przewodnik po różnych typach IPS