Zainstaluj Spark - Kompletny przewodnik po instalacji Spark

Spisie treści:

Anonim

Jak zainstalować Spark?

Spark to środowisko open source do uruchamiania aplikacji analitycznych. Jest to silnik przetwarzania danych obsługiwany przez niezależną od dostawcy Apache Software Foundation do pracy na dużych zestawach danych lub dużych danych. Jest to uniwersalny klastrowy system obliczeniowy, który zapewnia interfejsy API wysokiego poziomu w Scali, Python, Java i R. Został opracowany w celu przezwyciężenia ograniczeń paradygmatu MapReduce w Hadoop. Badacze danych uważają, że Spark działa 100 razy szybciej niż MapReduce, ponieważ może buforować dane w pamięci, podczas gdy MapReduce działa więcej, czytając i zapisując na dyskach. Wykonuje przetwarzanie w pamięci, co czyni go mocniejszym i szybszym.

Spark nie ma własnego systemu plików. Przetwarza dane z różnych źródeł danych, takich jak Hadoop Distributed File System (HDFS), system Amazon S3, Apache Cassandra, MongoDB, Alluxio, Apache Hive. Może działać na Hadoop YARN (Yet Another Negotiator zasobów), na Mesos, na EC2, na Kubernetes lub w trybie autonomicznego klastra. Wykorzystuje RDD (Resilient Distributed Dataset) do delegowania obciążeń do poszczególnych węzłów, które obsługują aplikacje iteracyjne. Ze względu na RDD programowanie jest łatwe w porównaniu do Hadoop.

Spark składa się z różnych komponentów nazywanych jako komponenty ekosystemu Spark.

  • Spark Core: Jest to podstawa aplikacji Spark, od której inne komponenty są bezpośrednio zależne. Zapewnia platformę dla szerokiej gamy aplikacji, takich jak planowanie, rozproszone wysyłanie zadań, przetwarzanie pamięci i porównywanie danych.
  • Spark Streaming: Jest to komponent, który działa na danych przesyłanych strumieniowo na żywo w celu dostarczania analiz w czasie rzeczywistym. Dane na żywo są przetwarzane w dyskretne jednostki zwane partiami, które są wykonywane w Spark Core.
  • Spark SQL: jest to komponent, który działa na bazie Spark Core do uruchamiania zapytań SQL na danych strukturalnych lub częściowo ustrukturyzowanych. Ramka danych to sposób na interakcję ze Spark SQL.
  • GraphX: Jest to silnik lub struktura obliczania wykresów, która umożliwia przetwarzanie danych wykresów. Zapewnia różne algorytmy graficzne do uruchamiania w Spark.
  • MLlib: Zawiera algorytmy uczenia maszynowego, które zapewniają platformę uczenia maszynowego w rozproszonym środowisku opartym na pamięci. Wydajnie wykonuje iteracyjne algorytmy dzięki możliwości przetwarzania danych w pamięci.
  • SparkR: Spark zapewnia pakiet R do uruchamiania lub analizowania zestawów danych za pomocą powłoki R.

Istnieją trzy sposoby instalacji lub wdrożenia Spark w systemach:

  1. Tryb autonomiczny w Apache Spark
  2. Hadoop YARN / Mesos
  3. SIMR (Spark w MapReduce)

Zobaczmy wdrożenie w trybie autonomicznym.

Spark Standalone Mode of Deployment:

Krok 1: Zaktualizuj indeks pakietu

Jest to konieczne, aby zaktualizować wszystkie obecne pakiety na twoim komputerze.

Użyj polecenia : $ sudo apt-get update

Krok 2: Zainstaluj Java Development Kit (JDK)

Spowoduje to zainstalowanie JDK na twoim komputerze i pomoże ci uruchomić aplikacje Java.

Krok 3: Sprawdź, czy Java została poprawnie zainstalowana

Java jest warunkiem wstępnym do używania lub uruchamiania aplikacji Apache Spark.

Użyj polecenia : $ java –version

Ten zrzut ekranu pokazuje wersję Java i zapewnia obecność Java na komputerze.

Krok 4: Zainstaluj Scalę na swoim komputerze

Ponieważ Spark jest napisany w języku scala, należy zainstalować skalę, aby uruchomić iskrę na komputerze.

Użyj polecenia: $ sudo apt-get install scala

Krok 5: Sprawdź, czy Scala jest poprawnie zainstalowana

Zapewni to pomyślną instalację wagi w systemie.

Użyj polecenia : $ scala –wersja

Krok 6: Pobierz Apache Spark

Pobierz Apache Spark zgodnie z wersją Hadoop ze strony https://spark.apache.org/downloads.html

Kiedy przejdziesz do powyższego linku, pojawi się okno.

Krok 7: Wybierz odpowiednią wersję zgodnie z wersją Hadoop i kliknij zaznaczony link.

Pojawi się kolejne okno.

Krok 8: Kliknij na zaznaczony link, a iskra Apache zostanie pobrana do twojego systemu.

Sprawdź, czy plik .tar.gz jest dostępny w folderze pobranych plików.

Krok 9: Zainstaluj Apache Spark

Aby zainstalować Spark, należy wyodrębnić plik tar.

Użyj polecenia: $ tar xvf spark- 2.4.0-bin-hadoop2.7.tgz

Musisz zmienić wersję wymienioną w poleceniu zgodnie z pobraną wersją. W tym pobraliśmy wersję Spark-2.4.0-bin-hadoop2.7.

Krok 10: Skonfiguruj zmienną środowiskową dla Apache Spark

Użyj polecenia: $ source ~ / .bashrc

Dodaj wiersz : eksport ŚCIEŻKA = $ ŚCIEŻKA: / usr / local / spark / bin

Krok 11: Sprawdź instalację Apache Spark

Użyj polecenia : $ Spark-shell

Jeśli instalacja się powiedzie, zostaną wygenerowane następujące dane wyjściowe.

Oznacza to pomyślną instalację Apache Spark na twoim komputerze, a Apache Spark rozpocznie się w Scali.

Wdrożenie Spark w Hadoop YARN:

Istnieją dwa tryby wdrożenia Apache Spark w Hadoop YARN.

  1. Tryb klastra: W tym trybie YARN w klastrze zarządza sterownikiem Spark działającym w procesie głównym aplikacji. Po zainicjowaniu aplikacji klient może przejść.
  2. Tryb klienta: W tym trybie zasoby są żądane z YARN przez aplikację master, a sterownik Spark działa w procesie klienta.

Aby wdrożyć aplikację Spark w trybie klastra, użyj polecenia:

$spark-submit –master yarn –deploy –mode cluster mySparkApp.jar

Powyższe polecenie uruchomi program kliencki YARN, który uruchomi domyślny wzorzec aplikacji.

Aby wdrożyć aplikację Spark w trybie klienta, użyj polecenia:

$ spark-submit –master yarn –deploy –mode client mySparkApp.jar

Możesz uruchomić Spark Shell w trybie klienta za pomocą polecenia:

$ spark-shell –master yarn –deploy-mode client

Wskazówki i porady dotyczące korzystania z instalacji Spark:

  1. Upewnij się, że Java jest zainstalowana na twoim komputerze przed instalacją Spark.
  2. Jeśli używasz języka scala, upewnij się, że waga jest już zainstalowana przed użyciem Apache Spark.
  3. Możesz używać Pythona również zamiast Scali do programowania w Spark, ale musi on być również zainstalowany jak Scala.
  4. Możesz także uruchomić Apache Spark w systemie Windows, ale zaleca się utworzenie maszyny wirtualnej i instalację Ubuntu za pomocą Oracle Virtual Box lub VMWare Player .
  5. Spark może działać bez Hadoop (tj. W trybie autonomicznym), ale jeśli wymagana jest konfiguracja z wieloma węzłami, potrzebne są menedżery zasobów, takie jak YARN lub Mesos.
  6. Podczas korzystania z YARN nie jest konieczne instalowanie Spark we wszystkich trzech węzłach. Musisz zainstalować Apache Spark tylko w jednym węźle.
  7. Podczas korzystania z YARN, jeśli jesteś w tej samej sieci lokalnej z klastrem, możesz użyć trybu klienta, natomiast jeśli jesteś daleko, możesz użyć trybu klastra.

Polecane artykuły - Spark Install

To był przewodnik po instalacji Spark. Tutaj widzieliśmy, jak wdrożyć Apache Spark w trybie autonomicznym i na menedżerze zasobów YARN, a także wymieniono kilka wskazówek i wskazówek dotyczących bezproblemowej instalacji Spark. Możesz także spojrzeć na następujący artykuł, aby dowiedzieć się więcej -

  1. Jak korzystać z poleceń Spark
  2. Kariera w Spark - musisz spróbować
  3. Różnice Splunk vs Spark
  4. Spark Wywiad Pytania i odpowiedzi
  5. Zalety przesyłania strumieniowego Spark
  6. Rodzaje złączeń w Spark SQL (przykłady)