Wprowadzenie do potoku danych AWS

Dane rosną wykładniczo z dnia na dzień i stają się trudne do zarządzania w porównaniu do przeszłości. Potrzebujemy narzędzi i usług do wydajnego zarządzania naszymi danymi przy niższych kosztach - właśnie tam przychodzi na myśl Potok Danych AWS. Nie chodzi tylko o przechowywanie danych, ale musisz analizować, przetwarzać, przekształcać dane w pożądaną formę w tym samym miejscu, wszystko to można osiągnąć dzięki AWS Data Pipeline.

Potrzeba potoku danych

Spróbujmy zrozumieć potrzebę potoku danych na przykładzie:

Przykład 1

Mamy stronę internetową, która wyświetla obrazy i gify na podstawie wyszukiwań użytkowników lub filtrów. Naszym głównym celem jest wyświetlanie treści. Są pewne cele do osiągnięcia, które są następujące:

  • Poprawa dostarczania treści: serwowanie tego, czego oczekują użytkownicy skutecznie i wystarczająco szybko.
  • Wydajne zarządzanie aplikacją: przechowywanie danych użytkownika, a także dzienników witryny do późniejszych celów analitycznych.
  • Ulepsz biznes: Wykorzystanie przechowywanych danych i danych analitycznych powoduje, że biznes staje się lepszy po niższych kosztach.

Przykład nr 2

Istnieją pewne wąskie gardła, którymi należy się zająć, aby osiągnąć cele:

  • Ogromna ilość danych w różnych formatach i różnych miejscach, co sprawia, że ​​przetwarzanie, przechowywanie i migracja danych jest złożonym zadaniem.

Różne komponenty do przechowywania danych dla różnych typów danych:

  • Możliwe dane w czasie rzeczywistym dla zarejestrowanych użytkowników: Dynamo DB .
  • Dzienniki serwera WWW dla potencjalnych użytkowników: Amazon S3 .
  • Dane demograficzne i dane logowania: Amazon RDS.
  • Dane czujnika i zestaw danych innych firm: Amazon S3.

Rozwiązania

  • Wykonalne rozwiązanie: widzimy, że mamy do czynienia z różnego rodzaju narzędziami do konwersji danych z nieustrukturyzowanych na strukturyzowane do analizy. Tutaj musimy użyć różnych narzędzi do przechowywania danych i ponownie do konwersji, analizy i przechowywania przetworzonych danych. Nie jest to opłacalne rozwiązanie.
  • Optymalne rozwiązanie: użyj potoku danych, który obsługuje przetwarzanie, wizualizację i migrację. Potok danych może być przydatny w migracji danych z różnych miejsc, analizując dane i przetwarzając je w tym samym miejscu w Twoim imieniu.

Co to jest potok danych AWS?

AWS Data Pipeline to zasadniczo usługa internetowa oferowana przez Amazon, która pomaga przekształcać, przetwarzać i analizować dane w skalowalny i niezawodny sposób, a także przechowywać przetwarzane dane w S3, DynamoDb lub lokalnej bazie danych.

  • Dzięki AWS Data Pipeline możesz łatwo uzyskać dostęp do danych z różnych źródeł.
  • Przetwarzaj i przetwarzaj te dane w skali.
  • Wydajnie przesyłaj wyniki do innych usług, takich jak S3, tabela DynamoDb lub lokalny magazyn danych.

Przykład podstawowego użycia potoku danych

  • Moglibyśmy mieć stronę internetową wdrożoną przez EC2, która generuje dzienniki każdego dnia.
  • Proste codzienne zadanie można skopiować pliki dziennika z E2 i osiągnąć je do segmentu S3.
  • Cotygodniowym zadaniem może być przetwarzanie danych i uruchamianie analizy danych w Amazon EMR w celu generowania tygodniowych raportów na podstawie wszystkich zebranych danych.

Uruchamianie analizy danych za pomocą potoku danych AWS

  • Zbieranie danych z różnych źródeł danych, takich jak - S3, Dynamodb, lokalny, dane z czujników itp.
  • Przeprowadzanie transformacji, przetwarzania i analiz w AWS EMR w celu generowania cotygodniowych raportów.
  • Raport tygodniowy zapisywany w Redshift, S3 lub lokalnej bazie danych.

Korzyści z potoku danych AWS

Poniżej punkty wyjaśniają zalety potoku danych AWS:

  • Przeciągnij i upuść konsolę, która jest łatwa do zrozumienia i użycia.
  • Rozproszona i niezawodna infrastruktura: potoki danych działają na usługach skalowalnych i są niezawodne, jeśli wystąpi błąd lub zadanie, można ustawić ponawianie próby.
  • Obsługuje planowanie i śledzenie błędów: możesz zaplanować swoje zadania i śledzić je pod kątem niepowodzenia i sukcesu.
  • Rozproszony: może być uruchomiony równolegle na wielu komputerach lub liniowo.
  • Pełna kontrola nad zasobami obliczeniowymi, takimi jak EC2, klastry EMR.

Elementy rurociągu danych AWS

Poniżej znajdują się elementy potoku danych AWS:

1. Definicja rurociągu

Przekształć logikę biznesową w potok danych AWS.

  • Węzły danych : Zawiera nazwę, lokalizację, format źródła danych, którymi może być (S3, dynamodb, lokalnie)
  • Działania : przenoszenie, przekształcanie lub wykonywanie zapytań dotyczących danych.
  • Zaplanuj : Zaplanuj codzienne lub cotygodniowe zajęcia.
  • Warunek wstępny : warunki takie jak uruchomienie harmonogramu sprawdzają dostępność danych u źródła.
  • Zasoby : Oblicz zasoby EC2, EMR.
  • Działania : Aktualizuj informacje o potoku danych, wysyłaniu powiadomień, wyzwalaniu alarmu.

2. Rurociągi

Tutaj planujesz i uruchamiasz zadania w celu wykonania zdefiniowanych działań.

  • Komponenty rurociągu : Komponenty rurociągu są takie same jak komponenty definicji rurociągu.
  • Instancje: Podczas uruchamiania zadań AWS kompiluje wszystkie komponenty, aby utworzyć określone instancje, które można wykonać. Takie instancje zawierają wszystkie informacje o konkretnych zadaniach.
  • Próby: już dyskutowaliśmy o tym, jak wiarygodny jest potok danych z mechanizmami ponownej próby. Tutaj ustawiasz, ile razy chcesz ponawiać zadanie w przypadku niepowodzenia.

3. Task Runner

Pyta lub odpytuje o zadania z potoku danych AWS, a następnie wykonuje te zadania.

Ceny rurociągów danych AWS

Poniżej punkty wyjaśniają ceny rurociągów danych AWS:

1. Darmowy poziom

Możesz rozpocząć korzystanie z AWS Data Pipeline za darmo jako część warstwy bezpłatnego użytkowania AWS. Nowi klienci rejestrujący otrzymują co miesiąc bezpłatne świadczenia przez rok:

  • 3 Warunki wstępne niskiej częstotliwości działające na AWS bez żadnych opłat.
  • 5 Działania na niskiej częstotliwości działające na AWS bez żadnych opłat.

2. Niska częstotliwość

Niska częstotliwość ma być uruchamiana raz dziennie lub krócej. Pipeline danych jest zgodny z tą samą strategią rozliczeniową, co inne usługi sieciowe AWS, tzn. Rozliczane za korzystanie. Jest zależny od tego, jak często Twoje zadania, działania i warunki wstępne są uruchamiane każdego dnia i gdzie działają (AWS lub lokalnie). Działania o wysokiej częstotliwości są zaplanowane na więcej niż raz dziennie.

Przykład: Możemy zaplanować działanie tak, aby uruchamiało się co godzinę i przetwarzało dzienniki witryny lub może to być co 12 godzin. Natomiast działania o niskiej częstotliwości to te, które są uruchamiane raz dziennie lub rzadziej, jeśli warunki wstępne nie są spełnione. Nieaktywne rurociągi mają stan NIEAKTYWNY, OCZEKUJĄCY i ZAKOŃCZONY.

3. Wycena potoku danych AWS pokazana z uwzględnieniem regionu

Region nr 1: Wschodni USA (N.Virginia), Zachodni USA (Oregon), Azja Pacyfik (Sydney), UE (Irlandia)

Wysoka częstotliwośćNiska częstotliwość
Działania lub warunki wstępne działające w AWS 1, 00 USD miesięcznie 0, 06 USD miesięcznie
Działania lub warunki wstępne działające lokalnie 2, 50 USD miesięcznie 1, 50 USD miesięcznie
Nieaktywne rurociągi: 1, 00 USD miesięcznie

Region nr 2: Azja i Pacyfik (Tokio)

Wysoka częstotliwośćNiska częstotliwość
Działania lub warunki wstępne działające w AWS 0, 9524 USD na miesiąc 0, 5715 USD miesięcznie
Działania lub warunki wstępne działające lokalnie 2, 381 USD na miesiąc 1, 4286 USD na miesiąc
Nieaktywne rurociągi: 0, 9524 USD miesięcznie

Potok, że codzienne zadanie, tj. Działanie niskiej częstotliwości w AWS, do przenoszenia danych z tabeli DynamoDB do Amazon S3, kosztowałoby 0, 60 USD miesięcznie. Jeśli dodamy EC2 w celu wygenerowania raportu na podstawie danych Amazon S3, całkowity koszt rurociągu wyniesie 1, 20 USD miesięcznie. Jeśli prowadzimy tę aktywność co 6 godzin, będzie to kosztować 2, 00 USD miesięcznie, ponieważ wtedy będzie to aktywność o wysokiej częstotliwości.

Wniosek

AWS Data Pipeline to bardzo przydatne rozwiązanie do zarządzania wykładniczo rosnącymi danymi przy niższych kosztach. Jest bardzo niezawodny, a także skalowalny w zależności od zastosowania. AWS Data Pipeline to bardzo dobry wybór do realizacji wszystkich naszych celów biznesowych, niezależnie od potrzeb biznesowych związanych z dużą ilością danych.

Polecane artykuły

Jest to przewodnik po potoku danych AWS. Tutaj omawiamy potrzeby potoku danych, czym jest potok danych AWS, jego szczegóły dotyczące komponentów i cen. Możesz również przejrzeć nasze inne powiązane artykuły, aby dowiedzieć się więcej -

  1. AWS EBS
  2. Bazy danych AWS
  3. Co to jest AWS EC2?
  4. Korzyści z wizualizacji danych
  5. 7 najlepszych konkurentów AWS z funkcjami
  6. Poznaj listę funkcji Amazon Web Services

Kategoria: