Rurociąg danych AWS - Potrzeba potoku danych i komponentów

Wprowadzenie do potoku danych AWS

Dane rosną wykładniczo z dnia na dzień i stają się trudne do zarządzania w porównaniu do przeszłości. Potrzebujemy narzędzi i usług do wydajnego zarządzania naszymi danymi przy niższych kosztach - właśnie tam przychodzi na myśl Potok Danych AWS. Nie chodzi tylko o przechowywanie danych, ale musisz analizować, przetwarzać, przekształcać dane w pożądaną formę w tym samym miejscu, wszystko to można osiągnąć dzięki AWS Data Pipeline.

Potrzeba potoku danych

Spróbujmy zrozumieć potrzebę potoku danych na przykładzie:

Przykład 1

Mamy stronę internetową, która wyświetla obrazy i gify na podstawie wyszukiwań użytkowników lub filtrów. Naszym głównym celem jest wyświetlanie treści. Są pewne cele do osiągnięcia, które są następujące:

Poprawa dostarczania treści: serwowanie tego, czego oczekują użytkownicy skutecznie i wystarczająco szybko.
Wydajne zarządzanie aplikacją: przechowywanie danych użytkownika, a także dzienników witryny do późniejszych celów analitycznych.
Ulepsz biznes: Wykorzystanie przechowywanych danych i danych analitycznych powoduje, że biznes staje się lepszy po niższych kosztach.

Przykład nr 2

Istnieją pewne wąskie gardła, którymi należy się zająć, aby osiągnąć cele:

Ogromna ilość danych w różnych formatach i różnych miejscach, co sprawia, że przetwarzanie, przechowywanie i migracja danych jest złożonym zadaniem.

Różne komponenty do przechowywania danych dla różnych typów danych:

Możliwe dane w czasie rzeczywistym dla zarejestrowanych użytkowników: Dynamo DB .
Dzienniki serwera WWW dla potencjalnych użytkowników: Amazon S3 .
Dane demograficzne i dane logowania: Amazon RDS.
Dane czujnika i zestaw danych innych firm: Amazon S3.

Rozwiązania

Wykonalne rozwiązanie: widzimy, że mamy do czynienia z różnego rodzaju narzędziami do konwersji danych z nieustrukturyzowanych na strukturyzowane do analizy. Tutaj musimy użyć różnych narzędzi do przechowywania danych i ponownie do konwersji, analizy i przechowywania przetworzonych danych. Nie jest to opłacalne rozwiązanie.
Optymalne rozwiązanie: użyj potoku danych, który obsługuje przetwarzanie, wizualizację i migrację. Potok danych może być przydatny w migracji danych z różnych miejsc, analizując dane i przetwarzając je w tym samym miejscu w Twoim imieniu.

Co to jest potok danych AWS?

AWS Data Pipeline to zasadniczo usługa internetowa oferowana przez Amazon, która pomaga przekształcać, przetwarzać i analizować dane w skalowalny i niezawodny sposób, a także przechowywać przetwarzane dane w S3, DynamoDb lub lokalnej bazie danych.

Dzięki AWS Data Pipeline możesz łatwo uzyskać dostęp do danych z różnych źródeł.
Przetwarzaj i przetwarzaj te dane w skali.
Wydajnie przesyłaj wyniki do innych usług, takich jak S3, tabela DynamoDb lub lokalny magazyn danych.

Przykład podstawowego użycia potoku danych

Moglibyśmy mieć stronę internetową wdrożoną przez EC2, która generuje dzienniki każdego dnia.
Proste codzienne zadanie można skopiować pliki dziennika z E2 i osiągnąć je do segmentu S3.
Cotygodniowym zadaniem może być przetwarzanie danych i uruchamianie analizy danych w Amazon EMR w celu generowania tygodniowych raportów na podstawie wszystkich zebranych danych.

Uruchamianie analizy danych za pomocą potoku danych AWS

Zbieranie danych z różnych źródeł danych, takich jak - S3, Dynamodb, lokalny, dane z czujników itp.
Przeprowadzanie transformacji, przetwarzania i analiz w AWS EMR w celu generowania cotygodniowych raportów.
Raport tygodniowy zapisywany w Redshift, S3 lub lokalnej bazie danych.

Korzyści z potoku danych AWS

Poniżej punkty wyjaśniają zalety potoku danych AWS:

Przeciągnij i upuść konsolę, która jest łatwa do zrozumienia i użycia.
Rozproszona i niezawodna infrastruktura: potoki danych działają na usługach skalowalnych i są niezawodne, jeśli wystąpi błąd lub zadanie, można ustawić ponawianie próby.
Obsługuje planowanie i śledzenie błędów: możesz zaplanować swoje zadania i śledzić je pod kątem niepowodzenia i sukcesu.
Rozproszony: może być uruchomiony równolegle na wielu komputerach lub liniowo.
Pełna kontrola nad zasobami obliczeniowymi, takimi jak EC2, klastry EMR.

Elementy rurociągu danych AWS

Poniżej znajdują się elementy potoku danych AWS:

1. Definicja rurociągu

Przekształć logikę biznesową w potok danych AWS.

Węzły danych : Zawiera nazwę, lokalizację, format źródła danych, którymi może być (S3, dynamodb, lokalnie)
Działania : przenoszenie, przekształcanie lub wykonywanie zapytań dotyczących danych.
Zaplanuj : Zaplanuj codzienne lub cotygodniowe zajęcia.
Warunek wstępny : warunki takie jak uruchomienie harmonogramu sprawdzają dostępność danych u źródła.
Zasoby : Oblicz zasoby EC2, EMR.
Działania : Aktualizuj informacje o potoku danych, wysyłaniu powiadomień, wyzwalaniu alarmu.

2. Rurociągi

Tutaj planujesz i uruchamiasz zadania w celu wykonania zdefiniowanych działań.

Komponenty rurociągu : Komponenty rurociągu są takie same jak komponenty definicji rurociągu.
Instancje: Podczas uruchamiania zadań AWS kompiluje wszystkie komponenty, aby utworzyć określone instancje, które można wykonać. Takie instancje zawierają wszystkie informacje o konkretnych zadaniach.
Próby: już dyskutowaliśmy o tym, jak wiarygodny jest potok danych z mechanizmami ponownej próby. Tutaj ustawiasz, ile razy chcesz ponawiać zadanie w przypadku niepowodzenia.

3. Task Runner

Pyta lub odpytuje o zadania z potoku danych AWS, a następnie wykonuje te zadania.

Ceny rurociągów danych AWS

Poniżej punkty wyjaśniają ceny rurociągów danych AWS:

1. Darmowy poziom

Możesz rozpocząć korzystanie z AWS Data Pipeline za darmo jako część warstwy bezpłatnego użytkowania AWS. Nowi klienci rejestrujący otrzymują co miesiąc bezpłatne świadczenia przez rok:

3 Warunki wstępne niskiej częstotliwości działające na AWS bez żadnych opłat.
5 Działania na niskiej częstotliwości działające na AWS bez żadnych opłat.

2. Niska częstotliwość

Niska częstotliwość ma być uruchamiana raz dziennie lub krócej. Pipeline danych jest zgodny z tą samą strategią rozliczeniową, co inne usługi sieciowe AWS, tzn. Rozliczane za korzystanie. Jest zależny od tego, jak często Twoje zadania, działania i warunki wstępne są uruchamiane każdego dnia i gdzie działają (AWS lub lokalnie). Działania o wysokiej częstotliwości są zaplanowane na więcej niż raz dziennie.

Przykład: Możemy zaplanować działanie tak, aby uruchamiało się co godzinę i przetwarzało dzienniki witryny lub może to być co 12 godzin. Natomiast działania o niskiej częstotliwości to te, które są uruchamiane raz dziennie lub rzadziej, jeśli warunki wstępne nie są spełnione. Nieaktywne rurociągi mają stan NIEAKTYWNY, OCZEKUJĄCY i ZAKOŃCZONY.

3. Wycena potoku danych AWS pokazana z uwzględnieniem regionu

Region nr 1: Wschodni USA (N.Virginia), Zachodni USA (Oregon), Azja Pacyfik (Sydney), UE (Irlandia)

	Wysoka częstotliwość	Niska częstotliwość
Działania lub warunki wstępne działające w AWS	1, 00 USD miesięcznie	0, 06 USD miesięcznie
Działania lub warunki wstępne działające lokalnie	2, 50 USD miesięcznie	1, 50 USD miesięcznie
Nieaktywne rurociągi: 1, 00 USD miesięcznie

Region nr 2: Azja i Pacyfik (Tokio)

	Wysoka częstotliwość	Niska częstotliwość
Działania lub warunki wstępne działające w AWS	0, 9524 USD na miesiąc	0, 5715 USD miesięcznie
Działania lub warunki wstępne działające lokalnie	2, 381 USD na miesiąc	1, 4286 USD na miesiąc
Nieaktywne rurociągi: 0, 9524 USD miesięcznie

Potok, że codzienne zadanie, tj. Działanie niskiej częstotliwości w AWS, do przenoszenia danych z tabeli DynamoDB do Amazon S3, kosztowałoby 0, 60 USD miesięcznie. Jeśli dodamy EC2 w celu wygenerowania raportu na podstawie danych Amazon S3, całkowity koszt rurociągu wyniesie 1, 20 USD miesięcznie. Jeśli prowadzimy tę aktywność co 6 godzin, będzie to kosztować 2, 00 USD miesięcznie, ponieważ wtedy będzie to aktywność o wysokiej częstotliwości.

Wniosek

AWS Data Pipeline to bardzo przydatne rozwiązanie do zarządzania wykładniczo rosnącymi danymi przy niższych kosztach. Jest bardzo niezawodny, a także skalowalny w zależności od zastosowania. AWS Data Pipeline to bardzo dobry wybór do realizacji wszystkich naszych celów biznesowych, niezależnie od potrzeb biznesowych związanych z dużą ilością danych.

Polecane artykuły

Jest to przewodnik po potoku danych AWS. Tutaj omawiamy potrzeby potoku danych, czym jest potok danych AWS, jego szczegóły dotyczące komponentów i cen. Możesz również przejrzeć nasze inne powiązane artykuły, aby dowiedzieć się więcej -

AWS EBS
Bazy danych AWS
Co to jest AWS EC2?
Korzyści z wizualizacji danych
7 najlepszych konkurentów AWS z funkcjami
Poznaj listę funkcji Amazon Web Services

Rurociąg danych AWS - Potrzeba potoku danych i komponentów

Spisie treści:

Wprowadzenie do potoku danych AWS

Potrzeba potoku danych

Przykład 1

Przykład nr 2

Rozwiązania

Co to jest potok danych AWS?

Przykład podstawowego użycia potoku danych

Uruchamianie analizy danych za pomocą potoku danych AWS

Korzyści z potoku danych AWS

Elementy rurociągu danych AWS

1. Definicja rurociągu

2. Rurociągi

3. Task Runner

Ceny rurociągów danych AWS

1. Darmowy poziom

2. Niska częstotliwość

3. Wycena potoku danych AWS pokazana z uwzględnieniem regionu

Wniosek

Polecane artykuły

Przenieś narzędzie w Photoshopie - Jak korzystać z narzędzia Move w Photoshopie

8 porad dotyczących tworzenia niesamowitej prezentacji MS PowerPoint - eduCBA

MS SQL vs MYSQL - 8 najcenniejszych różnic, które powinieneś znać

Zbuduj innowacyjny MS Project Online za darmo - Przykład - Plan

10 najbardziej udanych pytań i odpowiedzi na rozmowę Mulesoft

Preferencje programu Photoshop CS5 Essential

Jak zresetować preferencje programu Photoshop

Mini Bridge w programie Photoshop CS5

Nowe funkcje Photoshop CS4 - układy wielu dokumentów

Jak pobierać zdjęcia z aparatu za pomocą Adobe Bridge CS4

Wzór na przepływy pieniężne netto - Kalkulator (przykłady z szablonem Excel)

Urządzenia sieciowe - Lista najpopularniejszych urządzeń sieciowych z przewagą

Polecenia sieciowe - Top 9 poleceń sieci

10 podstawowych pytań do wywiadu sieciowego (zaktualizowano do 2019 r.)

NETWORKDAYS w Excelu (wzór, przykłady) - Korzystanie z NETWORKDAYS