Co to jest Data Lake? - Potrzeba danych wraz z ich zaletami i ryzykiem

Przegląd Data Lake

Jezioro danych to repozytorium, w którym możemy przechowywać dużą liczbę częściowo ustrukturyzowanych, ustrukturyzowanych i nieustrukturyzowanych danych. Unikalny identyfikator z zestawem rozszerzonych znaczników metadanych jest przypisany do wszystkich elementów danych jeziora danych. Gdy pojawia się pytanie biznesowe, możesz poprosić o odpowiednie dane, a następnie przeanalizować mniejsze dane, aby pomóc odpowiedzieć na pytanie. Jezioro ma płaską architekturę, w przeciwieństwie do hierarchicznej hurtowni danych, w której dane są przechowywane w plikach i folderach. Bez uprzedniej strukturyzacji danych możesz przechowywać swoje dane w obecnym stanie, a my możemy przeprowadzać różnego rodzaju analizy, takie jak pulpity nawigacyjne i wizualizacje, do przetwarzania dużych danych, analiz w czasie rzeczywistym i uczenia maszynowego w celu podejmowania lepszych decyzji.

Jezioro jest używane przez specjalistów, takich jak naukowcy danych, programiści danych i analitycy biznesowi, do przechowywania dużej ilości danych.

Używany w jeziorze jest nierelacyjny i relacyjny z urządzeń IoT, stron internetowych, aplikacji mobilnych itp. W schemacie zapisywany jest w czasie analizy, tj. Schematu podczas czytania. Wynik po wykonaniu zapytania jest szybszy.

Dlaczego potrzebujemy Data Lake?

Budując jezioro, naukowcy zajmujący się danymi mogą zobaczyć nieokreślony widok danych.

Powody korzystania z niego są następujące:

Korporacja, która czerpie korzyści biznesowe z danych, z powodzeniem przewyższa konkurencję. W ankiecie Aberdeen korporacja, która założyła Data Lake, była o 9% wyższa niż organiczny wzrost przychodów podobnych firm. Liderzy ci byli w stanie przeprowadzić nowe rodzaje analiz, takie jak uczenie maszynowe za pomocą nowych źródeł, takich jak pliki dziennika, dane kliknięć, media społecznościowe i łączność internetowa w jeziorze.

Obsługuje import danych w czasie rzeczywistym. Dane są gromadzone z wielu zasobów, a następnie przenoszone do jeziora w oryginalnym formacie. Jezioro zapewnia większą skalowalność danych. Ponadto możesz dowiedzieć się, jaki typ danych znajduje się w jeziorze, indeksując, indeksując, katalogując dane.

Obsługuje zarządzanie danymi, które zarządza dostępnością, użytecznością, bezpieczeństwem i integralnością danych.

Może pomóc zespołom badawczo-rozwojowym w przetestowaniu ich hipotezy, dopracowaniu założeń i ocenie wyników.

Brak struktury silosu.

Oferuje klientom widok 360 stopni i solidną analizę.

Jakość analizy rośnie również wraz ze wzrostem ilości danych, jakości danych i metadanych.

Silniki pamięci masowej, takie jak Hadoop, ułatwiają przechowywanie różnych informacji. Nie ma potrzeby modelowania danych za pomocą jeziora w schemacie obejmującym całą firmę.
Jakość analiz rośnie również wraz ze wzrostem ilości danych, jakości danych i metadanych.
Zapewnia elastyczność biznesową
Możliwe jest wykorzystanie uczenia maszynowego i sztucznej inteligencji do tworzenia zyskownych prognoz.

Architektura jeziora danych na platformach Hadoop, AWS i Azure

Jezioro danych ma dwa elementy: przechowywanie i obliczenia. Pamięć masowa i komputery mogą znajdować się na miejscu lub w chmurze. Powoduje to zaprojektowanie architektury jeziora danych w wielu możliwych kombinacjach.

1. Hadoop

Serwer rozproszony klaster Hadoop rozwiązuje problem przechowywania dużych danych. MapReduce to model programowania Hadoop służący do dzielenia i przetwarzania informacji na mniejsze podzbiory w klastrze serwerów.

2. AWS

Gama produktów AWS dla rozwiązania Data Lake jest kompleksowa. Amazon S3 jest w centrum rozwiązania funkcji pamięci. Te narzędzia przetwarzania danych, które pozwalają nam przesyłać ogromne ilości danych do S3, to Kinesis Stream, Kinesis Firehose, Snowball i Direct Connect.

Oprócz Amazon S3 baza danych NoSQL, Dynamo DB i Elastic Search oferują uproszczony proces zapytań. AWS oferuje szeroką gamę produktów o stromej początkowej krzywej uczenia się. Jednak kompleksowe funkcje rozwiązania są szeroko stosowane w aplikacjach wywiadu handlowego.

3. Azure

Micro-soft zaoferował jezioro danych. Jezioro danych Azure ma warstwę analizy i magazynu o nazwie Azure Store (ADLS), a dwa składniki, które warstwa analityczna ma Azure Analytics i HDInsight. Standard ADLS został wbudowany w HDFS i umożliwia przechowywanie nieograniczonej ilości pamięci. Za pomocą jednego pliku można zapisać biliony plików większych niż petabajt. Azure Store umożliwia przechowywanie, zabezpieczanie i skalowanie danych w dowolnym formacie.

Korzyści

Niektóre ważne punkty pokazano poniżej

Zapewnia nieograniczoną wartość typu danych
Szybko dostosowuje się do zmian
Długoterminowe koszty posiadania są zmniejszone
Jego główną zaletą jest centralizacja różnych źródeł treści
Użytkownicy z różnych działów na całym świecie mogą mieć elastyczny dostęp do danych
Zapewnia ekonomiczną skalowalność i elastyczność

Ryzyko

Po pewnym czasie może stracić znaczenie i rozpęd.
Podczas projektowania istnieje większe ryzyko
Zwiększa także koszty przechowywania i produktów
Bezpieczeństwo i kontrola dostępu to największe ryzyko. Czasami dane mogą być umieszczane w jeziorze bez nadzoru, ponieważ niektóre dane mogą wymagać ochrony i regulacji.

Polecane artykuły

To był przewodnik po Co to jest Data Lake ?. Tutaj omówiliśmy koncepcję, dlaczego potrzebujemy Data Lake wraz z ich zaletami i ryzykiem. Możesz także przejrzeć nasze inne Sugerowane artykuły, aby dowiedzieć się więcej-

Nowoczesna integracja danych
Co to jest Data Analytics
Co to jest naruszenie danych?
Data Scientist vs. Big Data
Data Lake vs Data Warehouse | Różnice

Co to jest Data Lake? - Potrzeba danych wraz z ich zaletami i ryzykiem

Spisie treści:

Przegląd Data Lake

Dlaczego potrzebujemy Data Lake?

Architektura jeziora danych na platformach Hadoop, AWS i Azure

1. Hadoop

2. AWS

3. Azure

Korzyści

Ryzyko

Polecane artykuły

Co to jest OOP? - Zasady z przykładami Zalety wady

Co to jest Open Cart? - Jak to działa - Umiejętności i rozwój kariery - Zalety

Co to jest licencja Open-Source? - Praca - Zalety i wady

Co to jest Open Source? - Jak to działa - Umiejętności i zakres - Zalety

Co to jest Oracle RAC? - Kluczowa koncepcja - Jak to działa - Umiejętności i zalety

VBA Concatenate - Jak korzystać z funkcji konkatenacji w VBA Excel?

VBA CSTR - Konwertuj wartość na typ danych ciągu za pomocą programu Excel VBA CSTR

Typy danych VBA - Jak korzystać z 5 najlepszych typów danych w Excel VBA?

Licznik VBA - Jak utworzyć licznik w programie Excel za pomocą kodu VBA?

Wklej kopiowanie VBA - Przewodnik po kopiowaniu i wklejaniu w Excel VBA

10 najczęstszych pytań i odpowiedzi na rozmowę Java Spring (zaktualizowano do 2019 r.)

JavaScript vs VBScript - Poznaj 6 najlepszych niesamowitych różnic

JavaScript vs Ruby - - Odkryj 7 przydatnych porównań

JavaScript vs Node JS - Który jest bardziej przydatny (z infografiką)

10 najważniejszych pytań i odpowiedzi na wywiad z ciągiem Java (Zaktualizowany do 2019 r.)