Różnice między hurtownią danych a platformą Hadoop
W każdej dekadzie branża IT doświadcza dużej innowacji, która wstrząsa całą branżą IT. W ostatnich latach Apache Hadoop zrobił to samo, wprowadzając nowe centra danych do nowej infrastruktury
Zapewniając programistom moc przetwarzania równoległego Hadoop gwałtownie rośnie, a jego ekosystem rozszerza się zarówno pod względem głębokości, jak i szerokości, więc naturalne jest pytanie, czy Hadoop zastąpi tradycyjną hurtownię danych.
Zobaczmy, co powiedział Alasdair Anderson (wiceprezes wykonawczy w Nordea) na szczycie Hadoop na ten gorący temat w mieście.
„Obecnie nie ma związku między EDW a Hadoop - będą się uzupełniać. NIE chodzi o zgrywanie i zastępowanie: nie pozbędziemy się RDBMS ani MPP, ale zamiast tego użyj odpowiedniego narzędzia do właściwej pracy - a to w dużej mierze będzie zależało od ceny. ”
Za każdym razem, gdy zaczyna się ta interesująca dyskusja, pojawia się wiele pytań, takich jak:
1) Jeśli masz duże zbiory danych, potrzebujesz hurtowni danych?
2) Czy Hadoop zastąpi hurtownię danych?
3) Czy to śmierć tradycyjnej ery hurtowni danych?
Aby poznać odpowiedzi na wszystkie te pytania, musimy przyjrzeć się szerszemu kontekstowi tego obrazu.
1. Co to jest Hadoop?
Kto ostatnio nie słyszał o Big Data? Dzięki setkom terabajtów danych generowanych każdego dnia z różnych źródeł jasne jest, że współczesny współczesny świat to świat Big Data
Kiedy zaczniesz mówić o Big Data, prędzej czy później zaczniesz omawiać najgorętszy temat świata Big Data: Hadoop - ale co to właściwie jest?
Hadoop to platforma programistyczna oparta na języku Java, która obsługuje przetwarzanie i przechowywanie bardzo dużych zestawów danych w rozproszonym środowisku komputerowym.
4 moduły Hadoop -
Hadoop składa się z 4 modułów -
- Rozproszony system plików
Rozproszony system plików umożliwia przechowywanie danych w łatwo dostępnym formacie na wielu podłączonych urządzeniach pamięci.
- Zmniejsz mapę
Map Reduce to połączenie dwóch operacji - odczytu danych z bazy danych i umieszczenia ich w formacie odpowiednim do analizy (mapa) i wykonywania operacji matematycznych (redukcja).
- Hadoop Common
Hadoop Common zapewnia narzędzia potrzebne do danych przechowywanych w HDFS (Hadoop Distributed File System)
- PRZĘDZA
YARN zarządza zasobami systemów przechowujących dane i przeprowadzającymi analizy.
2. Co to jest hurtownia danych?
Hurtownia danych to relacyjna baza danych przeznaczona do danych zapytań i analiz. Zwykle zawiera dane historyczne pochodzące z różnych źródeł.
Środowisko hurtowni danych obejmuje rozwiązania ETL, silnik przetwarzania analitycznego online (OLAP), narzędzia analizy klienta i inne aplikacje, które zarządzają procesem analizy danych i dostarczania ich do użytkowników biznesowych.
Podsumujmy, czym jest hurtownia danych -
-
Zorientowany tematycznie
Hurtowni danych można użyć do analizy określonego obszaru tematycznego, takiego jak sprzedaż, finanse i zapasy. Każdy obszar tematyczny zawiera szczegółowe dane.
-
Zintegrowany
Hurtownia danych integruje dane z wielu źródeł danych. Na przykład daty są w tym samym formacie, kody męskie / żeńskie są spójne. W hurtowni danych będzie tylko jeden sposób na identyfikację produktu, a oni wykorzystują ten sam rekord klienta, a nie kopie
-
Nielotny
Dane są przechowywane w hurtowni danych niezmodyfikowane i nie ulegną zmianie. Dlatego danych historycznych w hurtowni danych nigdy nie należy zmieniać.
-
Wariant czasowy
dane można pobierać z 3 miesięcy, 6 miesięcy, 12 miesięcy, a nawet starszych danych z hurtowni danych.
-
Nie wirtualny
Hurtownia danych jest fizycznym, trwałym repozytorium.
Hurtownia danych vs Hadoop (infografiki)
Poniżej znajduje się 6 najlepszych porównań między Data Warehouse a Hadoop
Hurtownia danych vs Hadoop - którego użyć?
- Jeśli masz czyste, spójne i wysokiej jakości dane, powinieneś wybrać hurtownię danych, ponieważ Hadoop nie ma jakości danych w niektórych swoich rozwiązaniach.
- Jeśli masz surowe nieustrukturyzowane dane, powinieneś wybrać Hadoop, ponieważ Hadoop działa dobrze z nieustrukturyzowanymi / surowymi danymi, ale hurtownia danych działa tylko z danymi strukturalnymi.
- W przypadku raportów o niskim opóźnieniu i interaktywnych należy wybrać hurtownię danych
- W przypadku zapytań OLTP / Real-time / Point należy przejść do hurtowni danych, ponieważ Hadoop działa dobrze z danymi wsadowymi.
- W przypadku zestawów danych o dużej objętości powinieneś wybrać Hadoop, ponieważ Hadoop jest zaprojektowany do rozwiązywania problemów Big Data.
Bezpośrednia tabela porównawcza między hurtownią danych a Hadoop
Poniżej znajduje się lista punktów opisujących porównania między hurtownią danych a platformą Hadoop
Podstawa do porównania | Hurtownia danych | Hadoop |
Dane | W hurtowni danych analizujemy ustrukturyzowane i przetwarzane dane | W Hadoop możemy przetwarzać dowolne dane, w tym uporządkowane / nieustrukturyzowane / półstrukturalne i surowe |
Przetwarzanie | Jego przetwarzanie opiera się na pojęciach schematu przy zapisie | Jego przetwarzanie opiera się na koncepcjach odczytu schematu |
Przechowywanie | Nadaje się do danych o małym wolumenie i jest zbyt kosztowny dla danych o dużej objętości | Działa dobrze z dużymi zestawami danych o dużej objętości, prędkości i różnorodności |
Zwinność | Jest mniej zwinny i ma stałą konfigurację | Jest bardzo zwinny, konfiguruje i konfiguruje w razie potrzeby |
Bezpieczeństwo | Technologie hurtowni danych istnieją już od dziesięcioleci. Dlatego pod względem bezpieczeństwa możemy polegać na hurtowni danych | Podczas gdy technologie Hadoop są stosunkowo nowe w porównaniu do hurtowni danych, bezpieczeństwo jest tutaj dużym problemem |
Użytkownicy | Profesjonaliści zazwyczaj korzystają z hurtowni danych | Hadoop jest dość znany w dziedzinie nauki o danych i inżynierii danych |
Wniosek - hurtownia danych vs Hadoop
Teraz wiemy o hurtowni danych i Hadoop, wróćmy do pytania, które zadaliśmy na początku tego artykułu o hurtowni danych i Hadoop -
1) Jeśli masz duże zbiory danych, potrzebujesz hurtowni danych?
Odpowiedź - o ile Twoja organizacja potrzebuje wiarygodnych, wiarygodnych i dostępnych danych, potrzebujesz hurtowni danych.
2) Czy Hadoop zastąpi hurtownię danych?
Odpowiedź - Porównanie hurtowni danych z Hadoop przypomina porównywanie jabłek i pomarańczy. Zarówno hurtownia danych, jak i Hadoop mają swoje zalety w różnych scenariuszach przypadków użycia. W niektórych przypadkach nadal jesteśmy zależni od tradycyjnych technik hurtowni danych, ale wraz ze zmianami czasu bardziej skupiamy się na Hadoop Framework, aby poradzić sobie z problemami z Big Data.
3) Czy to śmierć tradycyjnej epoki hurtowni danych?
Odpowiedź - jak widać, nie jest to tak naprawdę proste pytanie i dlatego nie nadaje się do prostej odpowiedzi. To prawda, że duże zbiory danych zmienią tradycyjne podejście do hurtowni danych w ciągu najbliższych kilku lat, ale nie zastąpi koncepcji i praktyki hurtowni danych.
Polecany artykuł
To był przydatny przewodnik po hurtowni danych vs Hadoop. Omówiliśmy ich znaczenie, porównanie między głowami, kluczową różnicę i wnioski. Możesz także spojrzeć na następujący artykuł, aby dowiedzieć się więcej -
- Hadoop vs Splunk - Odkryj 7 najlepszych różnic
- Hadoop vs Elasticsearch - Który jest bardziej przydatny
- Big Data vs. Data Warehouse - Znajdź najlepsze różnice
- Analiza biznesowa a hurtownia danych
- Splunk vs Nagios