Hurtownia danych vs Hadoop - 6 ważnych różnic do poznania

Spisie treści:

Anonim

Różnice między hurtownią danych a platformą Hadoop

W każdej dekadzie branża IT doświadcza dużej innowacji, która wstrząsa całą branżą IT. W ostatnich latach Apache Hadoop zrobił to samo, wprowadzając nowe centra danych do nowej infrastruktury

Zapewniając programistom moc przetwarzania równoległego Hadoop gwałtownie rośnie, a jego ekosystem rozszerza się zarówno pod względem głębokości, jak i szerokości, więc naturalne jest pytanie, czy Hadoop zastąpi tradycyjną hurtownię danych.

Zobaczmy, co powiedział Alasdair Anderson (wiceprezes wykonawczy w Nordea) na szczycie Hadoop na ten gorący temat w mieście.

„Obecnie nie ma związku między EDW a Hadoop - będą się uzupełniać. NIE chodzi o zgrywanie i zastępowanie: nie pozbędziemy się RDBMS ani MPP, ale zamiast tego użyj odpowiedniego narzędzia do właściwej pracy - a to w dużej mierze będzie zależało od ceny.

Za każdym razem, gdy zaczyna się ta interesująca dyskusja, pojawia się wiele pytań, takich jak:

1) Jeśli masz duże zbiory danych, potrzebujesz hurtowni danych?

2) Czy Hadoop zastąpi hurtownię danych?

3) Czy to śmierć tradycyjnej ery hurtowni danych?

Aby poznać odpowiedzi na wszystkie te pytania, musimy przyjrzeć się szerszemu kontekstowi tego obrazu.

1. Co to jest Hadoop?

Kto ostatnio nie słyszał o Big Data? Dzięki setkom terabajtów danych generowanych każdego dnia z różnych źródeł jasne jest, że współczesny współczesny świat to świat Big Data

Kiedy zaczniesz mówić o Big Data, prędzej czy później zaczniesz omawiać najgorętszy temat świata Big Data: Hadoop - ale co to właściwie jest?

Hadoop to platforma programistyczna oparta na języku Java, która obsługuje przetwarzanie i przechowywanie bardzo dużych zestawów danych w rozproszonym środowisku komputerowym.

4 moduły Hadoop -

Hadoop składa się z 4 modułów -

  1. Rozproszony system plików

Rozproszony system plików umożliwia przechowywanie danych w łatwo dostępnym formacie na wielu podłączonych urządzeniach pamięci.

  1. Zmniejsz mapę

Map Reduce to połączenie dwóch operacji - odczytu danych z bazy danych i umieszczenia ich w formacie odpowiednim do analizy (mapa) i wykonywania operacji matematycznych (redukcja).

  1. Hadoop Common

Hadoop Common zapewnia narzędzia potrzebne do danych przechowywanych w HDFS (Hadoop Distributed File System)

  1. PRZĘDZA

YARN zarządza zasobami systemów przechowujących dane i przeprowadzającymi analizy.

2. Co to jest hurtownia danych?

Hurtownia danych to relacyjna baza danych przeznaczona do danych zapytań i analiz. Zwykle zawiera dane historyczne pochodzące z różnych źródeł.

Środowisko hurtowni danych obejmuje rozwiązania ETL, silnik przetwarzania analitycznego online (OLAP), narzędzia analizy klienta i inne aplikacje, które zarządzają procesem analizy danych i dostarczania ich do użytkowników biznesowych.

Podsumujmy, czym jest hurtownia danych -

  1. Zorientowany tematycznie

Hurtowni danych można użyć do analizy określonego obszaru tematycznego, takiego jak sprzedaż, finanse i zapasy. Każdy obszar tematyczny zawiera szczegółowe dane.

  1. Zintegrowany

Hurtownia danych integruje dane z wielu źródeł danych. Na przykład daty są w tym samym formacie, kody męskie / żeńskie są spójne. W hurtowni danych będzie tylko jeden sposób na identyfikację produktu, a oni wykorzystują ten sam rekord klienta, a nie kopie

  1. Nielotny

Dane są przechowywane w hurtowni danych niezmodyfikowane i nie ulegną zmianie. Dlatego danych historycznych w hurtowni danych nigdy nie należy zmieniać.

  1. Wariant czasowy

dane można pobierać z 3 miesięcy, 6 miesięcy, 12 miesięcy, a nawet starszych danych z hurtowni danych.

  1. Nie wirtualny

Hurtownia danych jest fizycznym, trwałym repozytorium.

Hurtownia danych vs Hadoop (infografiki)

Poniżej znajduje się 6 najlepszych porównań między Data Warehouse a Hadoop

Hurtownia danych vs Hadoop - którego użyć?

  • Jeśli masz czyste, spójne i wysokiej jakości dane, powinieneś wybrać hurtownię danych, ponieważ Hadoop nie ma jakości danych w niektórych swoich rozwiązaniach.
  • Jeśli masz surowe nieustrukturyzowane dane, powinieneś wybrać Hadoop, ponieważ Hadoop działa dobrze z nieustrukturyzowanymi / surowymi danymi, ale hurtownia danych działa tylko z danymi strukturalnymi.
  • W przypadku raportów o niskim opóźnieniu i interaktywnych należy wybrać hurtownię danych
  • W przypadku zapytań OLTP / Real-time / Point należy przejść do hurtowni danych, ponieważ Hadoop działa dobrze z danymi wsadowymi.
  • W przypadku zestawów danych o dużej objętości powinieneś wybrać Hadoop, ponieważ Hadoop jest zaprojektowany do rozwiązywania problemów Big Data.

Bezpośrednia tabela porównawcza między hurtownią danych a Hadoop

Poniżej znajduje się lista punktów opisujących porównania między hurtownią danych a platformą Hadoop

Podstawa do porównaniaHurtownia danychHadoop
DaneW hurtowni danych analizujemy ustrukturyzowane i przetwarzane daneW Hadoop możemy przetwarzać dowolne dane, w tym uporządkowane / nieustrukturyzowane / półstrukturalne i surowe
PrzetwarzanieJego przetwarzanie opiera się na pojęciach schematu przy zapisieJego przetwarzanie opiera się na koncepcjach odczytu schematu
PrzechowywanieNadaje się do danych o małym wolumenie i jest zbyt kosztowny dla danych o dużej objętościDziała dobrze z dużymi zestawami danych o dużej objętości, prędkości i różnorodności
ZwinnośćJest mniej zwinny i ma stałą konfiguracjęJest bardzo zwinny, konfiguruje i konfiguruje w razie potrzeby
BezpieczeństwoTechnologie hurtowni danych istnieją już od dziesięcioleci. Dlatego pod względem bezpieczeństwa możemy polegać na hurtowni danychPodczas gdy technologie Hadoop są stosunkowo nowe w porównaniu do hurtowni danych, bezpieczeństwo jest tutaj dużym problemem
UżytkownicyProfesjonaliści zazwyczaj korzystają z hurtowni danychHadoop jest dość znany w dziedzinie nauki o danych i inżynierii danych

Wniosek - hurtownia danych vs Hadoop

Teraz wiemy o hurtowni danych i Hadoop, wróćmy do pytania, które zadaliśmy na początku tego artykułu o hurtowni danych i Hadoop -

1) Jeśli masz duże zbiory danych, potrzebujesz hurtowni danych?

Odpowiedź - o ile Twoja organizacja potrzebuje wiarygodnych, wiarygodnych i dostępnych danych, potrzebujesz hurtowni danych.

2) Czy Hadoop zastąpi hurtownię danych?

Odpowiedź - Porównanie hurtowni danych z Hadoop przypomina porównywanie jabłek i pomarańczy. Zarówno hurtownia danych, jak i Hadoop mają swoje zalety w różnych scenariuszach przypadków użycia. W niektórych przypadkach nadal jesteśmy zależni od tradycyjnych technik hurtowni danych, ale wraz ze zmianami czasu bardziej skupiamy się na Hadoop Framework, aby poradzić sobie z problemami z Big Data.

3) Czy to śmierć tradycyjnej epoki hurtowni danych?

Odpowiedź - jak widać, nie jest to tak naprawdę proste pytanie i dlatego nie nadaje się do prostej odpowiedzi. To prawda, że ​​duże zbiory danych zmienią tradycyjne podejście do hurtowni danych w ciągu najbliższych kilku lat, ale nie zastąpi koncepcji i praktyki hurtowni danych.

Polecany artykuł

To był przydatny przewodnik po hurtowni danych vs Hadoop. Omówiliśmy ich znaczenie, porównanie między głowami, kluczową różnicę i wnioski. Możesz także spojrzeć na następujący artykuł, aby dowiedzieć się więcej -

  1. Hadoop vs Splunk - Odkryj 7 najlepszych różnic
  2. Hadoop vs Elasticsearch - Który jest bardziej przydatny
  3. Big Data vs. Data Warehouse - Znajdź najlepsze różnice
  4. Analiza biznesowa a hurtownia danych
  5. Splunk vs Nagios