Wprowadzenie do architektury hurtowni danych

  • Hurtownia danych to miejsce przechowywania zawierające kolekcje kilku różnych rodzajów danych pozyskanych z kilku rodzajów źródeł.
  • Cały proces, w którym zewnętrzne źródła danych są pozyskiwane, przetwarzane, przechowywane i analizowane w celu uzyskania użytecznych informacji, odbywa się w ramach zestawu systemów, które są zunifikowane przez jeden schemat znany jako Architektura hurtowni danych.

Architektura hurtowni danych

Architektura hurtowni danych zasadniczo składa się z trzech poziomów.

  • Górna warstwa
  • Środkowy poziom
  • Dolny poziom

Górna warstwa

  • Najwyższy poziom składa się z frontonu architektury po stronie klienta.
  • Informacje dotyczące zastosowanych transformacji i logiki przechowywane w hurtowni danych będą wykorzystywane i pozyskiwane do celów biznesowych na tym poziomie.
  • Dostępnych jest kilka narzędzi do generowania i analizy raportów w celu generowania pożądanych informacji.
  • Odbywa się tutaj eksploracja danych, która stała się obecnie wielkim trendem.
  • Wszystkie dokumenty dotyczące analizy wymagań, koszty i wszystkie funkcje określające transakcję biznesową opartą na zyskach przeprowadzane są w oparciu o te narzędzia, które wykorzystują informacje z hurtowni danych.

Środkowy poziom

  • Środkowy poziom składa się z serwerów OLAP
  • OLAP to internetowy serwer przetwarzania analitycznego
  • OLAP służy do dostarczania informacji analitykom biznesowym i menedżerom
  • Ponieważ znajduje się na środkowym poziomie, słusznie wchodzi w interakcję z informacjami znajdującymi się na dolnym poziomie i przekazuje informacje do narzędzi najwyższego poziomu, które przetwarzają dostępne informacje.
  • W architekturze hurtowni danych stosowany jest głównie OLAP relacyjny lub wielowymiarowy.

Dolny poziom

Dolny poziom składa się głównie ze źródeł danych, narzędzia ETL i hurtowni danych.

1. Źródła danych

Źródła danych składają się z danych źródłowych, które są gromadzone i przekazywane narzędziom pomostowym i ETL w celu dalszego przetwarzania.

2. Narzędzia ETL

  • Narzędzia ETL są bardzo ważne, ponieważ pomagają połączyć logikę, surowe dane i schemat w jedno oraz ładują informacje do hurtowni danych lub hurtowni danych.
  • Czasami ETL ładuje dane do Data Marts, a następnie informacje są przechowywane w hurtowni danych. To podejście jest znane jako podejście oddolne.
  • Podejście, w którym ETL ładuje informacje bezpośrednio do hurtowni danych, znane jest jako podejście odgórne.

Różnica między podejściem odgórnym a podejściem oddolnym

Podejście odgórnePodejście oddolne
Zapewnia określony i spójny widok informacji, ponieważ informacje z hurtowni danych są wykorzystywane do tworzenia Data MartsRaporty mogą być generowane w prosty sposób, ponieważ najpierw tworzone są rzutki danych i stosunkowo łatwo jest wchodzić w interakcje z rzutnikami danych.
Silny model i dlatego preferowany przez duże firmyNie tak silny, ale hurtownia danych może zostać rozszerzona i można utworzyć liczbę rzutnic danych
Czas, koszty i konserwacja są wysokieCzas, koszty i konserwacja są niskie.

Data Marts

  • Data Mart to także element pamięci używany do przechowywania danych określonej funkcji lub części związanej z firmą przez pojedynczy organ.
  • Data Mart zbiera informacje z Data Warehouse, a zatem możemy powiedzieć, że Data Mart przechowuje podzbiór informacji w Data Warehouse.
  • Data Marts są elastyczne i mają niewielkie rozmiary.

3. Hurtownia danych

  • Hurtownia danych jest centralnym składnikiem całej architektury hurtowni danych.
  • Działa jako repozytorium do przechowywania informacji.
  • Duże ilości danych są przechowywane w hurtowni danych.
  • Informacje te są wykorzystywane przez kilka technologii, takich jak Big Data, które wymagają analizy dużych podzbiorów informacji.
  • Data Mart to także model hurtowni danych.

Różne warstwy architektury hurtowni danych

Istnieją cztery różne typy warstw, które zawsze będą obecne w architekturze hurtowni danych.

1. Warstwa źródła danych

  • Warstwa źródła danych to warstwa, w której napotykane są dane ze źródła, a następnie wysyłane do innych warstw w celu wykonania żądanych operacji.
  • Dane mogą być dowolnego rodzaju.
  • Dane źródłowe mogą być bazą danych, arkuszem kalkulacyjnym lub dowolnym innym plikiem tekstowym.
  • Dane źródłowe mogą mieć dowolny format. Nie możemy oczekiwać danych w tym samym formacie, biorąc pod uwagę, że źródła są bardzo różne.
  • W rzeczywistości niektóre przykłady danych źródłowych mogą być
  • Pliki dziennika każdej określonej aplikacji lub zadania lub wpisu pracodawców w firmie.
  • Dane z ankiety, dane z giełdy itp.
  • Dane przeglądarki internetowej i wiele innych.

2. Warstwa pomostowa danych

Poniższe kroki mają miejsce w Warstwie pomostowej danych.

1. Ekstrakcja danych

Dane otrzymane przez warstwę źródłową są wprowadzane do warstwy pomostowej, gdzie pierwszym procesem, który ma miejsce z uzyskanymi danymi, jest ekstrakcja.

2. Baza danych lądowań

  • Wyodrębnione dane są tymczasowo przechowywane w docelowej bazie danych.
  • Pobiera dane po ich wyodrębnieniu.

3. Miejsce postoju

  • Dane w bazie danych lądowań są pobierane, a w obszarze przemieszczania przeprowadzanych jest kilka kontroli jakości i operacji przemieszczania.
  • Struktura i schemat są również identyfikowane i dokonywane są korekty danych, które są nieuporządkowane, w ten sposób próbując doprowadzić do podobieństwa między danymi, które zostały pozyskane.
  • Posiadanie miejsca lub skonfigurowanie danych tuż przed transformacją i zmianami to dodatkowa zaleta, która sprawia, że ​​proces przejściowy jest bardzo ważny.
  • Ułatwia przetwarzanie danych.

4. ETL

  • Jest to ekstrakcja, transformacja i obciążenie.
  • Narzędzia ETL są używane do integracji i przetwarzania danych, w których logika jest stosowana do raczej surowych, ale nieco uporządkowanych danych.
  • Dane te są wyodrębniane zgodnie z wymaganym charakterem analitycznym i przekształcane w dane uznane za odpowiednie do przechowywania w hurtowni danych.
  • Po transformacji dane, a raczej informacje są ostatecznie ładowane do hurtowni danych.
  • Niektóre przykłady narzędzi ETL to Informatica, SSIS itp.

3. Warstwa przechowywania danych

  • Przetwarzane dane są przechowywane w hurtowni danych.
  • Dane te są oczyszczane, przekształcane i przygotowywane z określoną strukturą, a tym samym dają pracodawcom możliwość wykorzystania danych zgodnie z wymaganiami Firmy.
  • W zależności od podejścia architektury dane będą przechowywane zarówno w hurtowni danych, jak i Data Marts. Data Marts zostaną omówione na późniejszych etapach.
  • Niektóre obejmują również Operational Data Store.

4. Warstwa prezentacji danych

  • Ta warstwa, w której użytkownicy mogą wchodzić w interakcje z danymi przechowywanymi w hurtowni danych.
  • Zostaną wykorzystane zapytania i kilka narzędzi w celu uzyskania różnych rodzajów informacji na podstawie danych.
  • Informacje docierają do użytkownika poprzez graficzną reprezentację danych.
  • Narzędzia do raportowania służą do uzyskiwania danych biznesowych, a logika biznesowa jest także stosowana do gromadzenia różnych rodzajów informacji.
  • Informacje o metadanych oraz operacje i wydajność systemu są również utrzymywane i przeglądane w tej warstwie.

Wniosek

Ważną kwestią dotyczącą hurtowni danych jest jej wydajność. Aby stworzyć wydajną hurtownię danych, tworzymy platformę znaną jako Business Analysis Framework. Istnieją cztery typy widoków w odniesieniu do projektu hurtowni danych.

1. Widok z góry na dół: ten widok pozwala na wybranie tylko określonych informacji potrzebnych do wyboru hurtowni danych.

2. Widok źródła danych: ten widok pokazuje wszystkie informacje ze źródła danych, w jaki sposób są przekształcane i przechowywane.

3. Widok hurtowni danych: ten widok pokazuje informacje obecne w hurtowni danych poprzez tabele faktów i tabele wymiarów.

4. Widok zapytania biznesowego: Jest to widok, który pokazuje dane z punktu widzenia użytkownika.

Polecane artykuły

To był przewodnik po architekturze hurtowni danych. Tutaj omówiliśmy różne typy widoków, warstw i warstw architektury hurtowni danych. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Kariera w hurtowni danych
  2. Jak działa JavaScript
  3. Hurtownia danych Pytania do wywiadu
  4. Co to są pandy

Kategoria: