Wprowadzenie do architektury hurtowni danych
- Hurtownia danych to miejsce przechowywania zawierające kolekcje kilku różnych rodzajów danych pozyskanych z kilku rodzajów źródeł.
- Cały proces, w którym zewnętrzne źródła danych są pozyskiwane, przetwarzane, przechowywane i analizowane w celu uzyskania użytecznych informacji, odbywa się w ramach zestawu systemów, które są zunifikowane przez jeden schemat znany jako Architektura hurtowni danych.
Architektura hurtowni danych
Architektura hurtowni danych zasadniczo składa się z trzech poziomów.
- Górna warstwa
- Środkowy poziom
- Dolny poziom
Górna warstwa
- Najwyższy poziom składa się z frontonu architektury po stronie klienta.
- Informacje dotyczące zastosowanych transformacji i logiki przechowywane w hurtowni danych będą wykorzystywane i pozyskiwane do celów biznesowych na tym poziomie.
- Dostępnych jest kilka narzędzi do generowania i analizy raportów w celu generowania pożądanych informacji.
- Odbywa się tutaj eksploracja danych, która stała się obecnie wielkim trendem.
- Wszystkie dokumenty dotyczące analizy wymagań, koszty i wszystkie funkcje określające transakcję biznesową opartą na zyskach przeprowadzane są w oparciu o te narzędzia, które wykorzystują informacje z hurtowni danych.
Środkowy poziom
- Środkowy poziom składa się z serwerów OLAP
- OLAP to internetowy serwer przetwarzania analitycznego
- OLAP służy do dostarczania informacji analitykom biznesowym i menedżerom
- Ponieważ znajduje się na środkowym poziomie, słusznie wchodzi w interakcję z informacjami znajdującymi się na dolnym poziomie i przekazuje informacje do narzędzi najwyższego poziomu, które przetwarzają dostępne informacje.
- W architekturze hurtowni danych stosowany jest głównie OLAP relacyjny lub wielowymiarowy.
Dolny poziom
Dolny poziom składa się głównie ze źródeł danych, narzędzia ETL i hurtowni danych.
1. Źródła danych
Źródła danych składają się z danych źródłowych, które są gromadzone i przekazywane narzędziom pomostowym i ETL w celu dalszego przetwarzania.
2. Narzędzia ETL
- Narzędzia ETL są bardzo ważne, ponieważ pomagają połączyć logikę, surowe dane i schemat w jedno oraz ładują informacje do hurtowni danych lub hurtowni danych.
- Czasami ETL ładuje dane do Data Marts, a następnie informacje są przechowywane w hurtowni danych. To podejście jest znane jako podejście oddolne.
- Podejście, w którym ETL ładuje informacje bezpośrednio do hurtowni danych, znane jest jako podejście odgórne.
Różnica między podejściem odgórnym a podejściem oddolnym
Podejście odgórne | Podejście oddolne |
Zapewnia określony i spójny widok informacji, ponieważ informacje z hurtowni danych są wykorzystywane do tworzenia Data Marts | Raporty mogą być generowane w prosty sposób, ponieważ najpierw tworzone są rzutki danych i stosunkowo łatwo jest wchodzić w interakcje z rzutnikami danych. |
Silny model i dlatego preferowany przez duże firmy | Nie tak silny, ale hurtownia danych może zostać rozszerzona i można utworzyć liczbę rzutnic danych |
Czas, koszty i konserwacja są wysokie | Czas, koszty i konserwacja są niskie. |
Data Marts
- Data Mart to także element pamięci używany do przechowywania danych określonej funkcji lub części związanej z firmą przez pojedynczy organ.
- Data Mart zbiera informacje z Data Warehouse, a zatem możemy powiedzieć, że Data Mart przechowuje podzbiór informacji w Data Warehouse.
- Data Marts są elastyczne i mają niewielkie rozmiary.
3. Hurtownia danych
- Hurtownia danych jest centralnym składnikiem całej architektury hurtowni danych.
- Działa jako repozytorium do przechowywania informacji.
- Duże ilości danych są przechowywane w hurtowni danych.
- Informacje te są wykorzystywane przez kilka technologii, takich jak Big Data, które wymagają analizy dużych podzbiorów informacji.
- Data Mart to także model hurtowni danych.
Różne warstwy architektury hurtowni danych
Istnieją cztery różne typy warstw, które zawsze będą obecne w architekturze hurtowni danych.
1. Warstwa źródła danych
- Warstwa źródła danych to warstwa, w której napotykane są dane ze źródła, a następnie wysyłane do innych warstw w celu wykonania żądanych operacji.
- Dane mogą być dowolnego rodzaju.
- Dane źródłowe mogą być bazą danych, arkuszem kalkulacyjnym lub dowolnym innym plikiem tekstowym.
- Dane źródłowe mogą mieć dowolny format. Nie możemy oczekiwać danych w tym samym formacie, biorąc pod uwagę, że źródła są bardzo różne.
- W rzeczywistości niektóre przykłady danych źródłowych mogą być
- Pliki dziennika każdej określonej aplikacji lub zadania lub wpisu pracodawców w firmie.
- Dane z ankiety, dane z giełdy itp.
- Dane przeglądarki internetowej i wiele innych.
2. Warstwa pomostowa danych
Poniższe kroki mają miejsce w Warstwie pomostowej danych.
1. Ekstrakcja danych
Dane otrzymane przez warstwę źródłową są wprowadzane do warstwy pomostowej, gdzie pierwszym procesem, który ma miejsce z uzyskanymi danymi, jest ekstrakcja.
2. Baza danych lądowań
- Wyodrębnione dane są tymczasowo przechowywane w docelowej bazie danych.
- Pobiera dane po ich wyodrębnieniu.
3. Miejsce postoju
- Dane w bazie danych lądowań są pobierane, a w obszarze przemieszczania przeprowadzanych jest kilka kontroli jakości i operacji przemieszczania.
- Struktura i schemat są również identyfikowane i dokonywane są korekty danych, które są nieuporządkowane, w ten sposób próbując doprowadzić do podobieństwa między danymi, które zostały pozyskane.
- Posiadanie miejsca lub skonfigurowanie danych tuż przed transformacją i zmianami to dodatkowa zaleta, która sprawia, że proces przejściowy jest bardzo ważny.
- Ułatwia przetwarzanie danych.
4. ETL
- Jest to ekstrakcja, transformacja i obciążenie.
- Narzędzia ETL są używane do integracji i przetwarzania danych, w których logika jest stosowana do raczej surowych, ale nieco uporządkowanych danych.
- Dane te są wyodrębniane zgodnie z wymaganym charakterem analitycznym i przekształcane w dane uznane za odpowiednie do przechowywania w hurtowni danych.
- Po transformacji dane, a raczej informacje są ostatecznie ładowane do hurtowni danych.
- Niektóre przykłady narzędzi ETL to Informatica, SSIS itp.
3. Warstwa przechowywania danych
- Przetwarzane dane są przechowywane w hurtowni danych.
- Dane te są oczyszczane, przekształcane i przygotowywane z określoną strukturą, a tym samym dają pracodawcom możliwość wykorzystania danych zgodnie z wymaganiami Firmy.
- W zależności od podejścia architektury dane będą przechowywane zarówno w hurtowni danych, jak i Data Marts. Data Marts zostaną omówione na późniejszych etapach.
- Niektóre obejmują również Operational Data Store.
4. Warstwa prezentacji danych
- Ta warstwa, w której użytkownicy mogą wchodzić w interakcje z danymi przechowywanymi w hurtowni danych.
- Zostaną wykorzystane zapytania i kilka narzędzi w celu uzyskania różnych rodzajów informacji na podstawie danych.
- Informacje docierają do użytkownika poprzez graficzną reprezentację danych.
- Narzędzia do raportowania służą do uzyskiwania danych biznesowych, a logika biznesowa jest także stosowana do gromadzenia różnych rodzajów informacji.
- Informacje o metadanych oraz operacje i wydajność systemu są również utrzymywane i przeglądane w tej warstwie.
Wniosek
Ważną kwestią dotyczącą hurtowni danych jest jej wydajność. Aby stworzyć wydajną hurtownię danych, tworzymy platformę znaną jako Business Analysis Framework. Istnieją cztery typy widoków w odniesieniu do projektu hurtowni danych.
1. Widok z góry na dół: ten widok pozwala na wybranie tylko określonych informacji potrzebnych do wyboru hurtowni danych.
2. Widok źródła danych: ten widok pokazuje wszystkie informacje ze źródła danych, w jaki sposób są przekształcane i przechowywane.
3. Widok hurtowni danych: ten widok pokazuje informacje obecne w hurtowni danych poprzez tabele faktów i tabele wymiarów.
4. Widok zapytania biznesowego: Jest to widok, który pokazuje dane z punktu widzenia użytkownika.
Polecane artykuły
To był przewodnik po architekturze hurtowni danych. Tutaj omówiliśmy różne typy widoków, warstw i warstw architektury hurtowni danych. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -
- Kariera w hurtowni danych
- Jak działa JavaScript
- Hurtownia danych Pytania do wywiadu
- Co to są pandy