Co to jest Data Analytics - Różne rodzaje analizy danych

Co to jest Data Analytics?

Analiza danych to proces odkrywania kluczowych spostrzeżeń i cennych wniosków z ogromnej ilości danych zebranych lub zebranych z różnych źródeł w celu wsparcia procesu decyzyjnego. Zwiększona moc obliczeniowa, wysoka prędkość przetwarzania. Pojawienie się interaktywnych interfejsów użytkowników końcowych i udowodniona efektywność paradygmatu przetwarzania rozproszonego do obsługi dużych porcji danych sprawiły, że analizy danych posunęły się do przodu we wszystkich domenach, szczególnie w handlu detalicznym, bankowości, służbie zdrowia, logistyce, obronności, administracji publicznej itp.

Rodzaje analizy danych

Proces analizy danych jest subiektywnie podzielony na trzy typy w oparciu o cel analizy danych jako

Analiza opisowa
Analityka predykcyjna
Analiza preskryptywna

Funkcje wyżej wymienionych typów Analytics opisano poniżej:

1. Analiza opisowa

Analiza opisowa koncentruje się na podsumowaniu przeszłych danych w celu uzyskania wniosków. Najczęściej stosowane miary do ilościowej dystrybucji danych historycznych obejmują

Miary tendencji centralnej - średnia, mediana, kwartyle, tryb.
Miary zmienności lub rozprzestrzeniania - zakres, zakres międzykwartylowy, percentyle.

W ostatnim czasie trudności i ograniczenia związane z gromadzeniem, przechowywaniem i pojmowaniem ogromnych hałd danych zostały przezwyciężone dzięki procesowi wnioskowania statystycznego. Uogólnione wnioski na temat statystyki zestawu danych populacji są wywnioskowane przy użyciu metod próbkowania oraz zastosowania teorii ograniczania centralnego.

Wiodący nadawca wiadomości gromadzi szczegółowe informacje na temat oddanych głosów losowo wybranych wyborców przy wyjściu ze stacji ankietowej w dniu wyborów, aby uzyskać statystyczne wnioski na temat preferencji całej populacji.

Wielokrotne pobieranie próbek z zestawu danych populacji powoduje, że próbki są wystarczająco duże. Grupowe pobieranie próbek jest generalnie preferowane do generowania dobrze rozwarstwionych, obiektywnych przedstawicieli zbioru danych populacji. Statystyczna miara zainteresowania jest obliczana na próbkach danych, aby uzyskać rozkład wartości statystycznych próbki zwany rozkładem próbkowania. Charakterystyki rozkładu próbkowania są powiązane z charakterystyką zbioru danych populacji przy użyciu centralnej teorii ograniczania.

2. Analiza predykcyjna

Analiza predykcyjna wykorzystuje wzorce w danych historycznych lub przeszłych w celu oszacowania przyszłych wyników, identyfikacji trendów, odkrywania potencjalnych ryzyk i szans lub prognozowania zachowań procesów. Ponieważ przypadki zastosowania przewidywania są z natury prawdopodobne, podejścia te wykorzystują modele probabilistyczne do pomiaru prawdopodobieństwa wszystkich możliwych wyników.

ChatBot w portalu obsługi klienta firmy finansowej aktywnie uczy się intencji klientów lub musi opierać się na jego / jej przeszłych działaniach w swojej domenie internetowej. W przewidywanym kontekście chatBot interaktywnie rozmawia z klientem, aby szybko świadczyć usługi apt i osiągnąć większą satysfakcję klienta.

Oprócz scenariuszy ekstrapolacji przewidujących, co stanie się w przyszłości na podstawie dostępnych danych z przeszłości, istnieje niewiele aplikacji, które odgadują pominięte wpisy danych za pomocą dostępnych próbek danych. To przybliżenie pominiętych wartości w zakresie danych próbek jest technicznie nazywane interpolacją.

Potężna aplikacja do edycji obrazów obsługuje odtwarzanie brakujących fragmentów tekstury z powodu narzuconego tekstu poprzez interpolację funkcji funkcji w pominiętym bloku. Funkcja cechy może być interpretowana jako matematyczny zapis wzorów w teksturze zniekształconego obrazu.

Istotnymi czynnikami wpływającymi na wybór modeli / strategii predykcyjnych są:

Dokładność prognozy : przekazuje stopień bliskości między wartością przewidywaną a wartością rzeczywistą. Niższa wariancja różnicy między wartością przewidywaną a wartością rzeczywistą implikuje wyższą dokładność modelu predykcyjnego.
Szybkość prognoz: w aplikacjach śledzących w czasie rzeczywistym priorytetem jest wysoka
Szybkość uczenia się modelu: Zależy od złożoności modelu i obliczeń związanych z obliczaniem parametrów modelu.

3. Analiza preskryptywna

Analiza preskryptywna wykorzystuje wiedzę odkrytą jako część analizy opisowej i predykcyjnej, aby zalecić kontekst działań. W celu zrozumienia rozkładu szacunkowych prognoz wdrażane są zaawansowane techniki statystyczne i intensywne obliczeniowo metody optymalizacji.

Dokładnie, ocenia się wpływ i korzyści każdego wyniku, które są szacowane podczas analizy predykcyjnej, w celu podjęcia heurystycznych i wrażliwych na czas decyzji dla danego zestawu warunków.

Firma konsultingowa na giełdzie przeprowadza analizę SWOT (siła, słabość, szanse i zagrożenie) prognozowanych cen akcji w portfelu inwestorów i rekomenduje klientom najlepsze opcje kupna-sprzedaży.

Przepływ procesów w analizie danych

Proces analizy danych obejmuje różne etapy przetwarzania danych, jak wyjaśniono poniżej:

1. Ekstrakcja danych

Przyjmowanie danych z różnych źródeł danych różnego typu, w tym stron internetowych, baz danych, starszych aplikacji, skutkuje zestawami danych wejściowych o różnych formatach. Formaty danych wprowadzone do przepływu analizy danych można ogólnie zaklasyfikować jako

Dane strukturalne mają jasną definicję typów danych wraz z powiązaną długością pola lub ogranicznikami pola. Ten typ danych można łatwo przeszukiwać, podobnie jak zawartość przechowywana w relacyjnej bazie danych (RDBMS)
Częściowo ustrukturyzowane dane nie mają precyzyjnej definicji układu, ale elementy danych można zidentyfikować, oddzielić i pogrupować na podstawie standardowego schematu lub innych reguł metadanych. Plik XML wykorzystuje znaczniki do przechowywania danych, podczas gdy obiekt JavaScript Notation File (JSON) przechowuje dane w parach nazwa-wartość. Bazy danych NoSQL (nie tylko SQL), takie jak MongoDB, ale baza couch są również używane do przechowywania częściowo ustrukturyzowanych danych.
Nieustrukturyzowane dane obejmują rozmowy w mediach społecznościowych, obrazy, klipy audio itp. Tradycyjne metody analizy danych nie rozumieją tych danych. Nieustrukturyzowane dane są przechowywane w jeziorach danych.

Implementacja analizy danych dla danych ustrukturyzowanych i częściowo ustrukturyzowanych jest zawarta w różnych narzędziach ETL, takich jak Ab Initio, Informatica, Datastage i alternatywy open source, takie jak Talend.

2. Czyszczenie i transformacja danych

Czyszczenie przeanalizowanych danych odbywa się w celu zapewnienia spójności danych i dostępności odpowiednich danych na późniejszych etapach procesu. Główne operacje oczyszczania w analizie danych to:

Wykrywanie i eliminacja wartości odstających w woluminach danych
Usuwanie duplikatów w zestawie danych
Obsługa brakujących wpisów w rekordach danych ze zrozumieniem funkcjonalności lub przypadków użycia
Sprawdzanie poprawności dopuszczalnych wartości pól w rekordach danych, takich jak „31 lutego”, nie może być prawidłową wartością w żadnym z pól daty.

Oczyszczone dane są przekształcane do odpowiedniego formatu do analizy danych. Transformacje danych obejmują

Filtr niechcianych rekordów danych.
Łączenie danych pobranych z różnych źródeł.
Agregacja lub grupowanie danych
Przesyłanie typów danych

3. Wyprowadzanie KPI / Insight

Data Mining, metody głębokiego uczenia są wykorzystywane do oceny kluczowych wskaźników wydajności (KPI) lub uzyskiwania cennych informacji z oczyszczonych i przetworzonych danych. W oparciu o cel analizy analiza danych jest przeprowadzana przy użyciu różnych technik rozpoznawania wzorców, takich jak grupowanie k-średnich, klasyfikacja SVM, klasyfikatory bayesowskie itp. Oraz modele uczenia maszynowego, takie jak modele Markowa, modele mieszanki Gaussa (GMM) itp.

Modele probabilistyczne w fazie szkoleniowej uczą się optymalnych parametrów modelu, a w fazie walidacji model jest testowany za pomocą k-krotnego testowania krzyżowego, aby uniknąć błędów przeregulowania i niedopasowania.

Najczęściej używanym językiem programowania do analizy danych są R i Python. Obie mają bogaty zestaw bibliotek (SciPy, NumPy, Pandas), które są typu open source, aby przeprowadzać złożoną analizę danych.

4. Wizualizacja danych

Wizualizacja danych to proces przejrzystej i skutecznej prezentacji odkrytych wzorców, wyciągniętych wniosków z danych za pomocą wykresów, wykresów, pulpitów nawigacyjnych i grafiki.

Narzędzia do raportowania danych, takie jak QlikView, Tableau itp., Wyświetlają KPI i inne pomiary pochodne na różnych poziomach szczegółowości.
Narzędzia do raportowania umożliwiają użytkownikom końcowym tworzenie spersonalizowanych raportów z opcjami przestawiania i drążenia w dół przy użyciu przyjaznych interfejsów przeciągania i upuszczania
Interaktywne biblioteki wizualizacji danych, takie jak D3.js (dokumenty oparte na danych), HTML5-Anycharts itp. Są używane do zwiększenia możliwości eksploracji analizowanych danych

Polecane artykuły

To był przewodnik po tym, co to jest Data Analytics. Tutaj omawialiśmy różne rodzaje analiz danych z przepływem procesów. Możesz także przejrzeć inne sugerowane artykuły, aby dowiedzieć się więcej -

Wywiad z analitykiem danych - pytania i odpowiedzi
Co to jest wizualizacja danych?
Co to jest analityka Big Data?
Co to jest Minitab?

Co to jest Data Analytics - Różne rodzaje analizy danych

Spisie treści:

Co to jest Data Analytics?

Rodzaje analizy danych

1. Analiza opisowa

2. Analiza predykcyjna

3. Analiza preskryptywna

Przepływ procesów w analizie danych

1. Ekstrakcja danych

2. Czyszczenie i transformacja danych

3. Wyprowadzanie KPI / Insight

4. Wizualizacja danych

Polecane artykuły

Co to jest IOT? - Kompletny przewodnik na temat znaczenia Internetu Rzeczy w przyszłości

Co to jest Ionic Framework? - Dlaczego powinniśmy korzystać z Ionic Framework?

Co to jest aplikacja internetowa - Top 8 Zastosowanie Internetu z zaletami

Co to jest technologia IoT? - Funkcje i zalety technologii IoT

Co to jest IPv4? - Nagłówek datagramu IPv4 (ograniczenia, korzyści, wykorzystanie)

ANOVA dwukierunkowa w R - Dwukierunkowy test ANOVA w R Łatwy przewodnik - Przykłady

Rodzaj eksploracji danych - Kompletny przewodnik po rodzaju eksploracji danych

PRAWDA funkcja w programie Excel (wzór, przykłady) - Jak korzystać z funkcji PRAWDA

Linie trendu w Tableau - Dowiedz się, jak utworzyć linię trendu w tableau?

Krotki w Python - Różne operacje związane z krotkami

Wtyczka Google Analytics - Plusy i minusy wtyczki Google Analytics

10 najważniejszych pytań o analitykę Google - pytania (zaktualizowano do 2019 r.)

10 najlepszych wskazówek, jak uzyskać i doskonale wykorzystać dobre referencje

Narzędzia Git - Wybór wersji - Interaktywna inscenizacja - Schowanie i czyszczenie

7 prostych wskazówek, jak zachować równowagę między życiem zawodowym a prywatnym Korzyści - Przykłady