Co to jest Data Analytics - Różne rodzaje analizy danych

Spisie treści:

Anonim

Co to jest Data Analytics?

Analiza danych to proces odkrywania kluczowych spostrzeżeń i cennych wniosków z ogromnej ilości danych zebranych lub zebranych z różnych źródeł w celu wsparcia procesu decyzyjnego. Zwiększona moc obliczeniowa, wysoka prędkość przetwarzania. Pojawienie się interaktywnych interfejsów użytkowników końcowych i udowodniona efektywność paradygmatu przetwarzania rozproszonego do obsługi dużych porcji danych sprawiły, że analizy danych posunęły się do przodu we wszystkich domenach, szczególnie w handlu detalicznym, bankowości, służbie zdrowia, logistyce, obronności, administracji publicznej itp.

Rodzaje analizy danych

Proces analizy danych jest subiektywnie podzielony na trzy typy w oparciu o cel analizy danych jako

  • Analiza opisowa
  • Analityka predykcyjna
  • Analiza preskryptywna

Funkcje wyżej wymienionych typów Analytics opisano poniżej:

1. Analiza opisowa

Analiza opisowa koncentruje się na podsumowaniu przeszłych danych w celu uzyskania wniosków. Najczęściej stosowane miary do ilościowej dystrybucji danych historycznych obejmują

  • Miary tendencji centralnej - średnia, mediana, kwartyle, tryb.
  • Miary zmienności lub rozprzestrzeniania - zakres, zakres międzykwartylowy, percentyle.

W ostatnim czasie trudności i ograniczenia związane z gromadzeniem, przechowywaniem i pojmowaniem ogromnych hałd danych zostały przezwyciężone dzięki procesowi wnioskowania statystycznego. Uogólnione wnioski na temat statystyki zestawu danych populacji są wywnioskowane przy użyciu metod próbkowania oraz zastosowania teorii ograniczania centralnego.

Wiodący nadawca wiadomości gromadzi szczegółowe informacje na temat oddanych głosów losowo wybranych wyborców przy wyjściu ze stacji ankietowej w dniu wyborów, aby uzyskać statystyczne wnioski na temat preferencji całej populacji.

Wielokrotne pobieranie próbek z zestawu danych populacji powoduje, że próbki są wystarczająco duże. Grupowe pobieranie próbek jest generalnie preferowane do generowania dobrze rozwarstwionych, obiektywnych przedstawicieli zbioru danych populacji. Statystyczna miara zainteresowania jest obliczana na próbkach danych, aby uzyskać rozkład wartości statystycznych próbki zwany rozkładem próbkowania. Charakterystyki rozkładu próbkowania są powiązane z charakterystyką zbioru danych populacji przy użyciu centralnej teorii ograniczania.

2. Analiza predykcyjna

Analiza predykcyjna wykorzystuje wzorce w danych historycznych lub przeszłych w celu oszacowania przyszłych wyników, identyfikacji trendów, odkrywania potencjalnych ryzyk i szans lub prognozowania zachowań procesów. Ponieważ przypadki zastosowania przewidywania są z natury prawdopodobne, podejścia te wykorzystują modele probabilistyczne do pomiaru prawdopodobieństwa wszystkich możliwych wyników.

ChatBot w portalu obsługi klienta firmy finansowej aktywnie uczy się intencji klientów lub musi opierać się na jego / jej przeszłych działaniach w swojej domenie internetowej. W przewidywanym kontekście chatBot interaktywnie rozmawia z klientem, aby szybko świadczyć usługi apt i osiągnąć większą satysfakcję klienta.

Oprócz scenariuszy ekstrapolacji przewidujących, co stanie się w przyszłości na podstawie dostępnych danych z przeszłości, istnieje niewiele aplikacji, które odgadują pominięte wpisy danych za pomocą dostępnych próbek danych. To przybliżenie pominiętych wartości w zakresie danych próbek jest technicznie nazywane interpolacją.

Potężna aplikacja do edycji obrazów obsługuje odtwarzanie brakujących fragmentów tekstury z powodu narzuconego tekstu poprzez interpolację funkcji funkcji w pominiętym bloku. Funkcja cechy może być interpretowana jako matematyczny zapis wzorów w teksturze zniekształconego obrazu.

Istotnymi czynnikami wpływającymi na wybór modeli / strategii predykcyjnych są:

  • Dokładność prognozy : przekazuje stopień bliskości między wartością przewidywaną a wartością rzeczywistą. Niższa wariancja różnicy między wartością przewidywaną a wartością rzeczywistą implikuje wyższą dokładność modelu predykcyjnego.
  • Szybkość prognoz: w aplikacjach śledzących w czasie rzeczywistym priorytetem jest wysoka
  • Szybkość uczenia się modelu: Zależy od złożoności modelu i obliczeń związanych z obliczaniem parametrów modelu.

3. Analiza preskryptywna

Analiza preskryptywna wykorzystuje wiedzę odkrytą jako część analizy opisowej i predykcyjnej, aby zalecić kontekst działań. W celu zrozumienia rozkładu szacunkowych prognoz wdrażane są zaawansowane techniki statystyczne i intensywne obliczeniowo metody optymalizacji.

Dokładnie, ocenia się wpływ i korzyści każdego wyniku, które są szacowane podczas analizy predykcyjnej, w celu podjęcia heurystycznych i wrażliwych na czas decyzji dla danego zestawu warunków.

Firma konsultingowa na giełdzie przeprowadza analizę SWOT (siła, słabość, szanse i zagrożenie) prognozowanych cen akcji w portfelu inwestorów i rekomenduje klientom najlepsze opcje kupna-sprzedaży.

Przepływ procesów w analizie danych

Proces analizy danych obejmuje różne etapy przetwarzania danych, jak wyjaśniono poniżej:

1. Ekstrakcja danych

Przyjmowanie danych z różnych źródeł danych różnego typu, w tym stron internetowych, baz danych, starszych aplikacji, skutkuje zestawami danych wejściowych o różnych formatach. Formaty danych wprowadzone do przepływu analizy danych można ogólnie zaklasyfikować jako

  • Dane strukturalne mają jasną definicję typów danych wraz z powiązaną długością pola lub ogranicznikami pola. Ten typ danych można łatwo przeszukiwać, podobnie jak zawartość przechowywana w relacyjnej bazie danych (RDBMS)
  • Częściowo ustrukturyzowane dane nie mają precyzyjnej definicji układu, ale elementy danych można zidentyfikować, oddzielić i pogrupować na podstawie standardowego schematu lub innych reguł metadanych. Plik XML wykorzystuje znaczniki do przechowywania danych, podczas gdy obiekt JavaScript Notation File (JSON) przechowuje dane w parach nazwa-wartość. Bazy danych NoSQL (nie tylko SQL), takie jak MongoDB, ale baza couch są również używane do przechowywania częściowo ustrukturyzowanych danych.
  • Nieustrukturyzowane dane obejmują rozmowy w mediach społecznościowych, obrazy, klipy audio itp. Tradycyjne metody analizy danych nie rozumieją tych danych. Nieustrukturyzowane dane są przechowywane w jeziorach danych.

Implementacja analizy danych dla danych ustrukturyzowanych i częściowo ustrukturyzowanych jest zawarta w różnych narzędziach ETL, takich jak Ab Initio, Informatica, Datastage i alternatywy open source, takie jak Talend.

2. Czyszczenie i transformacja danych

Czyszczenie przeanalizowanych danych odbywa się w celu zapewnienia spójności danych i dostępności odpowiednich danych na późniejszych etapach procesu. Główne operacje oczyszczania w analizie danych to:

  • Wykrywanie i eliminacja wartości odstających w woluminach danych
  • Usuwanie duplikatów w zestawie danych
  • Obsługa brakujących wpisów w rekordach danych ze zrozumieniem funkcjonalności lub przypadków użycia
  • Sprawdzanie poprawności dopuszczalnych wartości pól w rekordach danych, takich jak „31 lutego”, nie może być prawidłową wartością w żadnym z pól daty.

Oczyszczone dane są przekształcane do odpowiedniego formatu do analizy danych. Transformacje danych obejmują

  • Filtr niechcianych rekordów danych.
  • Łączenie danych pobranych z różnych źródeł.
  • Agregacja lub grupowanie danych
  • Przesyłanie typów danych

3. Wyprowadzanie KPI / Insight

Data Mining, metody głębokiego uczenia są wykorzystywane do oceny kluczowych wskaźników wydajności (KPI) lub uzyskiwania cennych informacji z oczyszczonych i przetworzonych danych. W oparciu o cel analizy analiza danych jest przeprowadzana przy użyciu różnych technik rozpoznawania wzorców, takich jak grupowanie k-średnich, klasyfikacja SVM, klasyfikatory bayesowskie itp. Oraz modele uczenia maszynowego, takie jak modele Markowa, modele mieszanki Gaussa (GMM) itp.

Modele probabilistyczne w fazie szkoleniowej uczą się optymalnych parametrów modelu, a w fazie walidacji model jest testowany za pomocą k-krotnego testowania krzyżowego, aby uniknąć błędów przeregulowania i niedopasowania.

Najczęściej używanym językiem programowania do analizy danych są R i Python. Obie mają bogaty zestaw bibliotek (SciPy, NumPy, Pandas), które są typu open source, aby przeprowadzać złożoną analizę danych.

4. Wizualizacja danych

Wizualizacja danych to proces przejrzystej i skutecznej prezentacji odkrytych wzorców, wyciągniętych wniosków z danych za pomocą wykresów, wykresów, pulpitów nawigacyjnych i grafiki.

  • Narzędzia do raportowania danych, takie jak QlikView, Tableau itp., Wyświetlają KPI i inne pomiary pochodne na różnych poziomach szczegółowości.
  • Narzędzia do raportowania umożliwiają użytkownikom końcowym tworzenie spersonalizowanych raportów z opcjami przestawiania i drążenia w dół przy użyciu przyjaznych interfejsów przeciągania i upuszczania
  • Interaktywne biblioteki wizualizacji danych, takie jak D3.js (dokumenty oparte na danych), HTML5-Anycharts itp. Są używane do zwiększenia możliwości eksploracji analizowanych danych

Polecane artykuły

To był przewodnik po tym, co to jest Data Analytics. Tutaj omawialiśmy różne rodzaje analiz danych z przepływem procesów. Możesz także przejrzeć inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Wywiad z analitykiem danych - pytania i odpowiedzi
  2. Co to jest wizualizacja danych?
  3. Co to jest analityka Big Data?
  4. Co to jest Minitab?