Wprowadzenie do analizy danych

W tym artykule zobaczymy zarys na temat rodzajów analizy danych. W erze XXI wieku być może najbardziej niezwykłą zmianą jest to, jak dane stały się częścią naszego systemu decyzyjnego w każdej dziedzinie naszego życia. Nie ma wątpliwości, że „Dane to nowa ropa” każdego sektora. Teraz wraz ze wzrostem niemal nieskończonej przepustowości pojawia się nowy zestaw wyzwań, w jaki sposób efektywnie wykorzystujemy tę ogromną skalę danych i uzyskujemy ważne spostrzeżenia z danych. Wraz z dużą skalą danych stopniowo wzrasta również hałas, analiza danych jest zbiorem różnych metodologii i sposobu myślenia, aby jak najlepiej wykorzystać dostępne dane i przekształcić surowe dane w jakąś wartość biznesową lub społeczną.

Rodzaje analizy danych

W oparciu o zastosowane metodologie analizę danych można podzielić na następujące cztery części:

  • Analiza opisowa
  • Analiza danych rozpoznawczych
  • Analiza predykcyjna
  • Analiza wnioskowania

1. Analiza opisowa

Analiza opisowa to numeryczny sposób na uzyskanie wglądu w dane. W analizie opisowej otrzymujemy podsumowaną wartość zmiennych numerycznych. Załóżmy, że analizujesz dane sprzedaży producenta samochodu. W literaturze analizy opisowej będziesz szukał pytań takich jak średnia, rodzaj ceny sprzedaży typu samochodu, jaki był przychód ze sprzedaży określonego typu samochodu itp. Możemy uzyskać centralną tendencję i rozproszenie zmiennych liczbowych danych przy użyciu tego rodzaju analizy. W większości praktycznych przypadków użycia analizy danych analiza opisowa pomoże ci uzyskać informacje o wysokim poziomie danych i przyzwyczaić się do zestawu danych. Ważne terminologie analizy opisowej to:

  • Średnia (średnia wszystkich liczb na liście liczb)
  • Tryb (najczęstszy numer na liście numerów)
  • Mediana (środkowa wartość listy liczb)
  • Odchylenie standardowe (wielkość odchylenia zbioru wartości od wartości średniej)
  • Wariancja (kwadrat odchylenia standardowego)
  • Zakres między kwartylami (wartości od 25 do 75 percentyla listy liczb)

W Pythonie biblioteka pand zapewnia metodę o nazwie „opisz”, która zapewnia opisowe informacje o ramce danych. Korzystamy również z innych bibliotek, takich jak model statystyk, lub możemy opracować nasz kod zgodnie z przypadkiem użycia.

2. Analiza danych eksploracyjnych

W przeciwieństwie do opisowej analizy danych, w której analizujemy dane numerycznie, eksploracyjna analiza danych jest wizualnym sposobem analizy danych. Kiedy już zrozumiemy podstawowe dane na podstawie analizy opisowej, przejdziemy do eksploracyjnej analizy danych. Możemy również podzielić analizę danych eksploracyjnych na dwie części:

  • Analiza zmienna uni (badanie właściwości jednej zmiennej)
  • Analiza wielowymiarowa (analiza porównawcza wielu zmiennych, jeśli porównamy korelację dwóch zmiennych, nazywa się to analizą dwuwymiarową)

W wizualnej analizie danych używamy różnego rodzaju wykresów i wykresów do analizy danych. Aby przeanalizować pojedynczą zmienną (analiza jednowymiarowa), możemy użyć wykresu słupkowego, histogramów, wykresu pudełkowego z wąsami, wykresu skrzypiec itp. Do analizy wielowymiarowej używamy wykresu punktowego, wykresów konturowych, wykresów wielowymiarowych itp.

Ale dlaczego potrzebujemy analizy danych eksploracyjnych?

  • Analiza danych eksploracyjnych daje wizualny sposób na opisanie danych, co pomaga w lepszej identyfikacji cech danych.
  • Pomaga nam określić, które funkcje są ważniejsze. Jest to szczególnie przydatne, gdy mamy do czynienia z danymi o dużych wymiarach. (tj. metody takie jak PCA i t-SNE pomagają w zmniejszeniu wymiarów).
  • Jest to skuteczny sposób na wyjaśnienie uzyskanego wyniku kadrze kierowniczej i nietechnicznym posiadaczom stosów.

W Pythonie istnieje wiele bibliotek do przeprowadzania eksploracyjnej analizy danych. Najpopularniejsze z nich to Matplotlib, Seaborn, Plotly, Bokeh itp.

3. Analiza predykcyjna

Co się stanie, jeśli znamy błędy, które popełnimy w przyszłości? Spróbujemy ich uniknąć, prawda? Analiza predykcyjna to tylko najbardziej naukowy sposób przewidywania przyszłych wyników poprzez analizę wydarzeń historycznych. Serce nauki o danych opiera się na analizie predykcyjnej. Analiza predykcyjna pomaga nam odpowiedzieć na następujące pytania: „Czy możemy przewidzieć, czy kupujący kupi określony produkt, czy nie?” Lub „Czy możemy oszacować całkowity koszt, jaki Ubezpieczyciel musi zapłacić za roszczenia? „Lub” Czy możemy oszacować ilość opadów w nadchodzącym monsunie?

Analiza predykcyjna pomaga nam podać przybliżony lub najbardziej prawdopodobny wynik ważnych pytań, które następnie skutkują ogromnymi skalami biznesowymi i zmianami społeczno-ekonomicznymi. Modele uczenia maszynowego są opracowywane na podstawie danych historycznych w celu przewidywania wyników podobnych niewidzialnych przyszłych wydarzeń.

4. Analiza wnioskowania

Analiza wnioskowania jest literaturą z zakresu nauk o danych, podczas gdy przewidujemy wynik odniesienia dla wielu sektorów. Na przykład wyprowadzanie wskaźnika cen konsumpcyjnych lub dochodu na mieszkańca. Nie jest możliwe dotarcie do każdego konsumenta jeden po drugim i obliczenie. Zamiast tego pobieramy naukowo próbki z populacji i za pomocą analizy statystycznej uzyskujemy wskaźnik.

Wniosek

W tym artykule omówiliśmy różne metodologie analizy danych. Czy musimy zastosować wszystkie te metody, czy możemy skorzystać z dowolnej z nich? Cóż, teraz opiera się na przypadku użycia i domenie aplikacji. Ale w większości przypadków zaczniemy od opisowej i eksploracyjnej analizy danych i opracujemy modele predykcyjne, aby przewidzieć przyszłe wyniki.

Polecane artykuły

Jest to przewodnik po typach analizy danych. Tutaj omawiamy krótki przegląd Analizy danych i różnych metodologii w oparciu o przypadek użycia i domenę aplikacji. Możesz także przejrzeć nasze sugerowane artykuły, aby dowiedzieć się więcej -

  1. 8 najlepszych bezpłatnych narzędzi analizy danych
  2. Wprowadzenie do rodzajów technik analizy danych
  3. Analiza danych a analiza danych - najważniejsze różnice
  4. Poznaj koncepcję integracji danych

Kategoria: