Rodzaj eksploracji danych - Kompletny przewodnik po rodzaju eksploracji danych

Spisie treści:

Anonim

Wprowadzenie do rodzajów eksploracji danych

Termin „Data Mining” oznacza, że ​​musimy przyjrzeć się dużemu zestawowi danych i wydobyć z niego dane, aby przedstawić istotę tego, co dane chcą powiedzieć. Podobnie jak w przypadku wydobywania węgla, w którym węgiel głęboko pod ziemią jest wydobywany za pomocą różnych narzędzi, wydobywanie danych ma również powiązane narzędzia do jak najlepszego wykorzystania danych. Jednym z bardzo powszechnych błędnych interpretacji w przypadku eksploracji danych jest to, że uważa się je za coś, w którym próbujemy wydobywać nowe dane, ale nie zawsze jest to prawdą. Odnosi się to również do czegoś, w którym staramy się uzyskać sens z danych, które już mamy. Zatem eksploracja danych sama w sobie jest rozległym obszarem, w którym w kolejnych paragrafach zajmiemy się konkretnie narzędziami Data Mining. W tym artykule omówimy typy eksploracji danych.

Co to jest Data Mining?

Jak już mówiliśmy o eksploracji danych, eksploracja danych to proces, w którym staramy się wydobyć to, co najlepsze z danych. Narzędzia eksploracji danych działają jak pomost między danymi a informacjami z danych. Na kilku blogach eksploracja danych jest również nazywana odkryciem wiedzy. W tym miejscu chcielibyśmy krótko przedstawić proces wdrażania eksploracji danych, aby intuicja kryjąca się za eksploracją danych była jasna i stała się łatwa do zrozumienia dla czytelników. Poniżej schemat przedstawia przepływ:

W procesie omówionym powyżej istnieją narzędzia na każdym poziomie i postaramy się głęboko zanurzyć w najważniejsze.

Rodzaje eksploracji danych

Eksploracja danych może odbywać się na następujących typach danych:

1. Wygładzanie (przygotowanie danych)

Ta szczególna metoda techniki eksploracji danych należy do gatunku przygotowania danych. Głównym celem tej techniki jest usuwanie szumu z danych. Tutaj algorytmy takie jak prosta wykładnicza, średnia ruchoma są używane do usuwania szumu. Podczas analizy eksploracyjnej technika ta jest bardzo przydatna do wizualizacji trendów / sentymentów.

2. Agregacja (przygotowanie danych)

Jak sugeruje termin, grupa danych jest agregowana, aby uzyskać więcej informacji. Ta technika służy do przeglądu celów biznesowych i może być wykonywana ręcznie lub przy użyciu specjalistycznego oprogramowania. Technikę tę stosuje się zwykle w przypadku dużych zbiorów danych, ponieważ duże zbiory danych nie zapewniają wymaganych informacji jako całości.

3. Uogólnienie (Przygotowanie danych)

Ponownie, jak sama nazwa wskazuje, technika ta jest stosowana do generalizowania danych jako całości. Różni się to od agregacji w taki sposób, że dane podczas generalizacji nie są grupowane razem, aby uzyskać więcej informacji, ale z kolei cały zestaw danych jest generalizowany. Umożliwi to modelowi nauki danych dostosowanie się do nowszych punktów danych.

4. Normalizacja (przygotowanie danych)

W tej technice szczególną uwagę przywiązuje się do punktów danych, aby wprowadzić je w tej samej skali do analizy. Na przykład wiek i wynagrodzenie osoby mieszczą się w różnych skalach pomiarowych, dlatego ich wykreślenie na wykresie nie pomoże nam uzyskać żadnych użytecznych informacji na temat trendów prezentowanych jako cecha zbiorowa. Korzystając z normalizacji, możemy doprowadzić je do równej skali, aby umożliwić porównanie jabłek z jabłkami.

5. Wybór atrybutu / funkcji (Przygotuj dane)

W tej technice wykorzystujemy metody przeprowadzania wyboru cech, tak aby model użyty do szkolenia zestawów danych mógł sugerować wartość do przewidywania danych, których nie widział. Jest to bardzo analogiczne do wyboru odpowiedniego stroju z szafy pełnej ubrań, aby dopasować się do wydarzenia. Nieistotne funkcje mogą negatywnie wpływać na wydajność modelu, nie mówiąc już o poprawie wydajności.

6. Klasyfikacja (model danych)

W tej technice eksploracji danych mamy do czynienia z grupami znanymi jako „klasy”. W tej technice stosujemy wybrane funkcje (jak omówiono w powyższym punkcie) zbiorowo do grup / kategorii. Na przykład w sklepie, jeśli musimy ocenić, czy dana osoba kupi produkt, czy nie, istnieje „n” liczba funkcji, których możemy wspólnie użyć, aby uzyskać wynik True / False.

7. Śledzenie wzorców

Jest to jedna z podstawowych technik stosowanych w eksploracji danych w celu uzyskania informacji o trendach / wzorcach, które mogą być prezentowane przez punkty danych. Na przykład możemy określić trend większej sprzedaży w weekend lub w wakacje, a nie w dni powszednie lub dni robocze.

8. Analiza wartości odstających lub wykrywanie anomalii

Tutaj, jak sama nazwa wskazuje, technika ta służy do znajdowania lub analizowania wartości odstających lub anomalii. Wartości odstające lub anomalie nie są ujemnymi punktami danych, są po prostu czymś, co wyróżnia się od ogólnego trendu całego zestawu danych. Po zidentyfikowaniu wartości odstających możemy albo całkowicie je usunąć z zestawu danych, co ma miejsce po zakończeniu przygotowywania danych. W przeciwnym razie technika ta jest szeroko stosowana w modelach zbiorów danych do przewidywania wartości odstających.

9. Grupowanie

Ta technika jest bardzo podobna do klasyfikacji, ale jedyną różnicą jest to, że nie znamy grupy, w której punkty danych spadną po grupowaniu po zebraniu cech. Ta metoda jest zwykle stosowana do grupowania ludzi w celu kierowania podobnych rekomendacji produktów.

10. Regresja

Technikę tę stosuje się do przewidywania prawdopodobieństwa danej cechy w obecności innych cech. Na przykład możemy sformułować prawdopodobieństwo ceny produktu w odniesieniu do popytu, konkurencji i kilku innych funkcji.

11. Sieć neuronowa

Ta technika opiera się na zasadzie działania neuronów biologicznych. Podobnie jak neurony w ludzkim ciele, neurony w sieci neuronowej podczas eksploracji danych działają również jako jednostka przetwarzająca i łącząca inny neuron w celu przekazania informacji wzdłuż łańcucha.

12. Stowarzyszenie

W tej metodzie eksploracji danych określane są relacje między różnymi funkcjami, które z kolei służą do znajdowania ukrytych wzorców lub przeprowadzania powiązanych analiz zgodnie z wymaganiami biznesowymi. Na przykład, korzystając ze skojarzenia, możemy znaleźć funkcje skorelowane ze sobą, a zatem kładziemy nacisk na usunięcie każdego, aby usunąć niektóre zbędne funkcje i poprawić moc / czas przetwarzania.

Wniosek

Podsumowując, istnieją różne wymagania, o których należy pamiętać podczas przeprowadzania eksploracji danych. Trzeba bardzo uważać na to, jakie wyniki będą oczekiwane, aby można było zastosować odpowiednie techniki, aby osiągnąć cel. Chociaż eksploracja danych jest przestrzenią ewoluującą, próbowaliśmy stworzyć wyczerpującą listę dla wszystkich typów narzędzi w powyższej eksploracji danych dla czytelników.

Polecane artykuły

Jest to przewodnik po rodzaju eksploracji danych. Tutaj omawiamy Wprowadzenie i 12 najważniejszych typów eksploracji danych. Możesz także przejrzeć nasze inne sugerowane artykuły -

  1. Zalety eksploracji danych
  2. Architektura Data Mining
  3. Metody eksploracji danych
  4. Narzędzie wyszukiwania danych
  5. Rodzaje modeli w Data Mining