Wprowadzenie do algorytmów nauki danych

Ogólny opis podstawowych algorytmów wykorzystywanych w Data Science. Jak już wiesz, nauka danych to dziedzina badań, w której decyzje podejmowane są na podstawie danych uzyskanych z danych zamiast klasycznych metod deterministycznych opartych na regułach. Zwykle możemy podzielić zadanie uczenia maszynowego na trzy części

  • Pozyskiwanie danych i mapowanie problemu biznesowego,
  • Stosowanie technik uczenia maszynowego i obserwowanie wskaźników wydajności
  • Testowanie i wdrażanie modelu

W całym tym cyklu życia wykorzystujemy różne algorytmy analizy danych do rozwiązania danego zadania. W tym artykule podzielimy najczęściej stosowane algorytmy w oparciu o ich typy uczenia się i przeprowadzimy na ich temat dyskusję na wysokim szczeblu.

Rodzaje algorytmów analizy danych

W oparciu o metodologie uczenia się możemy po prostu podzielić algorytmy uczenia maszynowego lub analizy danych na następujące typy

  1. Nadzorowane algorytmy
  2. Algorytmy bez nadzoru

1. Algorytmy nadzorowane

Jak sama nazwa wskazuje, nadzorowane algorytmy są klasą algorytmów uczenia maszynowego, w których model jest szkolony na podstawie oznaczonych danych. Na przykład na podstawie danych historycznych chcesz przewidzieć, że klient domyślnie pożyczki, czy nie. Po wstępnym przetwarzaniu i inżynierii cech oznaczonych danych nadzorowane algorytmy są szkolone w zakresie danych strukturalnych i testowane w nowym punkcie danych lub w tym przypadku w celu przewidzenia defaultera pożyczki. Zanurzmy się w najpopularniejszych nadzorowanych algorytmach uczenia maszynowego.

  • K Najbliżsi sąsiedzi

K najbliższych sąsiadów (KNN) jest jednym z najprostszych, ale potężnych algorytmów uczenia maszynowego. Jest to nadzorowany algorytm, w którym klasyfikacja odbywa się na podstawie k najbliższych punktów danych. Idea KNN polega na tym, że podobne punkty są grupowane razem, mierząc właściwości najbliższych punktów danych, możemy sklasyfikować testowy punkt danych. Na przykład rozwiązujemy standardowy problem klasyfikacji, w którym chcemy przewidzieć, że punkt danych należy do klasy A lub klasy B. Niech k = 3, teraz przetestujemy 3 najbliższy punkt danych testowego punktu danych, jeśli dwa z nich należą do klasy A zadeklarujemy punkt danych testowych jako klasę A, w przeciwnym razie klasę B. Prawidłowa wartość K zostanie znaleziona poprzez walidację krzyżową. Ma liniową złożoność czasową, dlatego nie można go stosować do aplikacji o niskim opóźnieniu.

  • Regresja liniowa

Regresja liniowa jest nadzorowanym algorytmem nauki danych.

Wynik:

Zmienna jest ciągła. Chodzi o znalezienie hiperpłaszczyzny, w której maksymalna liczba punktów znajduje się w hiperpłaszczyźnie. Na przykład przewidywanie ilości deszczu jest standardowym problemem regresji, w którym można zastosować regresję liniową. Regresja liniowa zakłada, że ​​relacja między zmiennymi niezależnymi i zależnymi jest liniowa i że jest bardzo mało lub nie ma wielokoliniowości.

  • Regresja logistyczna

Chociaż nazwa mówi o regresji, regresja logistyczna jest nadzorowanym algorytmem klasyfikacji.

Wynik:

Intuicja geometryczna polega na tym, że możemy rozdzielić różne etykiety klas za pomocą liniowej granicy decyzji. Zmienna wyjściowa regresji logistycznej jest kategoryczna. Należy pamiętać, że nie możemy użyć błędu średniej kwadratowej jako funkcji kosztu dla regresji logistycznej, ponieważ nie jest wypukła dla regresji logistycznej.

  • Maszyna wektorów nośnych

W regresji logistycznej naszym głównym motto było znalezienie oddzielającej powierzchni liniowej.

Wynik:

Możemy uznać maszynę wektorów wsparcia za rozszerzenie tego pomysłu, w którym musimy znaleźć hiperpłaszczyznę, która maksymalizuje margines. Ale co to jest marża ?. Dla wektora W (powierzchni decyzji, którą musimy wymyślić) rysujemy dwie równoległe linie po obu stronach. Odległość między tymi dwiema liniami nazywa się marginesem. SVM zakłada, że ​​dane można rozdzielić liniowo. Chociaż możemy używać SVM do danych nieliniowych również za pomocą sztuczki jądra.

  • Drzewo decyzyjne

Drzewo decyzyjne jest zagnieżdżonym klasyfikatorem opartym na If-Else, który do podejmowania decyzji wykorzystuje strukturę graficzną podobną do drzewa. Drzewa decyzyjne są bardzo popularne i są jednym z najczęściej używanych nadzorowanych algorytmów uczenia maszynowego w całym obszarze nauki o danych. Zapewnia lepszą stabilność i dokładność w większości przypadków w porównaniu do innych nadzorowanych algorytmów i odporny na wartości odstające. Zmienna wyjściowa drzewa decyzyjnego jest zazwyczaj kategoryczna, ale może być również wykorzystana do rozwiązania problemów regresji.

  • Zespoły

Zespoły są popularną kategorią algorytmów analizy danych, w których wiele modeli jest używanych razem w celu uzyskania lepszej wydajności. Jeśli znasz Kaggle (platformę Google do trenowania i konkurowania w wyzwaniach związanych z nauką danych), przekonasz się, że większość zwycięskich rozwiązań korzysta z pewnego rodzaju zespołów.

Możemy z grubsza podzielić zespoły na następujące kategorie

  • Parcianka
  • Boosting
  • Układanie
  • Kaskadowe

Drzewa decyzyjne lasu losowego, wzmocnienia gradientu są przykładami niektórych popularnych algorytmów zbioru.

2. Algorytmy bez nadzoru

Algorytmy bez nadzoru są używane do zadań, w których dane nie są oznaczone. Najpopularniejszym przypadkiem użycia nienadzorowanych algorytmów jest klastrowanie. Klastrowanie polega na grupowaniu podobnych punktów danych bez ręcznej interwencji. Omówmy tutaj niektóre popularne algorytmy uczenia maszynowego bez nadzoru

  • K oznacza

K Oznacza to randomizowany, nienadzorowany algorytm wykorzystywany do grupowania. K Oznacza, postępuje zgodnie z poniższymi krokami

1.Zainicjuj losowo punkty K (c1, c2..ck)

2. Dla każdego punktu (Xi) w zestawie danych

Wybierz najbliższy Ci (i = 1, 2, 3..k)

Dodaj Xi do Ci

3. Ponownie obliczyć środek ciężkości za pomocą odpowiednich wskaźników (tj. Odległość wewnątrz lustra)

4, Powtarzaj krok (2) (3), aż zbiegnie się

  • K Oznacza ++

Etap inicjalizacji w K oznacza czysto losowy i na podstawie inicjalizacji klastrowanie zmienia się drastycznie. K oznacza ++ rozwiązuje ten problem, inicjując k w sposób probabilistyczny zamiast czystej randomizacji. K oznacza ++ jest bardziej stabilny niż klasyczny K.

  • K Medoidy:

Medoidy K to także algorytm grupowania oparty na środkach K. Główną różnicą między nimi jest to, że centroidy średnich K niekoniecznie istnieją w zbiorze danych, co nie ma miejsca w przypadku medoidów K. Medoidy K oferują lepszą interpretację klastrów. K oznacza minimalizację całkowitego błędu kwadratu, podczas gdy medoidy K minimalizują różnice między punktami.

Wniosek

W tym artykule omówiliśmy najpopularniejsze algorytmy uczenia maszynowego stosowane w dziedzinie analizy danych. Po tych wszystkich kwestiach może pojawić się pytanie: Który algorytm jest najlepszy? Oczywiście nie ma tutaj zwycięzcy. To zależy wyłącznie od zadania i wymagań biznesowych. Jako najlepsza praktyka zawsze zaczyna się od najprostszego algorytmu i stopniowo zwiększa złożoność.

Polecane artykuły

Jest to przewodnik po algorytmach Data Science. Omówiliśmy tutaj przegląd algorytmów analizy danych i dwa typy algorytmów analizy danych. Możesz również przejrzeć nasze podane artykuły, aby dowiedzieć się więcej-

  1. Platforma nauki danych
  2. Języki nauki danych
  3. Algorytmy klasyfikacji
  4. Algorytmy eksploracji danych
  5. Najczęściej stosowane techniki uczenia się w zespole
  6. Proste sposoby tworzenia drzewa decyzyjnego
  7. Kompletny przewodnik po cyklu życia Data Science

Kategoria: