Wprowadzenie do algorytmów klasyfikacji

W tym artykule na temat algorytmów klasyfikacji przedstawiono przegląd różnych metod klasyfikacji powszechnie stosowanych w technikach eksploracji danych na różnych zasadach. Klasyfikacja jest techniką, która kategoryzuje dane na odrębną liczbę klas, a etykieta z kolei jest przypisywana do każdej klasy. Głównym celem klasyfikacji jest identyfikacja klasy w celu uruchomienia nowych danych poprzez analizę zestawu treningowego poprzez dostrzeżenie właściwych granic. Ogólnie rzecz biorąc, przewidywanie klasy docelowej i powyższego procesu nazywa się klasyfikacją.

Na przykład kierownictwo szpitala rejestruje imię i nazwisko pacjenta, adres, wiek, wcześniejszą historię zdrowia pacjenta w celu ich zdiagnozowania, co pomaga w klasyfikacji pacjentów. Można je podzielić na dwie fazy: fazę uczenia się i fazę oceny. Faza uczenia się modeluje bazę podejścia do danych treningowych, podczas gdy faza oceny przewiduje wynik dla danych. Możemy znaleźć ich aplikacje w spamie e-mail, prognozach pożyczek bankowych, rozpoznawaniu mowy, analizie sentymentów. Technika obejmuje funkcję matematyczną fz wejściem X i wyjściem Y.

Wyjaśnij szczegółowo algorytmy klasyfikacji

Klasyfikacja może być przeprowadzana zarówno na danych ustrukturyzowanych, jak i nieustrukturyzowanych. Klasyfikację można podzielić na

  1. Naiwny klasyfikator Bayesa
  2. Drzewa decyzyjne
  3. Maszyna wektorów nośnych
  4. Losowy las
  5. K- Najbliżsi sąsiedzi

1) Naiwny klasyfikator Bayesa

Jest to algorytm oparty na twierdzeniu Bayesa, jedna z klasyfikacji statystycznych i wymaga niewielkiej ilości danych treningowych do oszacowania parametrów zwanych również klasyfikatorami probabilistycznymi. Jest uważany za najszybszy klasyfikator, wysoce skalowalny i obsługuje zarówno dyskretne, jak i ciągłe dane. Ten algorytm służył do prognozowania w czasie rzeczywistym. Istnieją różne typy naiwnego klasyfikatora, wielomianowy naiwny Bayes, Bernoulli naiwny Bayes, naiwny gaussowski.

Klasyfikację bayesowską z prawdopodobieństwami późniejszymi podaje

Gdzie A, B są zdarzeniami, P (A | B) - prawdopodobieństwa tylne.

Jeśli dwie wartości są od siebie niezależne,

P (A, B) = P (A) P (B)

Naïve Bayes można budować za pomocą biblioteki python. Predyktory Naïve są niezależne, chociaż są stosowane w systemach rekomendacji. Są one wykorzystywane w wielu aplikacjach czasu rzeczywistego i dobrze świadomie wykorzystywane w klasyfikacji dokumentów.

Zalety:

Zalety polegają na tym, że wymagają one znacznie mniejszej mocy obliczeniowej, co zakłada się w przypadku problemów z prognozowaniem wielu klas, precyzyjnie działa na dużych zestawach danych.

Niekorzyść:

Główną wadą tego klasyfikatora jest przypisanie zerowego prawdopodobieństwa. I mają funkcje, które są od siebie niezależne.

2) Drzewo decyzyjne

Jest to model podejścia odgórnego ze strukturą schematu blokowego obsługującego dane wielowymiarowe. Wyniki są prognozowane na podstawie danej zmiennej wejściowej. Drzewo decyzyjne złożone z następujących elementów: Korzeń, wiele węzłów, gałęzi, liści. Węzeł główny wykonuje partycję w oparciu o wartość atrybutu klasy, węzeł wewnętrzny przyjmuje atrybut do dalszej klasyfikacji, gałęzie podejmują decyzję o podziale węzłów na węzły liścia, wreszcie węzły liścia dają nam końcowy wynik. Złożoność czasowa drzewa decyzyjnego zależy od liczby rekordów, atrybutów danych treningowych. Jeśli drzewo decyzyjne jest zbyt długie, trudno jest uzyskać pożądane wyniki.

Zaleta: są one stosowane do analizy predykcyjnej w celu rozwiązania problemów i wykorzystywane w codziennych czynnościach do wyboru celu na podstawie analizy decyzji. Automatycznie buduje model na podstawie danych źródłowych. Najlepiej radzi sobie z brakującymi wartościami.

Wada: Rozmiar drzewa jest niekontrolowany, dopóki nie będzie miał pewnych kryteriów zatrzymania. Ze względu na ich hierarchiczną strukturę drzewo jest niestabilne.

3) Obsługa maszyny wektorowej

Algorytm ten odgrywa istotną rolę w problemach z klasyfikacją, a najpopularniejszymi algorytmami nadzorowanymi przez uczenie maszynowe. To ważne narzędzie używane przez badacza i badacza danych. Ten SVM jest bardzo łatwy, a jego procesem jest znalezienie hiperpłaszczyzny w punktach danych przestrzeni N-wymiarowej. Hyperplanes to granice decyzji, które klasyfikują punkty danych. Cały ten wektor spada bliżej hiperpłaszczyzny, maksymalizując margines klasyfikatora. Jeśli margines jest maksymalny, najniższym jest błąd uogólnienia. Ich implementacja może być wykonana za pomocą jądra przy użyciu Pythona z niektórymi zestawami danych szkoleniowych. Głównym celem SVM jest wyszkolenie obiektu do określonej klasyfikacji. SVM nie jest ograniczony do bycia klasyfikatorem liniowym. SVM jest preferowany bardziej niż jakikolwiek model klasyfikacji ze względu na funkcję jądra, która poprawia wydajność obliczeniową.

Zaleta: są wysoce preferowane ze względu na mniejszą moc obliczeniową i efektywną dokładność. Skuteczny w przestrzeni o dużych wymiarach, dobra wydajność pamięci.

Wada: ograniczenia prędkości, jądra i wielkości

4) Losowy las

Jest to potężny algorytm uczenia maszynowego oparty na podejściu uczenia się Ensemble. Podstawowym elementem składowym losowego lasu jest drzewo decyzyjne używane do budowy modeli predykcyjnych. Demonstracja pracy obejmuje utworzenie lasu losowych drzew decyzyjnych, a proces przycinania odbywa się przez ustawienie podziałów zatrzymujących w celu uzyskania lepszego wyniku. Losowy las jest wdrażany przy użyciu techniki zwanej workowaniem do podejmowania decyzji. Takie pakowanie zapobiega przeładowaniu danych przez podobne zmniejszenie błędu systematycznego, dzięki czemu losowość może osiągnąć lepszą dokładność. Ostateczne prognozy są podejmowane przez średnio wiele drzew decyzyjnych, tj. Częste prognozy. Losowy las obejmuje wiele przypadków użycia, takich jak prognozy giełdowe, wykrywanie oszustw, prognozy wiadomości.

Zalety:

  • Nie wymaga dużego przetwarzania do przetwarzania zestawów danych i bardzo łatwego do zbudowania modelu. Zapewnia większą dokładność pomaga w rozwiązywaniu problemów predykcyjnych.
  • Działa dobrze w obsłudze brakujących wartości i automatycznie wykrywa wartości odstające.

Niekorzyść:

  • Wymaga wysokich kosztów obliczeniowych i dużej pamięci.
  • Wymaga znacznie więcej czasu.

5) K- Najbliżsi sąsiedzi

Tutaj omówimy algorytm K-NN z nadzorowanym uczeniem się dla CART. Wykorzystują K dodatnią małą liczbę całkowitą; obiekt jest przypisany do klasy na podstawie sąsiadów lub powiedzmy przypisanie grupy poprzez obserwację, w jakiej grupie leży sąsiad. Jest to wybierane przez pomiar odległości odległość euklidesowa i brutalną siłę. Wartość K można znaleźć za pomocą procesu strojenia. KNN nie woli uczyć się żadnego modelu do szkolenia nowego zestawu danych i używać normalizacji do przeskalowywania danych.

Zaleta: Daje efektywne wyniki, jeśli dane treningowe są ogromne.

Wada: największym problemem jest to, że jeśli zmienna jest mała, działa dobrze. Po drugie, wybór współczynnika K podczas klasyfikacji.

Wniosek

Podsumowując, przeszliśmy przez możliwości różnych algorytmów klasyfikacji, które wciąż działają jako potężne narzędzie w inżynierii funkcji, klasyfikacji obrazów, która odgrywa wielką rolę w uczeniu maszynowym. Algorytmy klasyfikacji to potężne algorytmy, które rozwiązują trudne problemy.

Polecane artykuły

Jest to przewodnik po algorytmach klasyfikacji w uczeniu maszynowym. Tutaj omawiamy, że Klasyfikacja może być przeprowadzana zarówno na danych ustrukturyzowanych, jak i nieustrukturyzowanych. Możesz także przejrzeć nasze inne sugerowane artykuły -

  1. Algorytmy routingu
  2. Algorytm grupowania
  3. Proces eksploracji danych
  4. Algorytmy uczenia maszynowego
  5. Najczęściej stosowane techniki uczenia się w zespole
  6. Algorytm C ++ | Przykłady algorytmu C ++

Kategoria: