Regresja a klasyfikacja - Najważniejsze różnice i porównanie

Różnica między regresją a klasyfikacją

W tym artykule Regresja a klasyfikacja omówimy kluczowe różnice między regresją a klasyfikacją. Uczenie maszynowe jest zasadniczo podzielone na dwa typy: Uczenie maszynowe nadzorowane i Uczenie maszynowe bez nadzoru. W nadzorowanym uczeniu maszynowym mamy znaną wartość wyjściową w zbiorze danych i szkolimy model na podstawie tych danych i używamy go do przewidywania, podczas gdy w nadzorowanym uczeniu maszynowym nie mamy znanego zestawu wartości wyjściowych. Wcześniej, aby odróżnić klasyfikację od regresji, pozwól nam zrozumieć, co oznacza ta terminologia w uczeniu maszynowym. Regresja jest algorytmem w nadzorowanym uczeniu maszynowym, który można wytrenować w celu przewidywania wyników liczb rzeczywistych. Klasyfikacja jest algorytmem w nadzorowanym uczeniu maszynowym, który jest przeszkolony do identyfikowania kategorii i przewidywania, do której kategorii należą nowe wartości.

Bezpośrednie porównanie regresji z klasyfikacją (infografiki)

Poniżej znajduje się porównanie 5 najlepszych regresji z klasyfikacją :

Kluczowe różnice między regresją a klasyfikacją

Omówmy kilka kluczowych różnic między regresją a klasyfikacją w następujących punktach:

Klasyfikacja polega na przewidywaniu etykiety lub kategorii. Algorytm klasyfikacji klasyfikuje wymagany zestaw danych do jednej z dwóch lub więcej etykiet, algorytm zajmujący się dwiema klasami lub kategoriami jest znany jako klasyfikator binarny, a jeśli istnieją więcej niż dwie klasy, można go nazwać algorytmem klasyfikacji wieloklasowej.
Regresja polega na znalezieniu optymalnej funkcji do identyfikacji danych ciągłych wartości rzeczywistych i prognozowania tej wielkości. Regresja z wieloma zmiennymi jako danymi wejściowymi lub funkcjami do trenowania algorytmu jest znana jako problem regresji wielowymiarowej. Jeśli w przypadku problemu regresji wartości wejściowe są zależne lub uporządkowane według czasu, jest to znane jako problem z prognozowaniem szeregów czasowych.
Jednak model klasyfikacji przewiduje również ciągłą wartość, która jest prawdopodobieństwem wystąpienia zdarzenia należącego do tej odpowiedniej klasy wyjściowej. Tutaj prawdopodobieństwo zdarzenia reprezentuje prawdopodobieństwo danego przykładu należącego do określonej klasy. Przewidywaną wartość prawdopodobieństwa można przeliczyć na wartość klasy, wybierając etykietę klasy o najwyższym prawdopodobieństwie.
Pozwól nam to lepiej zrozumieć, widząc przykład, załóżmy, że trenujemy model, aby przewidzieć, czy dana osoba ma raka, czy nie na podstawie niektórych cech. Jeśli otrzymamy prawdopodobieństwo, że osoba ma raka równą 0, 8, a nie ma raka równą 0, 2, możemy przekonwertować prawdopodobieństwo 0, 8 na klasowe oznaczenie raka, ponieważ ma ono najwyższe prawdopodobieństwo.
Jak wspomniano powyżej w klasyfikacji, aby zobaczyć, jak dobry jest model klasyfikacji, obliczamy dokładność. Zobaczmy, jak przeprowadzane są obliczenia, dokładność klasyfikacji można wykonać, biorąc stosunek poprawnych prognoz do całkowitych prognoz pomnożony przez 100. Jeśli wykonano 50 prognoz, a 10 z nich jest poprawnych, a 40 jest niepoprawnych, to dokładność wyniesie 20 %

Dokładność = (liczba poprawnych prognoz / całkowita liczba prognoz) * (100)

Dokładność = (10/50) * (100)
Dokładność = 20%

Jak wspomniano powyżej w regresji, aby zobaczyć, jak dobry jest model regresji, najbardziej popularnym sposobem jest obliczenie błędu średniej kwadratowej (RMSE). Zobaczmy, jak zostaną wykonane obliczenia.

Wartość przewidywana modelu regresji wynosi 4, 9, podczas gdy wartość rzeczywista wynosi 5, 3.

Prognozowana wartość modelu regresji wynosi 2, 3, podczas gdy wartość rzeczywista wynosi 2, 1.

Prognozowana wartość modelu regresji wynosi 3, 4, podczas gdy wartość rzeczywista wynosi 2, 9.

Teraz Root oznacza, że błąd kwadratowy można obliczyć za pomocą formuły.

Błąd do kwadratu wynosi (5, 3-4, 9) 2 = 0, 16, (2, 1-2, 3) 2 = 0, 04, (2, 9-3, 4) 2 = 0, 25

Średnia błędu podniesiona do kwadratu = 0, 45 / 3 = 0, 15

Błąd średniej kwadratowej pierwiastka = pierwiastek kwadratowy z 0, 15 = 0, 38

To jest RMSE = 0, 38. Istnieje wiele innych metod obliczania wydajności modelu, ale RMSE jest najczęściej stosowany, ponieważ RMSE oferuje wynik błędu w tych samych jednostkach, co przewidywana wartość.

Przykłady:

Większość inżynierów zajmujących się badaniami danych ma trudności z wyborem między regresją a klasyfikacją na początkowym etapie kariery. Aby to ułatwić, zobaczmy, jak wyglądają problemy z klasyfikacją i jak wyglądają problemy z regresją,

Klasyfikacja

Przewidywanie, czy jutro będzie padać, czy nie.
Przewidywanie, że dana osoba powinna kupić to dobro, czy nie, aby osiągnąć zysk.
Przewidywanie, czy dana osoba ma chorobę, czy nie.

Jeśli zauważysz tutaj dla każdej sytuacji, może to być Tak lub Nie jako przewidywana wartość wyjściowa.

Regresja

Prognozowanie ceny ziemi.
Prognozowanie ceny akcji.

Jeśli zauważysz, że dla każdej sytuacji tutaj większość z nich ma wartość liczbową zgodnie z przewidywaną wydajnością.

Tabela porównawcza regresji a klasyfikacja

Poniższa tabela podsumowuje porównania między regresją a klasyfikacją :

Parametr	Regresja	Klasyfikacja
Rodzaj funkcji mapowania	W tych algorytmach zostanie wybrana funkcja mapowania typu, która może wyrównać wartości do ciągłego wyniku.	W tych algorytmach zostanie wybrana funkcja mapowania typu, która może wyrównać wartości do predefiniowanych klas.
Obejmuje prognozowanie	Dla tego typu algorytmów prognozowane dane należą do kategorii wartości ciągłych. (Jak 23 334, 45, 67, 28)	Dla tego typu prognozowanych danych algorytmu należy do kategorii wartości dyskretnych. (Tak jak Tak lub Nie, należy do A, B lub C).
Metoda obliczania	Błąd średniej kwadratowej zostanie obliczony w celu zidentyfikowania najlepszego dopasowania zestawu danych.	Dokładność zostanie obliczona w celu zidentyfikowania najlepszego dopasowania zestawu danych.
Charakter przewidywanych danych	Charakter przewidywanych danych jest uporządkowany. (To znaczy przewidywane wartości będą w pewnej kolejności).	Charakter przewidywanych danych jest nieuporządkowany. (Oznacza to, że przewidywane wartości nie będą występować w żadnej sekwencji).
Algorytmy	Obsługuje regresję wektorową i drzewa regresji znane są również jako Losowy las, które są popularnymi przykładami algorytmów regresji.	Naiwne Bayes, drzewa decyzyjne i najbliżsi sąsiedzi K to niektóre z popularnych przykładów algorytmów klasyfikacji.

Wniosek

Oto niektóre z kluczowych różnic między klasyfikacją a regresją. W niektórych przypadkach ciągłe wartości wyjściowe prognozowane w regresji można pogrupować w etykiety i zmienić w modele klasyfikacji. Musimy więc jasno zrozumieć, który wybrać w zależności od sytuacji i tego, co chcemy osiągnąć.

Polecane artykuły

Jest to przewodnik po najważniejszej różnicy między regresją a klasyfikacją. Tutaj omawiamy również różnice między regresją a klasyfikacją za pomocą infografiki i tabeli porównawczej. Możesz także zapoznać się z następującymi artykułami, aby dowiedzieć się więcej -