Przegląd funkcji strat w uczeniu maszynowym

Podobnie jak nauczyciele, którzy prowadzą nas, bez względu na to, czy osiągamy dobre wyniki w naszych naukowcach, funkcje straty wykonują tę samą pracę. Jest to metoda oceny, jak dobrze nasz algorytm modeluje dane. Funkcje strat są głównym źródłem oceny we współczesnym uczeniu maszynowym. Gdy zmienisz algorytm w celu ulepszenia modelu, wartość funkcji straty powie ci, czy robisz postęp, czy nie. Naszym głównym celem powinno być ograniczenie funkcji strat poprzez optymalizację. W tym artykule omówimy działanie funkcji strat i różne typy funkcji strat.

Jak działają funkcje utraty?

Słowo „Strata” oznacza karę za nieosiągnięcie oczekiwanej wydajności. Jeśli odchylenie wartości przewidywanej od wartości oczekiwanej według naszego modelu jest duże, wówczas funkcja straty daje wyższą liczbę jako wynik, a jeśli odchylenie jest małe i znacznie bliższe wartości oczekiwanej, generuje mniejszą liczbę.

Oto przykład, gdy próbujemy przewidzieć cenę sprzedaży domu w miastach metra.

Przewidywane

Cena sprzedaży (w lakh)

Rzeczywisty

Cena sprzedaży (w lakh)

Odchylenie (strata)
Bangalore: 45 0 (wszystkie prognozy są prawidłowe)
Pune: 35
Chennai: 40
Bangalore: 40Bangalore: 45 5 lakh dla Bangalore, 2 lakh dla Chennai
Pune: 35Pune: 35
Chennai: 38Chennai: 40
Bangalore: 43 2 lakh dla Bangalore, 5 lakh dla, Pune2 lakh dla Chennai,
Pune: 30
Chennai: 45

Ważne jest, aby pamiętać, że wielkość odchylenia nie ma znaczenia, ważne jest tutaj, czy wartość przewidywana przez nasz model jest dobra, czy zła. Funkcje strat różnią się w zależności od zgłoszenia problemu, do którego stosuje się uczenie maszynowe. Funkcja kosztu to kolejny termin, który jest używany zamiennie dla funkcji straty, ale ma nieco inne znaczenie. Funkcja utraty jest dla pojedynczego przykładu szkolenia, podczas gdy funkcją kosztu jest średnia strata w całym zestawie danych pociągu.

Rodzaje funkcji strat w uczeniu maszynowym

Poniżej przedstawiono różne typy funkcji strat w uczeniu maszynowym, które są następujące:

1) Funkcje utraty regresji:

Regresja liniowa jest podstawową koncepcją tej funkcji. Funkcje utraty regresji ustalają liniową zależność między zmienną zależną (Y) a zmienną niezależną (X), dlatego staramy się dopasować najlepszą linię w przestrzeni na tych zmiennych.

Y = X0 + X1 + X2 + X3 + X4…. + Xn

X = zmienne niezależne

Y = zmienna zależna

  • Średnia kwadratowa strata błędu:

MSE (błąd L2) mierzy średnią kwadratową różnicę między wartościami rzeczywistymi i przewidywanymi przez model. Dane wyjściowe to pojedyncza liczba powiązana z zestawem wartości. Naszym celem jest zmniejszenie MSE w celu poprawy dokładności modelu.

Rozważmy równanie liniowe, y = mx + c, możemy wyprowadzić MSE jako:

MSE = 1 / N ∑i = 1 do n (y (i) - (mx (i) + b)) 2

Tutaj N jest całkowitą liczbą punktów danych, 1 / N ∑i = 1 do n jest wartością średnią, a y (i) jest wartością rzeczywistą, a mx (i) + b jest jej wartością przewidywaną.

  • Średnia kwadratowa utrata logarytmiczna (MSLE):

MSLE mierzy stosunek wartości rzeczywistej do przewidywanej. Wprowadza asymetrię w krzywej błędu. MSLE dba tylko o procentowe różnice rzeczywistych i przewidywanych wartości. Może to być dobry wybór jako funkcja straty, gdy chcemy przewidzieć ceny sprzedaży domu, ceny sprzedaży piekarni, a dane są ciągłe.

W tym przypadku stratę można obliczyć jako średnią zaobserwowanych danych kwadratowych różnic między wartościami rzeczywistymi a przewidywanymi po transformacji logarytmicznej, które można podać jako:

L = 1nn∑i = 1 (log (y (i) +1) −log (y (i) +1)) 2

  • Średni błąd bezwzględny (MAE):

MAE oblicza sumę różnic bezwzględnych między rzeczywistymi a przewidywanymi zmiennymi. Oznacza to, że mierzy średnią wielkość błędów w zestawie przewidywanych wartości. Użycie błędu średniego kwadratu jest łatwiejsze do rozwiązania, ale użycie błędu bezwzględnego jest bardziej odporne na wartości odstające. Wartościami odstającymi są te wartości, które bardzo odbiegają od innych obserwowanych punktów danych.

MAE można obliczyć jako:

L = 1nn∑i = 1∣∣y (i) - y (i) ∣∣

2) Funkcje utraty binarnej klasyfikacji:

Te funkcje strat służą do pomiaru wydajności modelu klasyfikacyjnego. Punktom danych przypisuje się jedną z etykiet, tj. 0 lub 1. Ponadto można je zaklasyfikować jako:

  • Binarna krzyżowa entropia

Jest to domyślna funkcja strat dla problemów z klasyfikacją binarną. Strata z entropii krzyżowej oblicza wydajność modelu klasyfikacyjnego, który daje wynik wartości prawdopodobieństwa od 0 do 1. Strata z entropii krzyżowej wzrasta, gdy przewidywana wartość prawdopodobieństwa odbiega od rzeczywistej wartości.

  • Utrata zawiasów

Utrata zawiasu może być stosowana jako alternatywa dla entropii krzyżowej, która początkowo została opracowana do użycia z algorytmem maszyny wektora nośnego. Utrata zawiasu działa najlepiej w przypadku problemu z klasyfikacją, ponieważ wartości docelowe znajdują się w zbiorze (-1, 1). Pozwala przypisać więcej błędów, gdy występuje różnica w znaku między wartościami rzeczywistymi i przewidywanymi. Stąd skutkuje lepszą wydajnością niż entropia krzyżowa.

  • Kwadratowa utrata zawiasów

Rozszerzenie utraty zawiasu, które po prostu oblicza kwadrat wyniku utraty zawiasu. Zmniejsza to funkcję błędu i ułatwia numeryczną pracę. Znajduje granicę klasyfikacji, która określa maksymalny margines między punktami danych różnych klas. Kwadratowa utrata zawiasu jest idealna dla TAK lub NIE problemów decyzyjnych, w których odchylenie prawdopodobieństwa nie jest problemem.

3) Funkcje utraty klasy klasyfikacji:

Klasyfikacja wielu klas to modele predykcyjne, w których punkty danych są przypisane do więcej niż dwóch klas. Każda klasa ma przypisaną unikalną wartość od 0 do (Number_of_classes - 1). Jest wysoce zalecane w przypadku problemów z klasyfikacją obrazów lub tekstu, w których pojedynczy papier może mieć wiele tematów.

  • Wieloklasowa krzyżowa entropia

W tym przypadku wartości docelowe mieszczą się w przedziale od 0 do n, tj. (0, 1, 2, 3… n). Oblicza wynik, który przyjmuje średnią różnicę między rzeczywistymi a przewidywanymi wartościami prawdopodobieństwa, a wynik jest minimalizowany, aby osiągnąć najlepszą możliwą dokładność. Wieloklasowa entropia krzyżowa jest domyślną funkcją utraty dla problemów z klasyfikacją tekstu.

  • Rzadka wieloplasowa cross-entropia

Jeden proces kodowania na gorąco utrudnia obsługę wielu klas entropii krzyżowej w obsłudze dużej liczby punktów danych. Rzadka entropia krzyżowa rozwiązuje ten problem, wykonując obliczenie błędu bez użycia kodowania „na gorąco”.

  • Utrata dywergencji Kullbacka Leiblera

Strata dywergencji KL oblicza rozbieżność między rozkładem prawdopodobieństwa a rozkładem podstawowym i dowiaduje się, ile informacji jest traconych w bitach. Wynik jest wartością nieujemną, która określa, jak blisko są dwa rozkłady prawdopodobieństwa. Aby opisać rozbieżność KL w kategoriach poglądu probabilistycznego, zastosowano współczynnik prawdopodobieństwa.

W tym artykule początkowo zrozumieliśmy, jak działają funkcje strat, a następnie przeszliśmy do zapoznania się z obszerną listą funkcji strat z wykorzystanymi przykładami przypadków. Jednak zrozumienie go praktycznie jest bardziej korzystne, więc spróbuj przeczytać więcej i wdrożyć go. To dokładnie wyjaśni twoje wątpliwości.

Polecane artykuły

Jest to przewodnik po funkcjach strat w uczeniu maszynowym. W tym miejscu omawiamy, jak działają funkcje utraty i rodzaje funkcji utraty w uczeniu maszynowym. Możesz także zapoznać się z następującymi artykułami, aby dowiedzieć się więcej -

  1. Metody uczenia maszynowego
  2. Wprowadzenie do uczenia maszynowego
  3. Technologie Big Data
  4. Oprogramowanie do analizy Big Data
  5. Naucz się kategorii hiperparametrów
  6. Cykl życia uczenia maszynowego | 8 najlepszych etapów

Kategoria: