Wprowadzenie do metod zespolonych w uczeniu maszynowym

W tym artykule zobaczymy zarys Ensemble Methods in Machine Learning. Uczenie się w zespole to połączenie różnych technik uczenia maszynowego w model predykcyjny w celu poprawy predykcji. Uczenie się przez zespół jest nabywane w celu zmniejszenia wariancji danych predykcyjnych. Ten rodzaj uczenia się ma na celu zminimalizowanie stronniczości modelu. Uczenie się w zespole jest systemem wielomodelowym, w którym różne klasyfikatory lub techniki są strategicznie łączone, aby klasyfikować lub przewidywać statystyki z złożonego problemu z większą dokładnością. Celem takiego uczenia się jest zminimalizowanie prawdopodobieństwa złego wyboru z modelu. Wyznacza zaufanie do decyzji podjętej przez model. Pomysł wyboru optymalnych funkcji zrealizował się w procesie uczenia się w zespole.

Rodzaje metod zespolonych w uczeniu maszynowym

Metody zestawu pomagają w tworzeniu wielu modeli, a następnie łączą je w celu uzyskania lepszych wyników, niektóre metody zestawu są podzielone na następujące grupy:

1. Metody sekwencyjne

W tego rodzaju metodzie Ensemble sekwencyjnie generowane są podstawowe osoby uczące się, w których rezyduje zależność danych. Każde inne dane w podstawowym uczniu mają pewną zależność od poprzednich danych. Tak więc poprzednie błędnie oznaczone dane są dostrajane w oparciu o ich wagę, aby poprawić wydajność całego systemu.

Przykład : wzmocnienie

2. Metoda równoległa

W tego rodzaju metodzie Ensemble podstawowy uczeń jest generowany w równoległej kolejności, w której nie ma zależności danych. Wszystkie dane w podstawowym uczniu są generowane niezależnie.

Przykład : układanie w stosy

3. Jednorodny zespół

Taka metoda złożona jest kombinacją tych samych typów klasyfikatorów. Ale zestaw danych jest inny dla każdego klasyfikatora. Dzięki temu połączony model będzie działał bardziej precyzyjnie po agregacji wyników z każdego modelu. Ten typ metody zestawu działa z dużą liczbą zestawów danych. W metodzie jednorodnej metoda wyboru cech jest taka sama dla różnych danych treningowych. Jest to kosztowne obliczeniowo.

Przykład: popularne metody, takie jak pakowanie w worki i wzmacnianie, wchodzą w skład jednorodnego zestawu.

4. Zestaw heterogeniczny

Taki zestaw metod stanowi połączenie różnych typów klasyfikatorów lub modeli uczenia maszynowego, w których każdy klasyfikator opiera się na tych samych danych. Taka metoda działa w przypadku małych zestawów danych. W przypadku heterogeniczności metoda wyboru funkcji jest inna dla tych samych danych treningowych. Ogólny wynik tej metody zespolonej jest przeprowadzany przez uśrednienie wszystkich wyników każdego połączonego modelu.

Przykład : układanie w stosy

Klasyfikacja techniczna metod zespolonych

Poniżej znajduje się klasyfikacja techniczna metod zespolonych:

1. Pakowanie

Ta metoda zestawu łączy dwa modele uczenia maszynowego, tj. Bootstrapping i agregację w jeden model zestawu. Celem metody workowania jest zmniejszenie dużej wariancji modelu. Drzewa decyzyjne mają wariancję i niską stronniczość. Duży zestaw danych zawiera (powiedzmy 1000 próbek) podpróbki (powiedzmy, że 10 podpróbek zawiera po 100 próbek danych). Wiele drzew decyzyjnych jest zbudowanych na danych treningowych dla każdej podpróbki. Podczas uderzania podpróbkowanymi danymi w różne drzewa decyzyjne, zmniejsza się obawy związane z nadmiernym dopasowaniem danych treningowych do każdego drzewa decyzyjnego. Ze względu na wydajność modelu każde z indywidualnych drzew decyzyjnych jest uprawiane głęboko, zawierając podpróbkowane dane treningowe. Wyniki każdego drzewa decyzyjnego są agregowane w celu zrozumienia ostatecznej prognozy. Wariancja zagregowanych danych zmniejsza się. Dokładność prognozy modelu w metodzie workowania zależy od liczby użytych drzew decyzyjnych. Różne podpróbki danych przykładowych są wybierane losowo z zastępowaniem. Dane wyjściowe każdego drzewa mają wysoką korelację.

2. Zwiększenie

Zespół wzmacniający łączy także różne klasyfikatory tego samego typu. Wzmocnienie jest jedną z metod sekwencyjnego zestawu, w której każdy model lub klasyfikator działa w oparciu o funkcje, które zostaną wykorzystane w następnym modelu. W ten sposób metoda przypominania odróżnia mocniejszy model uczącego się od słabych modeli uczących się poprzez uśrednianie ich wag. Innymi słowy, silniej wyszkolony model zależy od wielu słabo wyszkolonych modeli. Słaby uczeń lub model wyszkolony w zakresie zużycia to taki, który jest znacznie mniej skorelowany z prawdziwą klasyfikacją. Ale następny słaby uczeń jest nieco bardziej skorelowany z prawdziwą klasyfikacją. Połączenie tak różnych słabych uczniów daje silnego ucznia, który jest dobrze skorelowany z prawdziwą klasyfikacją.

3. Układanie w stosy

Ta metoda łączy także wiele technik klasyfikacji lub regresji przy użyciu meta-klasyfikatora lub meta-modelu. Modele niższych poziomów są szkolone przy użyciu pełnego zestawu danych szkoleniowych, a następnie model łączony jest szkolony z wynikami modeli niższego poziomu. W przeciwieństwie do wzmocnienia, każdy model niższego poziomu przechodzi równoległe szkolenie. Prognozy z modeli niższego poziomu są wykorzystywane jako dane wejściowe dla następnego modelu jako zestawu danych szkoleniowych i tworzą stos, w którym górna warstwa modelu jest lepiej wyszkolona niż dolna warstwa modelu. Model górnej warstwy ma dobrą dokładność prognozowania i został zbudowany w oparciu o modele niższego poziomu. Stos ciągle rośnie, dopóki najlepsza prognoza nie zostanie wykonana z minimalnym błędem. Prognozowanie połączonego modelu lub meta-modelu opiera się na przewidywaniu różnych słabych modeli lub modeli niższej warstwy. Koncentruje się na tworzeniu modelu mniejszego błędu.

4. Losowy las

Losowy las różni się nieco od workowania, ponieważ wykorzystuje głębokie drzewa, które są przymocowane do próbek ładujących. Wydajność każdego warkocza jest łączona w celu zmniejszenia wariancji. Rozwijając każde drzewo, zamiast generować próbkę ładowania początkowego na podstawie obserwacji w zbiorze danych, próbkujemy również zbiór danych na podstawie funkcji i używamy tylko losowego podzbioru takiej próbki do zbudowania drzewa. Innymi słowy, próbkowanie zestawu danych odbywa się na podstawie funkcji zmniejszających korelację różnych wyników. Losowy las nadaje się do podejmowania decyzji o brakujących danych. Losowy las oznacza losowy wybór podzbioru próbki, co zmniejsza szanse na uzyskanie powiązanych wartości predykcji. Każde drzewo ma inną strukturę. Losowy las powoduje nieznaczne zwiększenie stronniczości lasu, ale z powodu uśrednienia wszystkich mniej powiązanych prognoz z różnych drzew wynikowa wariancja zmniejsza się i daje ogólnie lepszą wydajność.

Wniosek

Wielomodelowe podejście zespołu jest realizowane przez modele dogłębnego uczenia się, w których złożone dane badano i przetwarzano za pomocą różnych kombinacji klasyfikatora, aby uzyskać lepsze przewidywanie lub klasyfikację. Prognozy dla każdego modelu w uczeniu się w zespole muszą być bardziej nieskorelowane. Dzięki temu odchylenie i wariancja modelu będą możliwie najniższe. Model będzie bardziej wydajny i będzie przewidywał wynik przy minimalnym błędzie. Zespół jest nadzorowanym algorytmem uczenia się, ponieważ model jest wcześniej trenowany z zestawem danych w celu wykonania prognozy. W przypadku uczenia się zespołowego liczba klasyfikatorów składników powinna być taka sama jak etykiet klas, aby osiągnąć wysoką dokładność.

Polecane artykuły

Jest to przewodnik po metodach łączenia w uczeniu maszynowym. Tutaj omawiamy ważne typy metod łączenia w uczeniu maszynowym wraz z klasyfikacją techniczną. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Wprowadzenie do technik ensemble
  2. Cykl życia uczenia maszynowego z zaletami
  3. Algorytmy uczenia maszynowego
  4. 24 najpopularniejsze pytania dotyczące wywiadu maszynowego

Kategoria: