Wprowadzenie do drzewa decyzyjnego w uczeniu maszynowym

Drzewo decyzyjne w uczeniu maszynowym ma szerokie pole we współczesnym świecie. W ML istnieje wiele algorytmów wykorzystywanych w naszym codziennym życiu. Jednym z ważnych algorytmów jest Drzewo decyzyjne używane do klasyfikacji, a także rozwiązanie problemów regresji. Ponieważ jest to model predykcyjny, analiza drzewa decyzyjnego odbywa się metodą algorytmiczną, w której zestaw danych jest dzielony na podzbiory zgodnie z warunkami. Sama nazwa mówi, że jest to model podobny do drzewa w postaci instrukcji if-then-else. Im głębsze jest drzewo i im więcej węzłów, tym lepszy model.

Rodzaje drzew decyzyjnych w uczeniu maszynowym

Drzewo decyzyjne jest drzewiastym wykresem, na którym sortowanie rozpoczyna się od węzła głównego do węzła liścia aż do osiągnięcia celu. Jest najbardziej popularny do podejmowania decyzji i klasyfikacji w oparciu o nadzorowane algorytmy. Konstruuje się go za pomocą partycjonowania rekurencyjnego, w którym każdy węzeł działa jako przypadek testowy dla niektórych atrybutów, a każda krawędź pochodząca od węzła jest możliwą odpowiedzią w przypadku testowym. Zarówno węzeł główny, jak i węzły liścia są dwoma elementami algorytmu.

Rozumiem za pomocą małego przykładu w następujący sposób:

Tutaj węzłem głównym jest to, czy masz mniej niż 40 lat, czy nie. Jeśli tak, to czy jesz fast foody? Jeśli tak, oznacza to, że jesteś niezdolny do pracy, w przeciwnym razie jesteś w formie. A jeśli masz więcej niż 40 lat, to czy ćwiczysz? Jeśli tak, to jesteś w dobrej formie, albo jesteś niezdolny. To była w zasadzie klasyfikacja binarna.

Istnieją dwa rodzaje drzew decyzyjnych:

  1. Drzewa klasyfikacyjne: Powyższy przykład jest opartym na kategoriach drzewem klasyfikacyjnym.
  2. Drzewa regresji : w tego typu algorytmie decyzja lub wynik są ciągłe. Ma jeden wynik liczbowy z większą liczbą danych wejściowych lub predyktorów.

W drzewie decyzyjnym typowym wyzwaniem jest identyfikacja atrybutu w każdym węźle. Proces ten nazywa się wyborem atrybutu i wymaga pewnych środków w celu identyfikacji atrybutu.

za. Zysk informacji (IG)

Zysk informacji mierzy, ile informacji daje dana jednostka na temat klasy. Działa jako główny klucz do budowy drzewa decyzyjnego. Atrybut o najwyższym zysku informacji dzieli się jako pierwszy. Drzewo decyzyjne zawsze maksymalizuje więc zdobywanie informacji. Kiedy używamy węzła do dzielenia instancji na mniejsze podzbiory, wówczas entropia ulega zmianie.

Entropia: jest to miara niepewności lub zanieczyszczenia w zmiennej losowej. Entropia decyduje o tym, jak Drzewo decyzyjne dzieli dane na podzbiory.

Równanie zdobywania informacji i entropii jest następujące:

Zysk informacji = entropia (rodzic) - (średnia ważona * entropia (dzieci))

Entropia: ∑p (X) log p (X)

P (X) tutaj jest ułamkiem przykładów w danej klasie.

b. Indeks Gini

Indeks Gini jest miarą decydującą o tym, jak często losowo wybrany element był nieprawidłowo identyfikowany. Wyraźnie stwierdza, że ​​atrybut o niskim indeksie Gini ma pierwszeństwo.

Indeks Giniego: 1-∑ p (X) 2

Podzielone tworzenie

  1. Aby utworzyć podział, najpierw musimy obliczyć wynik Gini.
  2. Dane są dzielone przy użyciu listy wierszy mających indeks atrybutu i podzieloną wartość tego atrybutu. Po znalezieniu prawego i lewego zestawu danych możemy uzyskać wartość podziału według wyniku Gini z pierwszej części. Teraz wartość podziału będzie decydować, gdzie będzie znajdować się atrybut.
  3. Następna część to ocena wszystkich podziałów. Najlepszą możliwą wartość oblicza się, oceniając koszt podziału. Najlepszy podział służy jako węzeł drzewa decyzyjnego.

Budowanie drzewa - drzewo decyzyjne w uczeniu maszynowym

Istnieją dwa kroki do zbudowania drzewa decyzyjnego.

1. Utworzenie węzła końcowego

Podczas tworzenia węzła końcowego najważniejszą rzeczą jest zwrócenie uwagi na to, czy musimy przestać rosnąć drzewa, czy przejść dalej. W tym celu można użyć następujących sposobów:

  • Maksymalna głębokość drzewa: gdy drzewo osiągnie maksymalną liczbę węzłów, wykonywanie się tam kończy.
  • Minimalna liczba rekordów węzłów: może być zdefiniowana jako minimalna liczba wzorów wymaganych przez węzeł. Następnie możemy przerwać dodawanie węzłów końcowych natychmiast otrzymamy te minimalne rekordy węzłów.

2. Podział rekurencyjny

Po utworzeniu węzła możemy rekurencyjnie utworzyć węzeł potomny, dzieląc zestaw danych i wywołując tę ​​samą funkcję wiele razy.

Prognoza

Po zbudowaniu drzewa prognozowanie odbywa się za pomocą funkcji rekurencyjnej. Ten sam proces przewidywania jest wykonywany ponownie z lewym lub prawym węzłem potomnym i tak dalej.

Zalety i wady drzewa decyzyjnego

Poniżej podano niektóre zalety i wady:

Zalety

Drzewo decyzyjne ma następujące zalety w uczeniu maszynowym:

  • Kompleksowy: bierze pod uwagę każdy możliwy wynik decyzji i odpowiednio śledzi każdy węzeł do wniosku.
  • Specyficzne: Drzewa decyzyjne przypisują określoną wartość każdemu problemowi, decyzji i wynikom. Zmniejsza niepewność i dwuznaczność, a także zwiększa przejrzystość.
  • Prostota: Drzewo decyzyjne jest jednym z łatwiejszych i niezawodnych algorytmów, ponieważ nie ma złożonych formuł ani struktur danych. Do obliczeń wymagane są tylko proste statystyki i matematyka.
  • Wszechstronny: Drzewa decyzyjne można ręcznie konstruować za pomocą matematyki, a także można ich używać z innymi programami komputerowymi.

Niedogodności

Drzewo decyzyjne ma pewne wady w uczeniu maszynowym, takie jak:

  • Drzewa decyzyjne są mniej odpowiednie do szacowania i zadań finansowych, w których potrzebujemy odpowiedniej wartości.
  • Jest to podatny na błędy algorytm klasyfikacji w porównaniu do innych algorytmów obliczeniowych.
  • Jest to kosztowne obliczeniowo. W każdym węźle podział kandydatów musi zostać posortowany przed ustaleniem najlepszego. Istnieją inne alternatywy, które wiele podmiotów biznesowych stosuje do zadań finansowych, ponieważ Drzewo decyzyjne jest zbyt kosztowne do oceny.
  • Podczas pracy ze zmiennymi ciągłymi Drzewo decyzyjne nie jest najlepszym rozwiązaniem, ponieważ ma tendencję do utraty informacji podczas kategoryzacji zmiennych.
  • Czasami jest niestabilna, ponieważ niewielkie zmiany w zestawie danych mogą prowadzić do utworzenia nowego drzewa.

Wniosek - drzewo decyzyjne w uczeniu maszynowym

Jako jeden z najważniejszych i nadzorowanych algorytmów Drzewo decyzyjne odgrywa istotną rolę w analizie decyzji w prawdziwym życiu. Jako model predykcyjny jest stosowany w wielu obszarach do swojego podzielonego podejścia, które pomaga w identyfikacji rozwiązań opartych na różnych warunkach metodą klasyfikacji lub regresji.

Polecane artykuły

Jest to przewodnik po drzewie decyzyjnym w uczeniu maszynowym. Tutaj omawiamy wprowadzenie, Rodzaje drzew decyzyjnych w uczeniu maszynowym, tworzenie podziału i budowanie drzewa. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Typy danych w języku Python
  2. Zestawy danych Tableau
  3. Modelowanie danych Cassandra
  4. Testowanie tabeli decyzyjnej
  5. 8 najważniejszych etapów cyklu uczenia maszynowego

Kategoria: