Wprowadzenie do algorytmu drzewa decyzyjnego

Kiedy mamy problem do rozwiązania, którym jest problem klasyfikacji lub regresji, algorytm drzewa decyzyjnego jest jednym z najpopularniejszych algorytmów używanych do budowy modeli klasyfikacji i regresji. Obejmują one kategorię nadzorowanego uczenia się, tj. Dane oznaczone.

Co to jest algorytm drzewa decyzyjnego?

Algorytm drzewa decyzyjnego jest nadzorowanym algorytmem uczenia maszynowego, w którym dane są stale dzielone w każdym wierszu w oparciu o określone reguły, aż do wygenerowania ostatecznego wyniku. Weźmy przykład, załóżmy, że otwierasz centrum handlowe i oczywiście chciałbyś, aby rozwijało się ono z czasem. W związku z tym wymagałoby to powrotu klientów i nowych klientów w centrum handlowym. W tym celu przygotowałbyś różne strategie biznesowe i marketingowe, takie jak wysyłanie wiadomości e-mail do potencjalnych klientów; tworzyć oferty i oferty, kierować reklamy do nowych klientów itp. Ale skąd wiemy, którzy są potencjalnymi klientami? Innymi słowy, jak klasyfikujemy kategorię klientów? Jak niektórzy klienci będą odwiedzać raz w tygodniu, a inni chcieliby odwiedzać raz lub dwa razy w miesiącu, a niektórzy odwiedzą za kwadrans. Drzewa decyzyjne są jednym z takich algorytmów klasyfikacji, które będą klasyfikować wyniki w grupy, dopóki nie pozostanie żadne podobieństwo.

W ten sposób drzewo decyzyjne przechodzi w formacie drzewa. Główne elementy drzewa decyzyjnego to:

  • Węzły decyzyjne, w których dane są dzielone lub mówią, że jest to miejsce dla atrybutu.
  • Łącze decyzyjne, które reprezentuje regułę.
  • Liście decyzji, które są ostatecznymi rezultatami.

Działanie algorytmu drzewa decyzyjnego

Istnieje wiele kroków związanych z działaniem drzewa decyzyjnego:

1. Podział - jest to proces podziału danych na podzbiory. Podziału można dokonać na różne czynniki, jak pokazano poniżej, tj. Na podstawie płci, wzrostu lub na podstawie klasy.

2. Przycinanie - Jest to proces skracania gałęzi drzewa decyzyjnego, a tym samym ograniczania głębokości drzewa

Przycinanie jest również dwojakiego rodzaju:

  • Wstępne przycinanie - w tym miejscu przestajemy rosnąć, gdy nie znajdziemy statystycznie istotnego związku między atrybutami i klasą w żadnym konkretnym węźle.
  • Po przycinaniu - Aby opublikować przycinanie, musimy zweryfikować wydajność modelu zestawu testowego, a następnie wyciąć gałęzie, które są wynikiem nadmiernego hałasu z zestawu treningowego.

3. Wybór drzewa - Trzecim krokiem jest proces znajdowania najmniejszego drzewa, które pasuje do danych.

Przykłady i ilustracja budowy drzewa decyzyjnego

Teraz, gdy poznaliśmy zasady drzewa decyzyjnego. Zrozummy to i zilustrujemy za pomocą przykładu.

Powiedzmy, że chcesz zagrać w krykieta w określonym dniu (np. W sobotę). Jakie są czynniki, które będą decydować, czy gra się wydarzy, czy nie?

Najwyraźniej głównym czynnikiem jest klimat, żaden inny czynnik nie ma tak dużego prawdopodobieństwa, jak klimat ma do przerwania gry.

Zebraliśmy dane z ostatnich 10 dni, które przedstawiono poniżej:

DzieńPogodaTemperaturaWilgotnośćWiatrGrać?
1PochmurnyGorącoWysokiSłabytak
2)SłonecznyGorącoWysokiSłabyNie
3)SłonecznyŁagodnyNormalnaSilnytak
4DeszczowyŁagodnyWysokiSilnyNie
5PochmurnyŁagodnyWysokiSilnytak
6DeszczowyChłodnyNormalnaSilnyNie
7DeszczowyŁagodnyWysokiSłabytak
8SłonecznyGorącoWysokiSilnyNie
9PochmurnyGorącoNormalnaSłabytak
10DeszczowyŁagodnyWysokiSilnyNie

Stwórzmy teraz nasze drzewo decyzyjne na podstawie danych, które mamy. Więc podzieliliśmy drzewo decyzyjne na dwa poziomy, pierwszy oparty jest na atrybucie „Pogoda”, a drugi rząd opiera się na „Wilgotności” i „Wiatrze”. Poniższe obrazy ilustrują wyuczone drzewo decyzyjne.

Możemy również ustawić pewne wartości progowe, jeśli funkcje są ciągłe.

Co to jest Entropia w algorytmie drzewa decyzyjnego?

Krótko mówiąc, entropia jest miarą stopnia nieuporządkowania danych. Chociaż mogłeś słyszeć ten termin na lekcjach matematyki lub fizyki, tutaj jest tak samo.

Powodem użycia Entropii w drzewie decyzyjnym jest to, że ostatecznym celem w drzewie decyzyjnym jest zgrupowanie podobnych grup danych w podobne klasy, tj. Uporządkowanie danych.

Zobaczmy poniższy obraz, na którym mamy początkowy zestaw danych i musimy zastosować algorytm drzewa decyzyjnego w celu zgrupowania podobnych punktów danych w jednej kategorii.

Po rozdzieleniu decyzji, jak wyraźnie widać, większość czerwonych kółek należy do jednej klasy, podczas gdy większość niebieskich krzyży należy do innej klasy. Dlatego postanowiono sklasyfikować atrybuty, które mogą być oparte na różnych czynnikach.

A teraz spróbujmy zrobić matematykę tutaj:

Powiedzmy, że mamy zestawy „N” przedmiotu i przedmioty te dzielą się na dwie kategorie, a teraz, aby pogrupować dane na podstawie etykiet, wprowadzamy stosunek:

Entropię naszego zestawu podaje następujące równanie:

Sprawdźmy wykres dla podanego równania:

Powyżej obrazu (przy p = 0, 5 i q = 0, 5)

Zalety

1. Drzewo decyzyjne jest łatwe do zrozumienia, a po jego zrozumieniu możemy je zbudować.

2. Możemy zaimplementować drzewo decyzyjne w odniesieniu do danych liczbowych i kategorycznych.

3. Wykazano, że drzewo decyzyjne jest solidnym modelem o obiecujących wynikach.

4. Są również wydajne czasowo z dużymi danymi.

5. Wymaga mniejszego wysiłku na szkolenie danych.

Niedogodności

1. Niestabilność - tylko jeśli informacje są dokładne i dokładne, drzewo decyzyjne przyniesie obiecujące wyniki. Nawet jeśli nastąpi niewielka zmiana danych wejściowych, może to spowodować duże zmiany w drzewie.

2. Złożoność - jeśli zestaw danych jest ogromny z wieloma kolumnami i wierszami, zaprojektowanie drzewa decyzyjnego z wieloma gałęziami jest bardzo złożonym zadaniem.

3. Koszty - Czasami głównym czynnikiem pozostaje koszt, ponieważ gdy trzeba zbudować złożone drzewo decyzyjne, wymaga ono zaawansowanej wiedzy w zakresie analizy ilościowej i statystycznej.

Wniosek

W tym artykule dowiedzieliśmy się o algorytmie drzewa decyzyjnego i jak go zbudować. Widzieliśmy także dużą rolę, jaką odgrywa Entropy w algorytmie drzewa decyzyjnego, i wreszcie widzieliśmy zalety i wady drzewa decyzyjnego.

Polecane artykuły

Jest to przewodnik po algorytmie drzewa decyzyjnego. Tutaj omówiliśmy rolę odgrywaną przez Entropię, działanie, zalety i wady. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Ważne metody eksploracji danych
  2. Co to jest aplikacja internetowa?
  3. Przewodnik po tym, czym jest Data Science?
  4. Pytania analityka danych
  5. Zastosowanie drzewa decyzyjnego w eksploracji danych

Kategoria: