Utwórz drzewo decyzyjne - Proste sposoby wizualizacji diagramu drzewa decyzyjnego

Spisie treści:

Anonim

Wprowadzenie do tworzenia drzewa decyzyjnego

W związku z niedawnym szybkim wzrostem ilości danych generowanych przez systemy informacyjne w celu obsługi dużych zestawów danych dominuje potrzeba drzewa decyzyjnego w celu zmniejszenia złożoności obliczeń. Drzewo decyzyjne można uznać za najważniejsze podejście do reprezentowania klasyfikatorów. Innymi słowy, możemy powiedzieć, że dane są uporządkowane przy użyciu strategii dziel i zwyciężaj. aby wiedzieć, że tylko zbadaliśmy. Drzewo decyzyjne ma strukturę umożliwiającą dokładne określenie wartości i prawdopodobieństwa decyzji o wynikach od

m na każdym poziomie węzła, pomagając decydentom wybrać prawidłowe prognozy spośród różnych nieodpowiednich danych. W tym artykule dowiesz się, jak w prosty sposób utworzyć drzewo decyzyjne na podstawie przykładowych danych.

Co to jest drzewo decyzyjne?

Drzewo decyzyjne jest binarną hierarchiczną strukturą, która identyfikuje sposób, w jaki każdy węzeł dzieli zestaw danych w oparciu o różne warunki. Aby zbudować optymalne drzewo za pomocą podejścia modelowego w celu sklasyfikowania zmiennej odpowiedzi, która przewiduje wartość zmiennej docelowej za pomocą prostych reguł decyzyjnych (instrukcje if-then-else). Podejście to nadzorowane uczenie się, najczęściej stosowane w problemach z klasyfikacją i uważane za bardzo skuteczny model predykcyjny. Są one używane w różnych dziedzinach aplikacji, takich jak teoria gier, sztuczna inteligencja, uczenie maszynowe, eksploracja danych oraz w obszarach takich jak bezpieczeństwo i medycyna.

Jak utworzyć drzewo decyzyjne?

Drzewo decyzyjne jest tworzone w prosty sposób z odgórnym sposobem; składają się z węzłów, które tworzą węzeł kierowany, który ma węzły główne bez żadnych przychodzących krawędzi, wszystkie inne węzły nazywane są węzłami decyzyjnymi (węzły wewnętrzne i węzły liści, które odpowiadają etykietom atrybutów i klas) z co najmniej jedną przychodzącą krawędzią. Głównym celem zestawów danych jest zminimalizowanie błędów uogólnienia poprzez znalezienie optymalnego rozwiązania w drzewie decyzyjnym.

Przykład drzewa decyzyjnego wyjaśniono poniżej przykładowym zestawem danych. Celem jest przewidzenie, czy zysk spadnie, czy wzrośnie, wykorzystując atrybuty życia i konkurencji. Tutaj zmienne drzewa decyzyjnego są podzielone na kategorie (Tak, Nie).

Zestaw danych

Życie Konkurencja Rodzaj Zysk
Stary tak Oprogramowanie Na dół
Stary Nie Oprogramowanie Na dół
Stary Nie Sprzęt komputerowy Na dół
Środek tak Oprogramowanie Na dół
Środek tak Sprzęt komputerowy Na dół
Środek Nie Sprzęt komputerowy W górę
Środek Nie Oprogramowanie W górę
Nowy tak Oprogramowanie W górę
Nowy Nie Sprzęt komputerowy W górę
Nowy Nie Oprogramowanie W górę

Z powyższego zestawu danych: życie, konkurencja, typ są predyktorami, a zysk atrybutu jest celem. Istnieją różne algorytmy do implementacji drzewa decyzyjnego, ale najlepszym algorytmem do budowy drzewa decyzyjnego jest ID3, który kładzie nacisk na chciwe podejście do wyszukiwania. Drzewo decyzyjne jest zgodne z regułą wnioskowania decyzji lub normalną formą rozłączną (^).

Drzewo decyzyjne

Początkowo wszystkie atrybuty szkolenia są uważane za katalog główny. Priorytet kolejności umieszczania atrybutów jako root odbywa się w następujący sposób. Proces ten znany jest z wyboru atrybutów w celu określenia, który atrybut ma być węzłem głównym na każdym poziomie. Drzewo ma dwa etapy: budowa drzewa, przycinanie drzew. Dane zostały podzielone na wszystkie węzły decyzyjne.

Zysk informacji

Jest to miara zmiany entropii oparta na zmiennej niezależnej. Drzewo decyzyjne musi znaleźć najwyższy zysk informacji.

Entropia

Entropia jest zdefiniowana jak dla zbioru skończonego, miary losowości danych lub przewidywalności zdarzeń, jeśli próbka ma podobne wartości, to entropia wynosi zero, a jeśli jest równo podzielona z próbką, to jest jedna.

Entropia dla klasy

Gdzie p oznacza prawdopodobieństwo, że zysk powie „tak”, a N oznacza stratę, powiedz „nie”.

dlatego entropia = 1

Po obliczeniu wartości entropii konieczne jest wybranie węzła głównego z atrybutu.

Entropia wieku

Zgodnie z zestawem danych dla atrybutu Life mamy stary = 3 w dół, środek = 2 w dół i jeden w górę dotyczący etykiety zysków.

Życie Liczba Pi ni I (pi, ni)
Stary 0 3) 0
Środek 2) 2) 1
Nowy 3) 0 0

Zysk = Entropia klasy - Entropia życia = 1 - 0, 4 = 0, 6

Entropia (konkurencja) = 0, 87

Konkurencja Liczba Pi ni I (pi, ni)
tak 1 3) 0, 8
Nie 4 2) 0, 9

Zysk = Entropia klasy - Entropia życia = 1 - 0, 87 = 0, 12

Teraz pojawia się problem w atrybucie Życie, w którym środek ma jednakowe prawdopodobieństwo zarówno w górę, jak i w dół. dlatego entropia wynosi 1. podobnie, oblicza się ponownie dla atrybutu typu, entropia wynosi 1, a wzmocnienie wynosi 0. Teraz podjęto pełną decyzję, aby uzyskać dokładny wynik dla wartości średniej.

Zalety drzewa decyzyjnego

  • Są łatwe do zrozumienia, a wygenerowane reguły są elastyczne. Nie wymaga dużego wysiłku w celu przygotowania danych.
  • Bardzo pomocne jest wizualne podejście do reprezentowania decyzji i wyników.
  • Drzewo decyzyjne obsługuje zestaw danych treningowych z błędami i brakującymi wartościami.
  • Mogą obsługiwać wartość dyskretną i atrybut liczbowy. Działa zmienne jakościowe i ciągłe dla danych wejściowych i wyjściowych.
  • Są użytecznym narzędziem dla domeny biznesowej, która musi podejmować decyzje po analizie pod pewnymi warunkami.

Wady drzewa decyzyjnego

  • Uczniowie mogą tworzyć złożone drzewo decyzyjne w zależności od wyszkolonych danych. proces ten nazywa się nadmiernym dopasowaniem, trudnym procesem w modelach drzewa decyzyjnego.
  • Preferowane wartości są kategoryczne, jeśli jest ciągłe, drzewo decyzyjne traci informacje, co prowadzi do podatności na błędy. Wzrost obliczeń wykładniczych jest wyższy podczas analizy.
  • Wiele etykiet klas prowadzi do niepoprawnych złożonych obliczeń i zapewnia niską dokładność prognoz zestawu danych.
  • Informacje uzyskane w algorytmie DT dają tendencyjną odpowiedź na kategorycznie wyższe wartości.

Wniosek

Podsumowując, drzewa decyzyjne stanowią praktyczną i łatwą metodę uczenia się oraz silnie znaną jako wydajne narzędzia do uczenia maszynowego, ponieważ w krótkim czasie osiągają dobre wyniki w przypadku dużych zbiorów danych. Jest to zadanie edukacyjne, które wykorzystuje podejście statystyczne, aby wyciągnąć ogólne wnioski. Teraz lepiej rozumie, dlaczego drzewo decyzyjne jest wykorzystywane w modelowaniu predykcyjnym, a dla naukowców danych są potężnym narzędziem.

Polecane artykuły

Jest to przewodnik po tworzeniu drzewa decyzyjnego. Tutaj omawiamy sposób tworzenia drzewa decyzyjnego wraz z różnymi zaletami i wadami. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Przegląd drzewa decyzyjnego w R
  2. Co to jest algorytm drzewa decyzyjnego?
  3. Wprowadzenie do narzędzi sztucznej inteligencji
  4. 10 najważniejszych pytań do wywiadu na temat sztucznej inteligencji