Utwórz drzewo decyzyjne - Proste sposoby wizualizacji diagramu drzewa decyzyjnego

Wprowadzenie do tworzenia drzewa decyzyjnego

W związku z niedawnym szybkim wzrostem ilości danych generowanych przez systemy informacyjne w celu obsługi dużych zestawów danych dominuje potrzeba drzewa decyzyjnego w celu zmniejszenia złożoności obliczeń. Drzewo decyzyjne można uznać za najważniejsze podejście do reprezentowania klasyfikatorów. Innymi słowy, możemy powiedzieć, że dane są uporządkowane przy użyciu strategii dziel i zwyciężaj. aby wiedzieć, że tylko zbadaliśmy. Drzewo decyzyjne ma strukturę umożliwiającą dokładne określenie wartości i prawdopodobieństwa decyzji o wynikach od

m na każdym poziomie węzła, pomagając decydentom wybrać prawidłowe prognozy spośród różnych nieodpowiednich danych. W tym artykule dowiesz się, jak w prosty sposób utworzyć drzewo decyzyjne na podstawie przykładowych danych.

Co to jest drzewo decyzyjne?

Drzewo decyzyjne jest binarną hierarchiczną strukturą, która identyfikuje sposób, w jaki każdy węzeł dzieli zestaw danych w oparciu o różne warunki. Aby zbudować optymalne drzewo za pomocą podejścia modelowego w celu sklasyfikowania zmiennej odpowiedzi, która przewiduje wartość zmiennej docelowej za pomocą prostych reguł decyzyjnych (instrukcje if-then-else). Podejście to nadzorowane uczenie się, najczęściej stosowane w problemach z klasyfikacją i uważane za bardzo skuteczny model predykcyjny. Są one używane w różnych dziedzinach aplikacji, takich jak teoria gier, sztuczna inteligencja, uczenie maszynowe, eksploracja danych oraz w obszarach takich jak bezpieczeństwo i medycyna.

Jak utworzyć drzewo decyzyjne?

Drzewo decyzyjne jest tworzone w prosty sposób z odgórnym sposobem; składają się z węzłów, które tworzą węzeł kierowany, który ma węzły główne bez żadnych przychodzących krawędzi, wszystkie inne węzły nazywane są węzłami decyzyjnymi (węzły wewnętrzne i węzły liści, które odpowiadają etykietom atrybutów i klas) z co najmniej jedną przychodzącą krawędzią. Głównym celem zestawów danych jest zminimalizowanie błędów uogólnienia poprzez znalezienie optymalnego rozwiązania w drzewie decyzyjnym.

Przykład drzewa decyzyjnego wyjaśniono poniżej przykładowym zestawem danych. Celem jest przewidzenie, czy zysk spadnie, czy wzrośnie, wykorzystując atrybuty życia i konkurencji. Tutaj zmienne drzewa decyzyjnego są podzielone na kategorie (Tak, Nie).

Zestaw danych

Życie	Konkurencja	Rodzaj	Zysk
Stary	tak	Oprogramowanie	Na dół
Stary	Nie	Oprogramowanie	Na dół
Stary	Nie	Sprzęt komputerowy	Na dół
Środek	tak	Oprogramowanie	Na dół
Środek	tak	Sprzęt komputerowy	Na dół
Środek	Nie	Sprzęt komputerowy	W górę
Środek	Nie	Oprogramowanie	W górę
Nowy	tak	Oprogramowanie	W górę
Nowy	Nie	Sprzęt komputerowy	W górę
Nowy	Nie	Oprogramowanie	W górę

Z powyższego zestawu danych: życie, konkurencja, typ są predyktorami, a zysk atrybutu jest celem. Istnieją różne algorytmy do implementacji drzewa decyzyjnego, ale najlepszym algorytmem do budowy drzewa decyzyjnego jest ID3, który kładzie nacisk na chciwe podejście do wyszukiwania. Drzewo decyzyjne jest zgodne z regułą wnioskowania decyzji lub normalną formą rozłączną (^).

Drzewo decyzyjne

Początkowo wszystkie atrybuty szkolenia są uważane za katalog główny. Priorytet kolejności umieszczania atrybutów jako root odbywa się w następujący sposób. Proces ten znany jest z wyboru atrybutów w celu określenia, który atrybut ma być węzłem głównym na każdym poziomie. Drzewo ma dwa etapy: budowa drzewa, przycinanie drzew. Dane zostały podzielone na wszystkie węzły decyzyjne.

Zysk informacji

Jest to miara zmiany entropii oparta na zmiennej niezależnej. Drzewo decyzyjne musi znaleźć najwyższy zysk informacji.

Entropia

Entropia jest zdefiniowana jak dla zbioru skończonego, miary losowości danych lub przewidywalności zdarzeń, jeśli próbka ma podobne wartości, to entropia wynosi zero, a jeśli jest równo podzielona z próbką, to jest jedna.

Entropia dla klasy

Gdzie p oznacza prawdopodobieństwo, że zysk powie „tak”, a N oznacza stratę, powiedz „nie”.

dlatego entropia = 1

Po obliczeniu wartości entropii konieczne jest wybranie węzła głównego z atrybutu.

Entropia wieku

Zgodnie z zestawem danych dla atrybutu Life mamy stary = 3 w dół, środek = 2 w dół i jeden w górę dotyczący etykiety zysków.

Życie		Liczba Pi	ni	I (pi, ni)
	Stary	0	3)	0
	Środek	2)	2)	1
	Nowy	3)	0	0

Zysk = Entropia klasy - Entropia życia = 1 - 0, 4 = 0, 6

Entropia (konkurencja) = 0, 87

Konkurencja		Liczba Pi	ni	I (pi, ni)
	tak	1	3)	0, 8
	Nie	4	2)	0, 9

Zysk = Entropia klasy - Entropia życia = 1 - 0, 87 = 0, 12

Teraz pojawia się problem w atrybucie Życie, w którym środek ma jednakowe prawdopodobieństwo zarówno w górę, jak i w dół. dlatego entropia wynosi 1. podobnie, oblicza się ponownie dla atrybutu typu, entropia wynosi 1, a wzmocnienie wynosi 0. Teraz podjęto pełną decyzję, aby uzyskać dokładny wynik dla wartości średniej.

Zalety drzewa decyzyjnego

Są łatwe do zrozumienia, a wygenerowane reguły są elastyczne. Nie wymaga dużego wysiłku w celu przygotowania danych.
Bardzo pomocne jest wizualne podejście do reprezentowania decyzji i wyników.
Drzewo decyzyjne obsługuje zestaw danych treningowych z błędami i brakującymi wartościami.
Mogą obsługiwać wartość dyskretną i atrybut liczbowy. Działa zmienne jakościowe i ciągłe dla danych wejściowych i wyjściowych.
Są użytecznym narzędziem dla domeny biznesowej, która musi podejmować decyzje po analizie pod pewnymi warunkami.

Wady drzewa decyzyjnego

Uczniowie mogą tworzyć złożone drzewo decyzyjne w zależności od wyszkolonych danych. proces ten nazywa się nadmiernym dopasowaniem, trudnym procesem w modelach drzewa decyzyjnego.
Preferowane wartości są kategoryczne, jeśli jest ciągłe, drzewo decyzyjne traci informacje, co prowadzi do podatności na błędy. Wzrost obliczeń wykładniczych jest wyższy podczas analizy.
Wiele etykiet klas prowadzi do niepoprawnych złożonych obliczeń i zapewnia niską dokładność prognoz zestawu danych.
Informacje uzyskane w algorytmie DT dają tendencyjną odpowiedź na kategorycznie wyższe wartości.

Wniosek

Podsumowując, drzewa decyzyjne stanowią praktyczną i łatwą metodę uczenia się oraz silnie znaną jako wydajne narzędzia do uczenia maszynowego, ponieważ w krótkim czasie osiągają dobre wyniki w przypadku dużych zbiorów danych. Jest to zadanie edukacyjne, które wykorzystuje podejście statystyczne, aby wyciągnąć ogólne wnioski. Teraz lepiej rozumie, dlaczego drzewo decyzyjne jest wykorzystywane w modelowaniu predykcyjnym, a dla naukowców danych są potężnym narzędziem.

Polecane artykuły

Jest to przewodnik po tworzeniu drzewa decyzyjnego. Tutaj omawiamy sposób tworzenia drzewa decyzyjnego wraz z różnymi zaletami i wadami. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

Przegląd drzewa decyzyjnego w R
Co to jest algorytm drzewa decyzyjnego?
Wprowadzenie do narzędzi sztucznej inteligencji
10 najważniejszych pytań do wywiadu na temat sztucznej inteligencji

Utwórz drzewo decyzyjne - Proste sposoby wizualizacji diagramu drzewa decyzyjnego

Spisie treści:

Wprowadzenie do tworzenia drzewa decyzyjnego

Co to jest drzewo decyzyjne?

Jak utworzyć drzewo decyzyjne?

Zestaw danych

Drzewo decyzyjne

Zysk informacji

Entropia

Entropia dla klasy

Entropia wieku

Zalety drzewa decyzyjnego

Wady drzewa decyzyjnego

Wniosek

Polecane artykuły

Przedstawiamy najlepsze porównanie analizy czynnikowej klastra v / s

Grupowanie w uczenie maszynowe Najpopularniejsze metody i aplikacje

COBIT vs ITIL - Poznaj 5 najbardziej przydatnych różnic

Zakres kodu - Metody i sposób działania pokrycia kodu?

Narzędzia pokrycia kodu - Top 6 narzędzi pokrycia kodu

Eksploracja danych a uczenie maszynowe - 10 najlepszych rzeczy, które musisz wiedzieć

Statystyki Data Mining vs. Statystyki - Który jest lepszy

Metody eksploracji danych - 8 najważniejszych rodzajów metod eksploracji danych z przykładami

Pytania do wywiadu dotyczące modelowania danych - 10 ważnych pytań

Modele danych w DBMS - Wprowadzenie - Różne typy modeli danych

Prześlij plik w PHP - Jak utworzyć plik do przesłania w PHP? - Przykłady

Zastosowania kodowania - 10 najważniejszych powodów, dla których kodowanie może zmienić Twoje życie

Zastosowania Angular JS - 12 powodów, dla których warto używać Angular JS

Zastosowania C ++ - 10 powodów, dla których warto używać C ++

Protokół datagramu użytkownika - Kompletny przewodnik po protokole użytkownika datagramów