Wprowadzenie do tworzenia drzewa decyzyjnego
W związku z niedawnym szybkim wzrostem ilości danych generowanych przez systemy informacyjne w celu obsługi dużych zestawów danych dominuje potrzeba drzewa decyzyjnego w celu zmniejszenia złożoności obliczeń. Drzewo decyzyjne można uznać za najważniejsze podejście do reprezentowania klasyfikatorów. Innymi słowy, możemy powiedzieć, że dane są uporządkowane przy użyciu strategii dziel i zwyciężaj. aby wiedzieć, że tylko zbadaliśmy. Drzewo decyzyjne ma strukturę umożliwiającą dokładne określenie wartości i prawdopodobieństwa decyzji o wynikach od
m na każdym poziomie węzła, pomagając decydentom wybrać prawidłowe prognozy spośród różnych nieodpowiednich danych. W tym artykule dowiesz się, jak w prosty sposób utworzyć drzewo decyzyjne na podstawie przykładowych danych.
Co to jest drzewo decyzyjne?
Drzewo decyzyjne jest binarną hierarchiczną strukturą, która identyfikuje sposób, w jaki każdy węzeł dzieli zestaw danych w oparciu o różne warunki. Aby zbudować optymalne drzewo za pomocą podejścia modelowego w celu sklasyfikowania zmiennej odpowiedzi, która przewiduje wartość zmiennej docelowej za pomocą prostych reguł decyzyjnych (instrukcje if-then-else). Podejście to nadzorowane uczenie się, najczęściej stosowane w problemach z klasyfikacją i uważane za bardzo skuteczny model predykcyjny. Są one używane w różnych dziedzinach aplikacji, takich jak teoria gier, sztuczna inteligencja, uczenie maszynowe, eksploracja danych oraz w obszarach takich jak bezpieczeństwo i medycyna.
Jak utworzyć drzewo decyzyjne?
Drzewo decyzyjne jest tworzone w prosty sposób z odgórnym sposobem; składają się z węzłów, które tworzą węzeł kierowany, który ma węzły główne bez żadnych przychodzących krawędzi, wszystkie inne węzły nazywane są węzłami decyzyjnymi (węzły wewnętrzne i węzły liści, które odpowiadają etykietom atrybutów i klas) z co najmniej jedną przychodzącą krawędzią. Głównym celem zestawów danych jest zminimalizowanie błędów uogólnienia poprzez znalezienie optymalnego rozwiązania w drzewie decyzyjnym.
Przykład drzewa decyzyjnego wyjaśniono poniżej przykładowym zestawem danych. Celem jest przewidzenie, czy zysk spadnie, czy wzrośnie, wykorzystując atrybuty życia i konkurencji. Tutaj zmienne drzewa decyzyjnego są podzielone na kategorie (Tak, Nie).
Zestaw danych
Życie | Konkurencja | Rodzaj | Zysk |
Stary | tak | Oprogramowanie | Na dół |
Stary | Nie | Oprogramowanie | Na dół |
Stary | Nie | Sprzęt komputerowy | Na dół |
Środek | tak | Oprogramowanie | Na dół |
Środek | tak | Sprzęt komputerowy | Na dół |
Środek | Nie | Sprzęt komputerowy | W górę |
Środek | Nie | Oprogramowanie | W górę |
Nowy | tak | Oprogramowanie | W górę |
Nowy | Nie | Sprzęt komputerowy | W górę |
Nowy | Nie | Oprogramowanie | W górę |
Z powyższego zestawu danych: życie, konkurencja, typ są predyktorami, a zysk atrybutu jest celem. Istnieją różne algorytmy do implementacji drzewa decyzyjnego, ale najlepszym algorytmem do budowy drzewa decyzyjnego jest ID3, który kładzie nacisk na chciwe podejście do wyszukiwania. Drzewo decyzyjne jest zgodne z regułą wnioskowania decyzji lub normalną formą rozłączną (^).
Drzewo decyzyjne
Początkowo wszystkie atrybuty szkolenia są uważane za katalog główny. Priorytet kolejności umieszczania atrybutów jako root odbywa się w następujący sposób. Proces ten znany jest z wyboru atrybutów w celu określenia, który atrybut ma być węzłem głównym na każdym poziomie. Drzewo ma dwa etapy: budowa drzewa, przycinanie drzew. Dane zostały podzielone na wszystkie węzły decyzyjne.
Zysk informacji
Jest to miara zmiany entropii oparta na zmiennej niezależnej. Drzewo decyzyjne musi znaleźć najwyższy zysk informacji.
Entropia
Entropia jest zdefiniowana jak dla zbioru skończonego, miary losowości danych lub przewidywalności zdarzeń, jeśli próbka ma podobne wartości, to entropia wynosi zero, a jeśli jest równo podzielona z próbką, to jest jedna.
Entropia dla klasy
Gdzie p oznacza prawdopodobieństwo, że zysk powie „tak”, a N oznacza stratę, powiedz „nie”.
dlatego entropia = 1
Po obliczeniu wartości entropii konieczne jest wybranie węzła głównego z atrybutu.
Entropia wieku
Zgodnie z zestawem danych dla atrybutu Life mamy stary = 3 w dół, środek = 2 w dół i jeden w górę dotyczący etykiety zysków.
Życie | Liczba Pi | ni | I (pi, ni) | |
Stary | 0 | 3) | 0 | |
Środek | 2) | 2) | 1 | |
Nowy | 3) | 0 | 0 |
Zysk = Entropia klasy - Entropia życia = 1 - 0, 4 = 0, 6
Entropia (konkurencja) = 0, 87
Konkurencja | Liczba Pi | ni | I (pi, ni) | |
tak | 1 | 3) | 0, 8 | |
Nie | 4 | 2) | 0, 9 |
Zysk = Entropia klasy - Entropia życia = 1 - 0, 87 = 0, 12
Teraz pojawia się problem w atrybucie Życie, w którym środek ma jednakowe prawdopodobieństwo zarówno w górę, jak i w dół. dlatego entropia wynosi 1. podobnie, oblicza się ponownie dla atrybutu typu, entropia wynosi 1, a wzmocnienie wynosi 0. Teraz podjęto pełną decyzję, aby uzyskać dokładny wynik dla wartości średniej.
Zalety drzewa decyzyjnego
- Są łatwe do zrozumienia, a wygenerowane reguły są elastyczne. Nie wymaga dużego wysiłku w celu przygotowania danych.
- Bardzo pomocne jest wizualne podejście do reprezentowania decyzji i wyników.
- Drzewo decyzyjne obsługuje zestaw danych treningowych z błędami i brakującymi wartościami.
- Mogą obsługiwać wartość dyskretną i atrybut liczbowy. Działa zmienne jakościowe i ciągłe dla danych wejściowych i wyjściowych.
- Są użytecznym narzędziem dla domeny biznesowej, która musi podejmować decyzje po analizie pod pewnymi warunkami.
Wady drzewa decyzyjnego
- Uczniowie mogą tworzyć złożone drzewo decyzyjne w zależności od wyszkolonych danych. proces ten nazywa się nadmiernym dopasowaniem, trudnym procesem w modelach drzewa decyzyjnego.
- Preferowane wartości są kategoryczne, jeśli jest ciągłe, drzewo decyzyjne traci informacje, co prowadzi do podatności na błędy. Wzrost obliczeń wykładniczych jest wyższy podczas analizy.
- Wiele etykiet klas prowadzi do niepoprawnych złożonych obliczeń i zapewnia niską dokładność prognoz zestawu danych.
- Informacje uzyskane w algorytmie DT dają tendencyjną odpowiedź na kategorycznie wyższe wartości.
Wniosek
Podsumowując, drzewa decyzyjne stanowią praktyczną i łatwą metodę uczenia się oraz silnie znaną jako wydajne narzędzia do uczenia maszynowego, ponieważ w krótkim czasie osiągają dobre wyniki w przypadku dużych zbiorów danych. Jest to zadanie edukacyjne, które wykorzystuje podejście statystyczne, aby wyciągnąć ogólne wnioski. Teraz lepiej rozumie, dlaczego drzewo decyzyjne jest wykorzystywane w modelowaniu predykcyjnym, a dla naukowców danych są potężnym narzędziem.
Polecane artykuły
Jest to przewodnik po tworzeniu drzewa decyzyjnego. Tutaj omawiamy sposób tworzenia drzewa decyzyjnego wraz z różnymi zaletami i wadami. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -
- Przegląd drzewa decyzyjnego w R
- Co to jest algorytm drzewa decyzyjnego?
- Wprowadzenie do narzędzi sztucznej inteligencji
- 10 najważniejszych pytań do wywiadu na temat sztucznej inteligencji