Wprowadzenie do algorytmu KNN w języku R
W algorytmie KNN w R KNN oznacza algorytm K najbliższego sąsiada, a R jest językiem programowania. Mówi się, że jest to najprostszy algorytm uczenia maszynowego. KNN jest nadzorowanym algorytmem, który klasyfikuje punkty danych do klasy docelowej, porównując cechy z najbliższym sąsiadem.
Przykład: Załóżmy, że chcesz sklasyfikować ekran dotykowy i telefon z klawiaturą. Różnicowanie obu telefonów wiąże się z różnymi czynnikami. Jednak czynnikiem różnicującym oba telefony jest klawiatura. Kiedy otrzymamy punkt danych (telefon). Porównujemy go z podobnymi funkcjami sąsiednich punktów danych, aby sklasyfikować go jako klawiaturę lub telefon dotykowy.
Funkcje algorytmu KNN
Tutaj przestudiujemy funkcje algorytmu KNN:
- Algorytm KNN wykorzystuje dane wejściowe do przewidywania punktów danych zestawu wyjściowego.
- Algorytm można zastosować do różnych zestawów problemów.
- Koncentruje się na podobieństwie funkcji w celu klasyfikacji danych.
- Algorytm KNN obsługuje realistyczne dane i nie przyjmuje żadnych założeń dotyczących punktów danych.
- KNN zapamiętuje zestaw danych treningowych, a nie jest intuicyjny. Można również powiedzieć, że ma leniwe podejście.
- Może rozwiązać problemy z klasyfikacją i regresją.
Rozwiązywanie problemów w algorytmie KNN w R.
Po rozwiązaniu problemu:
1. Problem z klasyfikacją
W problemie z klasyfikacją wartości są dyskretne, podobnie jak to, czy lubisz jeść pizzę z dodatkami czy bez. Istnieje wspólna płaszczyzna. Algorytm KNN pomaga w rozwiązaniu takiego problemu.
2. Problem regresji
Problem regresji pojawia się na obrazie, gdy mamy zmienną zależną i zmienną niezależną. Np .: indeks BMI. Zazwyczaj każdy wiersz zawiera punkt obserwacji lub danych i przykład.
Algorytm KNN w R.
Spójrzmy na kroki w algorytmie, który należy wykonać:
Krok 1: Załaduj dane wejściowe.
Krok 2: Zainicjuj K liczbą najbliższych sąsiadów.
Krok 3: Obliczanie danych (tj. Odległość między bieżącym a najbliższym sąsiadem)
Krok 4: Dodanie odległości do aktualnie zamówionego zestawu danych.
Krok 5: Zbieranie wpisów K i oznaczanie ich.
Krok 6: Zwróć średnią wartość dla problemu regresji.
Krok 7: Zwróć wartość trybu dla problemów z klasyfikacją.
Punkty do zapamiętania podczas wdrażania algorytmu KNN
- Powinniśmy upewnić się, że wartość K jest większa niż jeden, co utrudnia przewidywanie dokładności.
- Im większa wartość K, tym dokładniejsza prognoza może wynikać z większości.
- Lepiej jest mieć K jako liczbę nieparzystą. W przeciwnym razie może dojść do zerwania remisu.
Pseudokod KNN
W poniższym wzorze reprezentuje zmienne i reprezentuje punkty danych, w których (i = 1, 2, 3….)
Set(, )
Przypadków użycia
Poniżej przedstawiono przypadki użycia w algorytmie KNN w języku R:
1. Porównywanie produktów i pomoc w rekomendacjach zakupowych
Kiedy kupujemy laptopa lub komputer z internetowej witryny e-commerce, widzimy również zalecenia dotyczące zakupów, takie jak zakup oprogramowania antywirusowego lub głośników. Wszystko to dlatego, że kiedy poprzedni klient kupuje laptopa, kupuje się go głównie wraz z antywirusem lub głośnikami. Uczenie maszynowe pomaga w rekomendacjach e-commerce.
2. Zalecenia żywieniowe
Uczenie maszynowe pomaga również w rekomendacjach opartych na wcześniej zamówionym jedzeniu, a także sugeruje restauracje odpowiednio.
Przykład algorytmu KNN
Oto przykłady algorytmu KNN:
1. Importowanie danych
Weźmy dane manekina o naszym przewidywaniu rozmiaru koszulki faceta przy pomocy wzrostu i wagi.
Wysokość (cm) | Waga (kg) | Rozmiar |
140 | 58 | S. |
140 | 59 | S. |
140 | 63 | S. |
150 | 59 | M. |
152 | 60 | M. |
153 | 60 | M. |
154 | 61 | M. |
155 | 64 | M. |
156 | 64 | M. |
157 | 61 | M. |
160 | 62 | L. |
161 | 65 | L. |
162 | 62 | L. |
163 | 63 | L. |
163 | 66 | L. |
165 | 63 | L. |
165 | 64 | L. |
165 | 68 | L. |
2. Znajdowanie podobieństw przez obliczanie odległości
Możemy wykorzystywać zarówno Manhattan, jak i odległość euklidesową, ponieważ dane są ciągłe. Obliczamy odległość między nową próbką a zestawem danych treningowych, a następnie znajdujemy K-najbliższy.
Przykład: Załóżmy, że „Raj” ma wysokość 165 cm i waży 63 kg. Odległość euklidesową obliczamy na podstawie pierwszej obserwacji z nową próbką: SQRT ((165-140) 2 + (63-58) 2)
3. Znalezienie najbliższych sąsiadów K
Załóżmy, że K = 4, jest 4 klientów, z których 3 ma średni rozmiar, a 1 duży. Najlepszą prognozą są garnitury średniej wielkości Raj.
Różnica między KNN a średnią K.
Oto różnica:
- KNN jest algorytmem nadzorowanym (zmienna zależna), podczas gdy K-średnia jest algorytmem nienadzorowanym (brak zmiennej zależnej).
- K-mean używa techniki klastrowania do dzielenia punktów danych tworzących klastry K. KNN używa najbliższych sąsiadów K do klasyfikowania punktów danych i łączenia ich.
Zalety i wady KNN
Oto zalety:
- Algorytm KNN jest wszechstronny, można go stosować do problemów z klasyfikacją i regresją.
- Nie potrzeba wcześniejszego modelu do zbudowania algorytmu KNN.
- Prosty i łatwy do wdrożenia.
Oto wady:
- Algorytm wraz ze wzrostem liczby próbek (tj. Liczby zmiennych)
Polecane artykuły
Jest to przewodnik po algorytmie KNN w R. Tutaj omawiamy cechy, przykłady, pseudokod, kroki, które należy wykonać w algorytmie KNN. Możesz również przejrzeć nasze inne powiązane artykuły, aby dowiedzieć się więcej-
- Algorytmy nauki danych
- Co to jest algorytm genetyczny?
- Algorytmy routingu
- Algorytmy sieci neuronowej
- Algorytm C ++ | Przykłady algorytmu C ++