Wprowadzenie do algorytmu KNN w języku R

W algorytmie KNN w R KNN oznacza algorytm K najbliższego sąsiada, a R jest językiem programowania. Mówi się, że jest to najprostszy algorytm uczenia maszynowego. KNN jest nadzorowanym algorytmem, który klasyfikuje punkty danych do klasy docelowej, porównując cechy z najbliższym sąsiadem.

Przykład: Załóżmy, że chcesz sklasyfikować ekran dotykowy i telefon z klawiaturą. Różnicowanie obu telefonów wiąże się z różnymi czynnikami. Jednak czynnikiem różnicującym oba telefony jest klawiatura. Kiedy otrzymamy punkt danych (telefon). Porównujemy go z podobnymi funkcjami sąsiednich punktów danych, aby sklasyfikować go jako klawiaturę lub telefon dotykowy.

Funkcje algorytmu KNN

Tutaj przestudiujemy funkcje algorytmu KNN:

  • Algorytm KNN wykorzystuje dane wejściowe do przewidywania punktów danych zestawu wyjściowego.
  • Algorytm można zastosować do różnych zestawów problemów.
  • Koncentruje się na podobieństwie funkcji w celu klasyfikacji danych.
  • Algorytm KNN obsługuje realistyczne dane i nie przyjmuje żadnych założeń dotyczących punktów danych.
  • KNN zapamiętuje zestaw danych treningowych, a nie jest intuicyjny. Można również powiedzieć, że ma leniwe podejście.
  • Może rozwiązać problemy z klasyfikacją i regresją.

Rozwiązywanie problemów w algorytmie KNN w R.

Po rozwiązaniu problemu:

1. Problem z klasyfikacją

W problemie z klasyfikacją wartości są dyskretne, podobnie jak to, czy lubisz jeść pizzę z dodatkami czy bez. Istnieje wspólna płaszczyzna. Algorytm KNN pomaga w rozwiązaniu takiego problemu.

2. Problem regresji

Problem regresji pojawia się na obrazie, gdy mamy zmienną zależną i zmienną niezależną. Np .: indeks BMI. Zazwyczaj każdy wiersz zawiera punkt obserwacji lub danych i przykład.

Algorytm KNN w R.

Spójrzmy na kroki w algorytmie, który należy wykonać:

Krok 1: Załaduj dane wejściowe.

Krok 2: Zainicjuj K liczbą najbliższych sąsiadów.

Krok 3: Obliczanie danych (tj. Odległość między bieżącym a najbliższym sąsiadem)

Krok 4: Dodanie odległości do aktualnie zamówionego zestawu danych.

Krok 5: Zbieranie wpisów K i oznaczanie ich.

Krok 6: Zwróć średnią wartość dla problemu regresji.

Krok 7: Zwróć wartość trybu dla problemów z klasyfikacją.

Punkty do zapamiętania podczas wdrażania algorytmu KNN

  • Powinniśmy upewnić się, że wartość K jest większa niż jeden, co utrudnia przewidywanie dokładności.
  • Im większa wartość K, tym dokładniejsza prognoza może wynikać z większości.
  • Lepiej jest mieć K jako liczbę nieparzystą. W przeciwnym razie może dojść do zerwania remisu.

Pseudokod KNN

W poniższym wzorze reprezentuje zmienne i reprezentuje punkty danych, w których (i = 1, 2, 3….)

Set(, )

Przypadków użycia

Poniżej przedstawiono przypadki użycia w algorytmie KNN w języku R:

1. Porównywanie produktów i pomoc w rekomendacjach zakupowych

Kiedy kupujemy laptopa lub komputer z internetowej witryny e-commerce, widzimy również zalecenia dotyczące zakupów, takie jak zakup oprogramowania antywirusowego lub głośników. Wszystko to dlatego, że kiedy poprzedni klient kupuje laptopa, kupuje się go głównie wraz z antywirusem lub głośnikami. Uczenie maszynowe pomaga w rekomendacjach e-commerce.

2. Zalecenia żywieniowe

Uczenie maszynowe pomaga również w rekomendacjach opartych na wcześniej zamówionym jedzeniu, a także sugeruje restauracje odpowiednio.

Przykład algorytmu KNN

Oto przykłady algorytmu KNN:

1. Importowanie danych

Weźmy dane manekina o naszym przewidywaniu rozmiaru koszulki faceta przy pomocy wzrostu i wagi.

Wysokość (cm) Waga (kg) Rozmiar
140 58 S.
140 59 S.
140 63 S.
150 59 M.
152 60 M.
153 60 M.
154 61 M.
155 64 M.
156 64 M.
157 61 M.
160 62 L.
161 65 L.
162 62 L.
163 63 L.
163 66 L.
165 63 L.
165 64 L.
165 68 L.

2. Znajdowanie podobieństw przez obliczanie odległości

Możemy wykorzystywać zarówno Manhattan, jak i odległość euklidesową, ponieważ dane są ciągłe. Obliczamy odległość między nową próbką a zestawem danych treningowych, a następnie znajdujemy K-najbliższy.

Przykład: Załóżmy, że „Raj” ma wysokość 165 cm i waży 63 kg. Odległość euklidesową obliczamy na podstawie pierwszej obserwacji z nową próbką: SQRT ((165-140) 2 + (63-58) 2)

3. Znalezienie najbliższych sąsiadów K

Załóżmy, że K = 4, jest 4 klientów, z których 3 ma średni rozmiar, a 1 duży. Najlepszą prognozą są garnitury średniej wielkości Raj.

Różnica między KNN a średnią K.

Oto różnica:

  • KNN jest algorytmem nadzorowanym (zmienna zależna), podczas gdy K-średnia jest algorytmem nienadzorowanym (brak zmiennej zależnej).
  • K-mean używa techniki klastrowania do dzielenia punktów danych tworzących klastry K. KNN używa najbliższych sąsiadów K do klasyfikowania punktów danych i łączenia ich.

Zalety i wady KNN

Oto zalety:

  • Algorytm KNN jest wszechstronny, można go stosować do problemów z klasyfikacją i regresją.
  • Nie potrzeba wcześniejszego modelu do zbudowania algorytmu KNN.
  • Prosty i łatwy do wdrożenia.

Oto wady:

  • Algorytm wraz ze wzrostem liczby próbek (tj. Liczby zmiennych)

Polecane artykuły

Jest to przewodnik po algorytmie KNN w R. Tutaj omawiamy cechy, przykłady, pseudokod, kroki, które należy wykonać w algorytmie KNN. Możesz również przejrzeć nasze inne powiązane artykuły, aby dowiedzieć się więcej-

  1. Algorytmy nauki danych
  2. Co to jest algorytm genetyczny?
  3. Algorytmy routingu
  4. Algorytmy sieci neuronowej
  5. Algorytm C ++ | Przykłady algorytmu C ++

Kategoria: