Metody grupowania - Znaczenie i techniki metod grupowania

Spisie treści:

Anonim

Wprowadzenie do metod grupowania

W tym artykule omówiono różne metody klastrowania stosowane w technikach eksploracji danych na różnych zasadach. Klastrowanie to zestaw obiektów danych zorganizowanych w inne logiczne grupowanie. Grupowanie podobnych elementów danych i przypisywanie podobnych elementów danych do poszczególnych klastrów. Klastrowanie odbywa się w dużych zestawach danych w celu uczenia się bez nadzoru. W tym czasie wykonujemy partycję na zbiorze danych na grupy. Struktura klastrowania jest przedstawiona w podzestawach w następujący sposób. C = c1, c2… c n . Ponieważ grupy klastrowe mają podobne obiekty, w metodach grupowania należy podjąć pewne środki, aby określić miary odległości i podobieństwa. Metody grupowania oparte są na modelach probabilistycznych. Eksploracja danych wymaga klastrowania w celu skalowalności w celu radzenia sobie z wysokimi bazami danych, obsługi wielowymiarowej przestrzeni, radzenia sobie z błędnymi danymi i hałasem.

Wyjaśnić metody grupowania?

Ta metoda klastrowania pomaga w grupowaniu cennych danych w klastry, a następnie wybiera odpowiednie wyniki w oparciu o różne techniki. Przykład: podczas wyszukiwania informacji wyniki zapytania są pogrupowane w małe klastry, a każdy klaster ma nieistotne wyniki. Dzięki technikom grupowania są one pogrupowane w podobne kategorie, a każda kategoria jest podzielona na podkategorie, aby pomóc w eksploracji wyników zapytań. Istnieją różne rodzaje metod grupowania

  • Metody hierarchiczne
  • Metody partycjonowania
  • Na podstawie gęstości
  • Klastrowanie oparte na modelach
  • Model oparty na siatce

Poniżej znajduje się przegląd technik stosowanych w eksploracji danych i sztucznej inteligencji.

1. Metoda hierarchiczna

Ta metoda tworzy klaster, dzieląc go na partycje w sposób odgórny i oddolny. Oba te podejścia dają dendrogram, który łączą się między nimi. Dendrogram jest drzewiastym formatem, który utrzymuje sekwencję scalonych klastrów. Metody hierarchiczne są tworzone w wielu partycjach w odniesieniu do poziomów podobieństwa. Są one podzielone na Aglomeracyjne hierarchiczne grupowanie i dzielące hierarchiczne grupowanie. Tutaj tworzone jest drzewo klastrów przy użyciu technik łączenia. Do podziału procesu stosuje się dzielnik, scalanie wykorzystuje aglomerację. Grupowanie aglomeracyjne obejmuje:

  1. Początkowo pobieranie wszystkich punktów danych i uznawanie ich za poszczególne klastry rozpoczyna się od góry do dołu. Te klastry są łączone, dopóki nie uzyskamy pożądanych wyników.
  2. Następne dwa podobne klastry są pogrupowane, tworząc ogromny pojedynczy klaster.
  3. Ponownie obliczanie bliskości w ogromnym gromadzie i łączenie podobnych klastrów.
  4. Ostatni krok polega na scaleniu wszystkich uzyskanych klastrów na każdym etapie, aby utworzyć końcowy pojedynczy klaster.

2. Metoda partycjonowania:

Głównym celem partycji jest relokacja. Przenoszą partycje, przechodząc z jednego klastra do drugiego, co powoduje wstępne partycjonowanie. Dzieli obiekty danych „n” na liczbę klastrów „k”. Ta metoda częściowa jest preferowana bardziej niż model hierarchiczny w rozpoznawaniu wzorców. Aby spełnić techniki, ustawiono następujące kryteria:

  • Każdy klaster powinien mieć jeden obiekt.
  • Każdy obiekt danych należy do jednego klastra.

Najczęściej stosowanymi technikami podziału są algorytm K-średnich. Dzielą się na gromady „K” reprezentowane przez centroidy. Każde centrum skupienia jest obliczane jako średnia tego skupienia, a funkcja R wizualizuje wynik. Ten algorytm ma następujące kroki:

  1. Losowe wybieranie K obiektów ze zbioru danych i tworzy początkowe centra (centroidy)
  2. Następnie przypisz odległość euklidesową między obiektami a środkiem środka.
  3. Przypisywanie wartości średniej dla każdego klastra.
  4. Kroki aktualizacji centroid dla każdego klastra „k”.

3. Model gęstości:

W tym modelu klastry są definiowane przez lokalizowanie regionów o większej gęstości w klastrze. Główną zasadą stojącą za nimi jest koncentracja na dwóch parametrach: maksymalnym promieniu sąsiedztwa i minimalnej liczbie punktów. Model oparty na gęstości identyfikuje skupiska o różnych kształtach i hałasie. Działa poprzez wykrywanie wzorców poprzez oszacowanie położenia przestrzennego, a odległość do zastosowanej tutaj metody sąsiada to DBSCAN (klastrowanie przestrzenne oparte na gęstości), który daje ręce dużym przestrzennym bazom danych. Korzystanie z trzech punktów danych do grupowania, a mianowicie punktów podstawowych, punktów granicznych i wartości odstających. Podstawowym celem jest identyfikacja klastrów i ich parametrów dystrybucji. Proces grupowania jest zatrzymywany przez potrzebę parametrów gęstości. Aby znaleźć klastry, ważne jest, aby mieć parametr Minimalne cechy na klaster w obliczaniu odległości rdzenia. Trzy różne narzędzia oferowane przez ten model to DBSCAN, HDBSCAN, Multi-scale.

4. Klastrowanie oparte na modelach

Ten model łączy dwa lub trzy klastry razem z dystrybucji danych. Podstawową ideą tego modelu jest konieczność podzielenia danych na dwie grupy w oparciu o model prawdopodobieństwa (wielowymiarowe rozkłady normalne). Tutaj każda grupa jest przypisana jako pojęcia lub klasa. Każdy składnik jest zdefiniowany przez funkcję gęstości. Aby znaleźć parametr w tym modelu, do dopasowania rozkładu mieszaniny stosuje się oszacowanie maksymalnego prawdopodobieństwa. Każdy klaster „K” jest modelowany przez rozkład Gaussa z dwuparametrowym wektorem średnim µk i wektorem kowariancji £ k .

5. Model oparty na siatce

W tym podejściu obiekty są traktowane jako sterowane przestrzenią poprzez podzielenie przestrzeni na skończoną liczbę komórek w celu utworzenia siatki. Za pomocą siatki stosowana jest technika grupowania w celu szybszego przetwarzania, które zwykle zależy od komórek, a nie od obiektów. Wymagane kroki to:

  • Tworzenie struktury siatki
  • Gęstość komórek jest obliczana dla każdej komórki
  • Zastosowanie mechanizmu sortowania do ich gęstości.
  • Przeszukiwanie centrów klastrów i przechodzenie do sąsiednich komórek w celu powtórzenia procesu.

Znaczenie metod grupowania

  1. Posiadanie metod klastrowania pomaga w ponownym uruchomieniu lokalnej procedury wyszukiwania i usuwa nieefektywność. Klastrowanie pomaga określić wewnętrzną strukturę danych.
  2. Ta analiza skupień została wykorzystana do analizy modelu, wektorowego regionu przyciągania.
  3. Klastrowanie pomaga w zrozumieniu naturalnego grupowania w zbiorze danych. Ich celem jest podzielenie danych na pewną grupę logicznych grup.
  4. Jakość grupowania zależy od metod i identyfikacji ukrytych wzorców.
  5. Odgrywają one dużą rolę w aplikacjach, takich jak marketingowe badania ekonomiczne, blogi internetowe do identyfikacji wzorców w pomiarach podobieństwa, przetwarzaniu obrazu, badaniach przestrzennych.
  6. Są one wykorzystywane w wykrywaniu wartości odstających w celu wykrywania oszustw związanych z kartami kredytowymi.

Wniosek

Klastrowanie jest uważane za ogólne zadanie rozwiązania problemu, który formułuje problem optymalizacji. Odgrywa kluczową rolę w dziedzinie eksploracji i analizy danych. Widzieliśmy różne metody klastrowania, które dzielą zestaw danych, w zależności od wymagań. Większość badań opiera się na tradycyjnych technikach, takich jak średnie K i modele hierarchiczne. Obszary skupień są stosowane w stanach o dużych wymiarach, co stanowi przyszły zakres badaczy.

Polecany artykuł

To był przewodnik po metodach grupowania. Tutaj omówiliśmy koncepcję, znaczenie i techniki metod grupowania. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Co to jest ETL?
  2. Czym jest Data Science
  3. Co to jest Teradata?
  4. Top 6 alternatyw AWS
  5. Grupowanie w uczenie maszynowe
  6. Regresja wielowymiarowa
  7. Hierarchiczne grupowanie | Grupowanie aglomeracyjne i dzielące