Co to jest analiza skupień
Analiza skupień grupuje dane na podstawie posiadanych przez nie cech. Analiza skupień grupuje obiekty na podstawie czynników, które je upodabniają. Analiza skupień nazywana jest inaczej analizą segmentacji lub analizą taksonomiczną. Analiza skupień nie rozróżnia zmiennych zależnych i niezależnych. Analiza skupień jest wykorzystywana w wielu różnych dziedzinach, takich jak psychologia, biologia, statystyka, eksploracja danych, rozpoznawanie wzorców i inne nauki społeczne.
Cel analizy skupień
Głównym celem analizy skupień jest zajęcie się heterogenicznością w każdym zestawie danych. Pozostałe cele analizy skupień to:
- Opis systematyki - Identyfikacja grup w danych
- Uproszczenie danych - Możliwość analizowania grup podobnych obserwacji zamiast wszystkich indywidualnych obserwacji
- Generowanie lub testowanie hipotez - Opracuj hipotezę na podstawie charakteru danych lub przetestuj wcześniej postawioną hipotezę
- Identyfikacja relacji - uproszczona struktura z analizy skupień opisująca relacje
Analiza skupień ma dwa główne cele - zrozumienie i użyteczność.
W sytuacji zrozumienia analiza skupień grupuje obiekty o wspólnych cechach
W celu użyteczności analiza skupień dostarcza właściwości każdego obiektu danych klastrom, do których należą.
Analiza skupień idzie w parze z analizą czynników i analizą dyskryminacyjną.
Zanim zaczniesz, powinieneś zadać sobie kilka pytań dotyczących analizy skupień
- Jakie zmienne są istotne?
- Czy wielkość próbki jest wystarczająca?
- Czy można wykryć wartości odstające i czy należy je usunąć?
- Jak mierzyć podobieństwo obiektów?
- Czy dane powinny zostać znormalizowane?
Rodzaje klastrów
Istnieją trzy główne typy grupowania
- Hierarchiczne grupowanie - które zawiera metodę aglomeracyjną i dzielącą
- Partial Clustering - Zawiera K-średnie, Fuzzy K-średnie, Isodata pod nim
- Grupowanie oparte na gęstości - ma pod nim Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed
Założenia w analizie skupień
W analizie skupień zawsze istnieją dwa założenia
- Zakłada się, że próba jest reprezentatywna dla populacji
- Zakłada się, że zmienne nie są skorelowane. Nawet jeśli zmienne są skorelowane, usuń skorelowane zmienne lub zastosuj miary odległości, które kompensują korelację.
Kroki w analizie skupień
-
- Krok 1: Zdefiniuj problem
- Krok 2: Wybierz odpowiednią miarę podobieństwa
- Krok 3: Zdecyduj, jak zgrupować obiekty
- Krok 4: Zdecyduj liczbę klastrów
- Krok 5: Interpretuj, opisz i zweryfikuj klaster
Analiza skupień w SPSS
W SPSS można znaleźć opcję analizy skupień w opcji Analiza / Klasyfikacja. W SPSS istnieją trzy metody analizy skupień - K-Means Cluster, Hierarchical Cluster i Two Step Cluster.
Metoda klastrowa K-Means klasyfikuje dany zestaw danych według stałej liczby klastrów. Ta metoda jest łatwa do zrozumienia i daje najlepszą wydajność, gdy dane są dobrze oddzielone od siebie.
Dwustopniowa analiza skupień jest narzędziem zaprojektowanym do obsługi dużych zestawów danych. Tworzy klastry zarówno zmiennych jakościowych, jak i ciągłych.
Klaster hierarchiczny jest najczęściej stosowaną metodą analizy skupień. Łączy przypadki w homogeniczne klastry, łącząc je w szereg kolejnych kroków.
Hierarchiczna analiza skupień składa się z trzech etapów
- Oblicz odległość
- Połącz klastry
- Wybór rozwiązania poprzez wybór odpowiedniej liczby klastrów
Poniżej podano kroki do przeprowadzenia analizy hierarchicznego klastra w SPSS.
- Pierwszym krokiem jest wybranie zmiennych, które mają być grupowane. Wyjaśnia to poniższe okno dialogowe
- Klikając opcję statystyki w powyższym oknie dialogowym, otrzymasz okno dialogowe, w którym chcesz określić dane wyjściowe
- W wykresach okna dialogowego dodaj Dendrogram. Dendrogram jest graficzną reprezentacją hierarchicznej metody analizy skupień. Pokazuje, w jaki sposób klastry są łączone na każdym etapie, aż tworzy pojedynczy klaster.
- Metoda okna dialogowego ma kluczowe znaczenie. Możesz tutaj podać odległość i metodę grupowania. W SPSS istnieją trzy miary dla Interwału, liczby i danych binarnych.
- Kwadratowa odległość euklidesowa to suma kwadratowych różnic bez uwzględnienia pierwiastka kwadratowego.
- W zliczeniach można wybrać pomiędzy miarą Chi Square i Phi Square
- W sekcji Binarne masz wiele opcji do wyboru. Kwadratowa odległość euklidesowa jest najlepszą opcją do użycia.
- Następnym krokiem jest wybór metody klastrowej. Zawsze zaleca się stosowanie pojedynczego powiązania lub najbliższego sąsiada, ponieważ łatwo pomaga zidentyfikować wartości odstające. Po zidentyfikowaniu wartości odstających możesz użyć Metody totemu.
- Ostatnim krokiem jest standaryzacja
Krytyka analizy skupień
Najczęstsze uwagi krytyczne wymieniono poniżej
- Jest opisowy, teoretyczny i nie wnioskuje.
- Będzie produkować klastry niezależnie od faktycznego istnienia jakiejkolwiek struktury
- Nie można go szeroko stosować, ponieważ całkowicie zależy od zmiennych użytych jako podstawa miary podobieństwa
Co to jest analiza czynnikowa?
Analiza czynnikowa jest analizą eksploracyjną, która pomaga w grupowaniu podobnych zmiennych w wymiarach. Można go wykorzystać do uproszczenia danych poprzez zmniejszenie wymiarów obserwacji. Analiza czynnikowa ma kilka różnych metod rotacji.
Analiza czynnikowa jest wykorzystywana głównie do celów redukcji danych.
Istnieją dwa rodzaje analizy czynnikowej - eksploracyjna i potwierdzająca
- Metoda eksploracyjna jest stosowana, gdy nie masz wstępnie zdefiniowanego pojęcia o strukturach lub wymiarach w zestawie zmiennych.
- Metoda potwierdzająca jest używana, gdy chcesz przetestować konkretną hipotezę o strukturach lub wymiarach w zestawie zmiennych.
Cele analizy czynnikowej
Istnieją dwa główne cele analizy czynnikowej, które wymieniono poniżej
- Identyfikacja czynników leżących u podstaw - obejmuje to grupowanie zmiennych w zestawy homogeniczne, tworzenie nowych zmiennych i pomoc w zdobywaniu wiedzy o kategoriach
- Przegląd zmiennych - jest pomocny w regresji i identyfikuje grupowanie, umożliwiając wybranie jednej zmiennej, która reprezentuje wiele.
Założenia analizy czynnikowej
Istnieją cztery główne założenia analizy czynnikowej, które wymieniono poniżej
- Modele są zwykle oparte na zależnościach liniowych
- Zakłada się, że zebrane dane są skalowane w odstępach czasu
- Wieloliniowość danych jest pożądana, ponieważ celem jest znalezienie powiązanego zestawu zmiennych
- Dane powinny być otwarte i dostosowane do analizy czynnikowej. Nie powinno być tak, że zmienna jest tylko skorelowana z samym sobą i nie istnieje żadna korelacja z żadną inną zmienną. Nie można przeprowadzić analizy czynnikowej na takich danych.
Rodzaje faktoringu
- Faktoring głównych składników - najczęściej stosowana metoda obliczania wag czynników w celu wyodrębnienia maksymalnej możliwej wariancji i kontynuowana do momentu, gdy nie pozostanie znacząca wariancja.
- Kanoniczna analiza czynnikowa - Znajduje czynniki, które mają najwyższą korelację kanoniczną z obserwowanymi zmiennymi
- Analiza wspólnego czynnika - poszukuje najmniejszej liczby czynników, które mogą uwzględniać wspólną wariancję zestawu zmiennych
- Faktoring obrazu - w oparciu o macierz korelacji, w której każda zmienna jest przewidywana na podstawie innych przy użyciu regresji wielokrotnej
- Współczynnik alfa - Maksymalizuje niezawodność czynników
- Model regresji czynnikowej - Kombinacja modelu czynnikowego i modelu regresyjnego, którego czynniki są częściowo znane
Kryteria analizy czynnikowej
-
Kryteria wartości własnych
- Reprezentuje wielkość wariancji w oryginalnych zmiennych, która jest powiązana z czynnikiem
- Suma kwadratu ładunków czynnikowych każdej zmiennej na czynnik reprezentuje wartość własną
- Zachowywane są czynniki o wartościach własnych większych niż 1, 0
-
Kryteria Scree Plot
- Wykres wartości własnych w zależności od liczby czynników, w kolejności ekstrakcji.
- Kształt wykresu określa liczbę czynników
-
Procent kryteriów wariancji
- Ustalono liczbę wyekstrahowanych czynników, dzięki czemu rosnący procent wariancji wyodrębniony przez czynniki osiąga poziom satysfakcji.
-
Kryteria testu istotności
- Stwierdzono istotność statystyczną oddzielnych wartości własnych i zachowano tylko te czynniki, które są istotne statystycznie
Analiza czynnikowa jest stosowana w różnych dziedzinach, takich jak psychologia, socjologia, nauki polityczne, edukacja i zdrowie psychiczne.
Analiza czynnikowa w SPSS
W SPSS opcję analizy czynnikowej można znaleźć w Analizuj à Zmniejszenie wymiaru à Współczynnik
- Zacznij od dodania zmiennych do sekcji listy zmiennych
- Kliknij kartę Opis i dodaj kilka statystyk, na podstawie których weryfikowane są założenia analizy czynnikowej.
- Kliknij opcję Ekstrakcja, która pozwoli ci wybrać metodę ekstrakcji i odciąć wartość dla ekstrakcji
- Główne składniki (PCA) to domyślna metoda ekstrakcji, która wyodrębnia nawet nieskorelowane liniowe kombinacje zmiennych. PCA można zastosować, gdy macierz korelacji jest pojedyncza. Jest bardzo podobny do kanonicznej analizy korelacji, w której pierwszy czynnik ma maksymalną wariancję, a następujące czynniki wyjaśniają mniejszą część wariancji.
- Drugą najbardziej ogólną analizą jest faktoring osi głównej. Identyfikuje ukryte konstrukcje za obserwacjami.
- Następnym krokiem jest wybranie metody rotacji. Najczęściej stosowaną metodą jest Varimax. Ta metoda upraszcza interpretację czynników.
- Druga metoda to Quartimax. Ta metoda obraca czynniki, aby zminimalizować liczbę czynników. Upraszcza interpretację obserwowanej zmiennej.
- Następną metodą jest Equamax, która jest kombinacją powyższych dwóch metod.
- W oknie dialogowym klikając „opcje” możesz zarządzać brakującymi wartościami
- Przed zapisaniem wyników w zbiorze danych, najpierw uruchom analizę czynnikową i sprawdź założenia i potwierdź, że wyniki są znaczące i przydatne.
Analiza skupień a analiza czynnikowa
Zarówno analiza skupień, jak i analiza czynnikowa to metoda uczenia się bez nadzoru, która jest stosowana do segmentacji danych. Wielu badaczy, którzy są nowicjuszami w tej dziedzinie, uważa, że analiza skupień i analiza czynników są podobne. Może się to wydawać podobne, ale różnią się na wiele sposobów. Różnice między analizą skupień a analizą czynnikową wymieniono poniżej
-
Cel
Cel analizy skupień i czynników jest inny. Celem analizy skupień jest podzielenie obserwacji na jednorodne i odrębne grupy. Z drugiej strony analiza czynnikowa wyjaśnia jednorodność zmiennych wynikającą z podobieństwa wartości.
-
Złożoność
Złożoność jest kolejnym czynnikiem, od którego różni się analiza skupień i czynników. Rozmiar danych wpływa na analizę w różny sposób. Jeśli rozmiar danych jest zbyt duży, staje się on trudny do obliczeń w analizie skupień.
-
Rozwiązanie
Rozwiązanie problemu jest mniej więcej podobne zarówno w analizie czynnikowej, jak i klastrowej. Ale analiza czynnikowa zapewnia badaczowi lepsze rozwiązanie w lepszym aspekcie. Analiza skupień nie daje najlepszych wyników, ponieważ wszystkie algorytmy analizy skupień są nieskuteczne obliczeniowo.
-
Aplikacje
Analiza czynnikowa i analiza skupień są stosowane w różny sposób do rzeczywistych danych. Analiza czynnikowa jest odpowiednia do uproszczenia złożonych modeli. Zmniejsza duży zestaw zmiennych do znacznie mniejszego zestawu czynników. Badacz może opracować zestaw hipotez i przeprowadzić analizę czynnikową w celu potwierdzenia lub odrzucenia tej hipotezy.
Analiza skupień jest odpowiednia do klasyfikowania obiektów na podstawie określonych kryteriów. Badacz może zmierzyć pewne aspekty grupy i podzielić je na określone kategorie za pomocą analizy skupień.
Istnieje również wiele innych różnic wymienionych poniżej
- Analiza skupień próbuje grupować przypadki, natomiast analiza czynnikowa próbuje grupować cechy.
- Analiza skupień służy do znajdowania mniejszych grup przypadków reprezentatywnych dla danych jako całości. Analiza czynnikowa służy do znalezienia mniejszej grupy cech reprezentatywnych dla oryginalnych elementów zbiorów danych.
- Najważniejszą częścią analizy skupień jest znalezienie liczby klastrów. Zasadniczo metody grupowania dzielą się na dwie - metoda aglomeracyjna i metoda partycjonowania. Metoda aglomeracyjna rozpoczyna się od każdego przypadku w swoim własnym klastrze i kończy po osiągnięciu kryteriów. Metoda partycjonowania rozpoczyna się od wszystkich przypadków w jednym klastrze.
- Analiza czynnikowa służy do ustalenia podstawowej struktury w zbiorze danych.
Wniosek
Mam nadzieję, że ten artykuł pomógłby zrozumieć podstawy analizy skupień i analizy czynnikowej oraz różnice między nimi.
Powiązane kursy: -
- Kurs analizy skupień