Jednokierunkowa analiza wariancji

Analiza wariancji napisana krótko jako ANOVA jest procedurą, dzięki której możemy porównać średnie dla trzech lub więcej populacji. Statystycznie tworzymy dwie hipotezy, hipotezę zerową: „Wszystkie średnie populacyjne są równe”, a hipotezę alternatywną: „Nie wszystkie średnie populacyjne są równe”. Umożliwia nam to sprawdzenie równości wielu średnich w jednym teście zamiast porównywania dwóch średnich w czasie, co jest niemożliwe do wykonania, gdy istnieje kilka grup. W tym temacie dowiemy się o One Way ANOVA w R.

Jednokierunkowa analiza wariancji pomaga nam analizować tylko jeden czynnik lub zmienną. Na przykład istnieje pięć regionów i chcemy sprawdzić, czy dzienne średnie opady deszczu dla wszystkich pięciu regionów są równe, czy też są różne. W tym przypadku jest tylko jeden czynnik, którym jest region, ponieważ musimy sprawdzić, czy czynniki regionalne wpływają na odbiór opadów i ich przebieg.

Założenia analizy wariancji

Poniżej przedstawiono założenia, które należy spełnić, aby zastosować jednokierunkową ANOVA:

  • Populacje, z których pobierane są próbki, są zwykle rozmieszczone.
  • Populacje, z których pobierane są próbki, mają tę samą wariancję lub standardowe odchylenie.
  • Próbki pobrane z różnych populacji są losowe i niezależne.

Jak działa jednokierunkowa ANOVA w języku R?

Do naszej demonstracji wykorzystujemy dane, które zawierają dwie zmienne mianowicie. Marka i sprzedaż. Istnieją cztery marki - ATB, JKV, MKL i PRQ. Podano miesięczną sprzedaż tych marek. Musimy sprawdzić, czy średnia sprzedaż czterech marek jest równa lub czy różnią się od siebie. Aby to zweryfikować, użyjemy jednokierunkowej ANOVA. Procedura wdrażania ANOVA krok po kroku wygląda następująco:

  1. Najpierw zaimportuj dane do R. Dane są obecne w formacie CSV. Aby go zaimportować, użyjemy funkcji read.csv ().

  1. Zobacz kilka pierwszych rekordów danych. Ważne jest, aby sprawdzić, czy dane zostały poprawnie zaimportowane do R. Podobnie, zastosujemy funkcję podsumowania () do danych, aby uzyskać podstawowy wgląd w dane.

  1. Za każdym razem, gdy korzystamy ze zmiennych obecnych w zestawie danych, musimy wyraźnie wspomnieć nazwę zestawu danych, np. Brand_sales_data $ Brand lub brand_sales_data $ Sales. Aby temu zaradzić, zastosujemy funkcję attach. Funkcja musi być zastosowana jak poniżej.

  1. Zsumujmy sprzedaż według marki przy użyciu średniej lub standardowego odchylenia. Agregacja pomaga nam uzyskać podstawowe pojęcie o danych.

Powyższy wynik pokazuje, że średnie dla czterech różnych grup nie są równe. JKV ma najwyższą średnią sprzedaż.

Jak widać powyżej, odchylenia standardowe we wszystkich czterech grupach nie wykazują znaczącej różnicy i są najwyższe dla marki MKL.

  1. Teraz zastosujemy ANOVA do sprawdzenia, czy średnie w trzech populacjach są równe lub czy istnieje jakakolwiek różnica.

Z powyższych wyników widać, że test ANOVA dla marki jest istotny ze względu na p <0, 0001. Możemy zinterpretować, że wszystkie marki nie mają takich samych preferencji na rynku, co ma wpływ na sprzedaż tych marek na rynku. Może to wynikać z wielu czynników i upodobań ludzi do konkretnej marki.

  1. Powyższy wynik można zwizualizować i ułatwia interpretację. W tym celu użyjemy funkcji plotmeans () w bibliotece gplots (). Działa jak poniżej:

Jak widać powyżej, funkcja plotmeans () w pakiecie gplots umożliwia nam wizualne porównanie średnich różnych grup. Widzimy, że środki nie są takie same we wszystkich czterech markach. Jednak środki dla marek MKL i PRQ mieszczą się w bliskiej odległości.

  1. Powyższa analiza pomaga nam sprawdzić, czy marki mają równe środki, czy nie, jednak porównanie pary jest trudne. Możemy dokonać porównań parami dla różnych marek, używając funkcji TukeyHSD (), która ułatwia sprawdzenie, czy marka różni się znacząco od pozostałych.

Porównania parami jak wyżej. Różnica między dowolnymi dwiema grupami jest znacząca, jeśli p <0, 001. Jak widzimy powyżej, wartość p dla pary PRQ-MKL jest znacznie wyższa, co wskazuje, że te dwie marki nie różnią się znacząco od siebie.

Aby wizualizować porównania parami, wykreślimy powyższe wyniki, jak poniżej:

Pierwsza funkcja par obraca etykiety osi, czyniąc je poziomymi, a druga instrukcja par dostosowuje marginesy tak, aby etykiety były odpowiednio dopasowane, w przeciwnym razie znikną z ekranu.

Powyższy wykres zapewnia dobry wgląd, ale możemy wykreślić wyniki w formie wykresu pudełkowego, aby uzyskać lepszy wgląd w celu bardziej przejrzystej interpretacji, jak pokazano poniżej.

Funkcja glht () używana powyżej zawiera kompleksowy zestaw metod porównywania wielu średnich. Uwaga: opcja poziomu w funkcji cld () odnosi się do poziomu istotności, np. 0, 05 lub 95 procent ufności)

Korzystanie z powyższego wykresu ułatwia porównanie średnich między grupami, a także ułatwia systematyczne interpretowanie. Na górze fabuły znajdują się litery dla każdej marki. Jeśli dwie marki mają tę samą literę, to nie mają znacząco różnych środków niż marki MKL i PRQ w tym przypadku, które mają tę samą literę b.

  1. Do tej pory wdrożyliśmy ANOVA i używaliśmy wykresów do wizualizacji wyników. Równie ważne jest jednak przetestowanie założeń. Najpierw zweryfikujemy założenie o normalności.

Pakiet samochodowy w języku R udostępnia funkcję qqPlot (). Powyższy wykres pokazuje, że dane mieszczą się w 95% przedziałach ufności. Wskazuje to, że założenie normalności zostało prawie spełnione.

Następnie sprawdzimy, czy wariancje między markami są równe. W tym celu wykorzystamy test Bartletta

Wartość p pokazuje, że wariancje w grupie nie różnią się znacząco

Na koniec sprawdzimy, czy istnieją jakieś wartości odstające, które wpływają na wyniki ANOVA.

Z powyższego wyniku wynika, że ​​nie ma żadnych danych odstających od wartości (NA występuje, gdy p> 1)

Biorąc pod uwagę wyniki wykresu QQ, testu Bartletta i testu wartości odstających, możemy powiedzieć, że dane spełniają wszystkie założenia ANOVA, a uzyskane wyniki są prawidłowe.

Wniosek - ANOVA jednokierunkowa w R.

ANOVA jest bardzo przydatną techniką statystyczną, którą można wykorzystać do porównania średnich w wielu populacjach. R oferuje szeroki zakres pakietów do implementacji ANOVA, uzyskiwania wyników i weryfikacji założeń. W R wyniki statystyczne można interpretować w postaciach wizualnych, które zapewniają głębszy wgląd.

Polecane artykuły

Jest to przewodnik po ANOVA jednokierunkowej w R. Tutaj omawiamy, jak działa ANOVA jednokierunkowa i założenia analizy wariancji. Możesz także zapoznać się z następującymi artykułami, aby dowiedzieć się więcej -

  1. R Język programowania
  2. Regresja vs ANOVA
  3. Jak interpretować wyniki za pomocą testu ANOVA
  4. GLM w R.

Kategoria: