Wykresy w R - Rodzaje wykresów w R i przykłady z implementacją

Spisie treści:

Anonim

Wprowadzenie do wykresów w R

Wykres to narzędzie, które znacząco wpływa na analizę. Wykresy w Rzadko ważne, ponieważ pomagają prezentować wyniki w najbardziej interaktywny sposób. R, jako pakiet programowania statystycznego, oferuje szerokie możliwości generowania różnorodnych wykresów.

Niektóre wykresy w R są dostępne w instalacji podstawowej, ale innych można użyć, instalując wymagane pakiety. Unikalną cechą wykresów w R jest to, że wyjaśniają zawiłe wyniki statystyczne za pomocą wizualizacji. Zasadniczo jest to więc przejście o krok ponad tradycyjny sposób wizualizacji danych. R oferuje zatem gotowe podejście do analizy danych.

Rodzaje wykresów w R.

Różne wykresy są dostępne w języku R, a ich użycie zależy wyłącznie od kontekstu. Jednak analiza eksploracyjna wymaga użycia pewnych wykresów w R, które należy wykorzystać do analizy danych. Przyjrzyjmy się teraz tak ważnym wykresom w języku R.

Do pokazania różnych wykresów wykorzystamy zestaw danych „drzew” dostępny w instalacji podstawowej. Więcej informacji na temat zestawu danych można znaleźć za pomocą? drzewka w R.

1. Histogram

Histogram to narzędzie graficzne, które działa na pojedynczej zmiennej. Liczne wartości zmiennych są pogrupowane w przedziały i oblicza się szereg wartości określanych jako częstotliwość. Obliczenia te są następnie wykorzystywane do wykreślania słupków częstotliwości w odpowiednich ziarnach. Wysokość paska jest reprezentowana przez częstotliwość.

W R możemy zastosować funkcję hist () jak pokazano poniżej, aby wygenerować histogram. Prosty histogram wysokości drzew pokazano poniżej.

Kod:

hist(trees$Height, breaks = 10, col = "orange", main = "Histogram of Tree heights", xlab = "Height Bin")

Wynik:

Aby zrozumieć trend częstotliwości, możemy dodać wykres gęstości na powyższym histogramie. Daje to więcej wglądu w dystrybucję danych, skośność, kurtozę itp. Poniższy kod robi to, a wyniki są wyświetlane po kodzie.

Kod:

hist(trees$Height, breaks = 10, col = "orange",
+ main = "Histogram of Tree heights with Kernal Denisty plot",
+ xlab = "Height Bin", prob = TRUE)

Wynik:

2. Wykres rozrzutu

Ten wykres jest prostym typem wykresu, ale bardzo ważnym, mającym ogromne znaczenie. Wykres daje wyobrażenie o korelacji między zmiennymi i jest przydatnym narzędziem w analizie eksploracyjnej.

Poniższy kod generuje prosty wykres Scatterplot. Dodaliśmy do niego linię trendu, aby zrozumieć trend, który reprezentują dane.

Kod:

attach(trees)
plot(Girth, Height, main = "Scatterplot of Girth vs Height", xlab = "Tree Girth", ylab = "Tree Height")
abline(lm(Height ~ Girth), col = "blue", lwd = 2)

Wynik:

Wykres utworzony przez poniższy kod pokazuje, że istnieje dobra korelacja między obwodem drzewa a objętością drzewa.

Kod:

plot(Girth, Volume, main = "Scatterplot of Girth vs Volume", xlab = "Tree Girth", ylab = "Tree Volume")
abline(lm(Volume ~ Girth), col = "blue", lwd = 2)

Wynik:

Matryce wykresów rozrzutu

R pozwala nam porównywać wiele zmiennych jednocześnie, ponieważ wykorzystuje macierze scatterplot. Implementacja wizualizacji jest dość prosta i można ją osiągnąć za pomocą funkcji par (), jak pokazano poniżej.

Kod:

pairs(trees, main = "Scatterplot matrix for trees dataset")

Wynik:

Scatterplot3d

Umożliwiają wizualizację w trzech wymiarach, co może pomóc w zrozumieniu związku między wieloma zmiennymi. Aby udostępnić wykresy rozrzutu w 3D, najpierw należy zainstalować pakiet scatterplot3d. Tak więc poniższy kod generuje wykres 3D, jak pokazano poniżej kodu.

Kod:

library(scatterplot3d)
attach(trees)
scatterplot3d(Girth, Height, Volume, main = "3D Scatterplot of trees dataset")

Wynik:

Możemy dodać upuszczające linie i kolory, używając poniższego kodu. Teraz możemy wygodnie rozróżniać różne zmienne.

Kod:

scatterplot3d(Girth, Height, Volume, pch = 20, highlight.3d = TRUE,
+ type = "h", main = "3D Scatterplot of trees dataset")

Wynik:

3. Boxplot

Boxplot to sposób wizualizacji danych za pomocą pudeł i wąsów. Po pierwsze, wartości zmiennych są sortowane w porządku rosnącym, a następnie dane są dzielone na ćwiartki.

Pole na wykresie to środkowe 50% danych, znane jako IQR. Czarna linia w polu reprezentuje medianę.

Kod:

boxplot(trees, col = c("yellow", "red", "cyan"), main = "Boxplot for trees dataset")

Wynik:

Wariant wykresu pudełkowego z wycięciami jest pokazany poniżej.

Kod:

boxplot(trees, col = "orange", notch = TRUE, main = "Boxplot for trees dataset")

Wynik:

4. Wykres liniowy

Wykresy liniowe są przydatne podczas porównywania wielu zmiennych. Pomagają nam w relacji między wieloma zmiennymi na jednym wykresie. Na poniższej ilustracji postaramy się zrozumieć trend trzech cech drzewa. Tak więc, jak pokazano w poniższym kodzie, początkowo wykres liniowy dla Girtha jest wykreślany za pomocą funkcji plot (). Następnie wykresy liniowe dla wysokości i objętości są wykreślane na tym samym wykresie za pomocą funkcji lines ().

Parametr „ylim” w funkcji plot () służy do poprawnego dostosowania wszystkich trzech wykresów liniowych. Posiadanie legendy jest tutaj ważne, ponieważ pomaga zrozumieć, która linia reprezentuje którą zmienną. W legendzie parametr „lty = 1: 1” oznacza, że ​​mamy ten sam typ linii dla wszystkich zmiennych, a „cex” reprezentuje rozmiar punktów.

Kod:

plot(Girth, type = "o", col = "red", ylab = "", ylim = c(0, 110),
+ main = "Comparison amongst Girth, Height, and Volume of trees")
lines(Height, type = "o", col = "blue")
lines(Volume, type = "o", col = "green")
legend(1, 110, legend = c("Girth", "Height", "Volume"),
+ col = c("red", "blue", "green"), lty = 1:1, cex = 0.9)

Wynik:

5. Wykres kropkowy

To narzędzie do wizualizacji jest przydatne, jeśli chcemy porównać wiele kategorii z pewną miarą. Na poniższej ilustracji użyto zestawu danych mtcars. Funkcja dotchart () wykreśla przemieszczenie dla różnych modeli samochodów, jak poniżej.

Kod:

attach(mtcars)
dotchart(disp, labels = row.names(mtcars), cex = 0.75,
+ main = "Displacement for various Car Models", xlab = "Displacement in Cubic Inches")

Wynik:

Tak więc teraz posortujemy zestaw danych według wartości przemieszczenia, a następnie narysujemy je według różnych kół zębatych za pomocą funkcji dotchart ().

Kod:

m <- mtcars(order(mtcars$disp), ) m$gear <- factor(m$gear)
m$color(m$gear == 3) <- "darkgreen"
m$color(m$gear == 4) <- "red"
m$color(m$gear == 5) <- "blue"
dotchart(m$disp, labels = row.names(m), groups = m$gear, color = m$color, cex = 0.75, pch = 20,
+ main = "Displacement for Car Models", xlab = "Displacement in cubic inches")

Wynik:

Wniosek

Analiza w prawdziwym sensie jest wykorzystywana tylko poprzez wizualizacje. R jako narzędzie statystyczne oferuje silne możliwości wizualizacji. Tak więc liczne opcje związane z wykresami są tym, co czyni je wyjątkowymi. Każdy z wykresów ma swoją własną aplikację i należy go przeanalizować przed zastosowaniem go do problemu.

Polecane artykuły

To jest przewodnik po wykresach w R. Tutaj omawiamy wprowadzenie i typy wykresów w R, takie jak histogram, wykres rozrzutu, wykres pudełkowy i wiele więcej wraz z przykładami i implementacją. Możesz także przejrzeć następujące artykuły, aby dowiedzieć się więcej -

  1. R Typy danych
  2. Pakiety R.
  3. Wprowadzenie do Matlaba
  4. Wykresy a wykresy