Co to jest analiza regresji? - Rodzaje analizy regresji i korzyści

Spisie treści:

Anonim

Wprowadzenie do analizy regresji

Analiza regresji jest algorytmem modelowania predykcyjnego służącym do przewidywania wyniku zmiennej i identyfikacji zmiennych (zmiennych niezależnych), które przyczyniają się do zmiennej wynikowej lub zależą od niej (zmienna docelowa lub zależna). Mówiąc prościej, jest to technika znajdowania związku między zmiennymi niezależnymi i zależnymi w celu uzyskania wyniku. Jest prosty w użyciu i interpretacji wyniku. Istnieje wiele rodzajów technik regresji, które są szeroko stosowane w różnych sektorach. Niektóre przykłady regresji to przewidywanie wynagrodzenia pracownika lub przychodów firmy w ciągu roku.

Jak działała analiza regresji?

Istnieje wiele rodzajów technik regresji, które są stosowane z uwzględnieniem różnych czynników i wyników.

  • Regresja liniowa
  • Regresja logistyczna
  • Regresja Lasso / Ridge
  • Regresja wielomianowa

Niektóre ważne testy regresji statystycznej stosowane w różnych sektorach podano poniżej:

1. Regresja liniowa

Jest to stosowane, gdy zmienna wynikowa jest liniowo zależna od zmiennych niezależnych. Zwykle jest używany, gdy nie mamy dużego zestawu danych. Jest także wrażliwy na wartości odstające, więc jeśli zestaw danych zawiera wartości odstające, lepiej zastosować je przed zastosowaniem regresji liniowej. Istnieją techniki regresji pojedynczej i wielu zmiennych. Prosta regresja liniowa to analiza, w której zmienna wynikowa jest liniowo zależna od pojedynczej zmiennej niezależnej. Prosta regresja liniowa jest zgodna z równaniem linii prostej podanym poniżej:

Y=mx+c

Gdzie,

Y = zmienna docelowa, zależna lub kryterium

x = zmienna niezależna lub predykcyjna

m = współczynnik nachylenia lub regresji

c = stała

Wielozmienna regresja liniowa określa związek między zmienną wynikową a więcej niż jedną zmienną niezależną. Wynika to z poniższego równania linii prostej, w której zmienne zależne są liniową kombinacją wszystkich zmiennych niezależnych:

Y= m1x1+m2x2+m3x3+…mnan+c

Gdzie,

Y = zmienna docelowa, zależna lub kryterium

x1, x2, x3… xn = Zmienne niezależne lub predykcyjne

m1, m2, m3… mn = Współczynniki nachylenia lub regresji odpowiednich zmiennych

c = stała

Regresja liniowa jest zgodna z metodą najmniejszych kwadratów. Ta metoda stwierdza, że ​​linia najlepszego dopasowania jest wybierana przez minimalizację sumy błędu kwadratowego. Linia najlepszego dopasowania jest wybierana, gdy suma błędu kwadratowego między obserwowanymi danymi a linią jest minimalna.

Istnieją pewne założenia, które należy uwzględnić przed zastosowaniem regresji liniowej w zbiorze danych.

  • Powinna istnieć liniowa zależność między zmiennymi niezależnymi i zależnymi.
  • Między zmiennymi niezależnymi nie powinna istnieć żadna wielokoliniowość lub występować niewielka wielokoliniowość. Wielokoliniowość jest definiowana jako zjawisko, w którym istnieje wysoka korelacja między zmiennymi niezależnymi. Możemy traktować wielokoliniowość, upuszczając jedną zmienną, która jest skorelowana lub traktuje dwie zmienne jako jedną zmienną.
  • Homoscedastyczność: definiuje się go jako stan, w którym terminy błędów powinny być losowo rozmieszczone wzdłuż linii w analizie regresji. Nie powinno być żadnego wzorca w poprzek linii, jeśli istnieje jakiś zidentyfikowany wzorzec, niż dane są uważane za heteroscedastyczne.
  • Wszystkie zmienne powinny być normalnie rozmieszczone, co widzimy wykreślając wykres QQ. Jeśli dane nie są normalnie dystrybuowane, możemy zastosować dowolne nieliniowe metody transformacji w celu ich przetworzenia.

Dlatego zawsze zaleca się przetestowanie założeń przy zastosowaniu regresji liniowej w celu uzyskania dobrej dokładności i prawidłowego wyniku.

2. Regresja logistyczna

Tę technikę regresji stosuje się, gdy zmienna docelowa lub wynikowa ma charakter kategoryczny lub binarny. Główna różnica między regresją liniową a logistyczną polega na zmiennej docelowej, w regresji liniowej powinna być ciągła, podczas gdy w logistyce powinna być kategoryczna. Zmienna wynikowa powinna mieć tylko dwie klasy, nie więcej niż to. Niektóre z przykładów to filtry antyspamowe w wiadomościach e-mail (spam lub nie), wykrywanie oszustw (oszustwo / brak oszustwa) itp. Działa na zasadzie prawdopodobieństwa. Można go podzielić na dwie kategorie poprzez ustawienie wartości progowej.

Na przykład: jeśli istnieją dwie kategorie A, B i ustawimy wartość progową na 0, 5, wówczas prawdopodobieństwo powyżej 0, 5 będzie uważane za jedną kategorię, a poniżej 0, 5 będzie inną kategorią. Regresja logistyczna przebiega zgodnie z krzywą w kształcie litery S. Przed zbudowaniem modelu regresji logistycznej musimy podzielić zestaw danych na szkolenie i testy. Ponieważ zmienna docelowa jest kategoryczna lub binarna, musimy upewnić się, że istnieje równowaga klas w zestawie treningowym. Jeśli występuje nierównowaga klas, można to leczyć za pomocą różnych metod wymienionych poniżej:

  • Próbkowanie w górę: w tej technice próbkuje się klasę, która ma mniej wierszy, aby dopasować ją do liczby wierszy klasy większości.
  • Próbkowanie w dół: w tej technice próbka w dół ma klasę, która ma więcej wierszy w celu dopasowania do liczby wierszy klasy mniejszości.

Istnieje kilka ważnych punktów, które należy zrozumieć przed zastosowaniem modelu regresji logistycznej do zbiorów danych:

  • Zmienna docelowa powinna mieć charakter binarny. Jeśli zmienna docelowa zawiera więcej niż 2 klasy, jest to znane jako wielomianowa regresja logistyczna .
  • Między zmiennymi niezależnymi nie powinna występować żadna lub mało wielokoliniowość.
  • Do działania wymaga ogromnej wielkości próbki.
  • Powinna istnieć liniowa zależność między zmiennymi niezależnymi a logarytmem szans.

Korzyści z regresji

Analiza regresji ma wiele zalet. Zamiast brać pod uwagę nasze odczuwanie jelit i przewidywać wynik, możemy zastosować analizę regresji i pokazać prawidłowe punkty dla możliwych wyników.

Niektóre z nich są wymienione poniżej:

  • Aby przewidzieć sprzedaż i przychody w dowolnym sektorze na krótsze lub dłuższe okresy.
  • Aby przewidzieć współczynnik odejść klientów w dowolnej branży i znaleźć odpowiednie sposoby ich zmniejszenia.
  • Aby zrozumieć i przewidzieć poziomy zapasów w magazynie.
  • Ustalenie, czy wprowadzenie nowego produktu na rynek zakończy się sukcesem, czy nie.
  • Aby przewidzieć, czy jakikolwiek klient spłaci pożyczkę, czy nie.
  • Aby przewidzieć, czy klient kupi produkt, czy nie.
  • Wykrywanie oszustw lub spamu

Wniosek

Istnieją różne wskaźniki oceny, które są brane pod uwagę po zastosowaniu modelu. Chociaż istnieją założenia, które należy przetestować przed zastosowaniem modelu, zawsze możemy zmodyfikować zmienne przy użyciu różnych metod matematycznych i zwiększyć wydajność modelu.

Polecane artykuły

To jest przewodnik po analizie regresji. Tutaj omawiamy Wprowadzenie do analizy regresji, jak działała analiza regresji i zalety regresji. Możesz także przejrzeć nasze inne sugerowane artykuły, aby dowiedzieć się więcej -

  1. Analiza regresji liniowej
  2. Narzędzia analizy danych
  3. Narzędzia do testowania regresji
  4. Analiza dużych zbiorów danych
  5. Regresja a klasyfikacja | Najważniejsze różnice