Wprowadzenie do prostej regresji liniowej

Ze słownika : Powrót do poprzedniego lub mniej rozwiniętego stanu.

W statystyce: Miara zależności między średnią wartością jednej zmiennej a odpowiadającymi jej wartościami innych zmiennych.

Regresja, w której związek między zmienną wejściową (zmienną niezależną) a zmienną docelową (zmienną zależną) jest uważany za liniowy, nazywa się regresją liniową. Prosta regresja liniowa jest rodzajem regresji liniowej, w którym mamy tylko jedną zmienną niezależną do przewidywania zmiennej zależnej. Prosta regresja liniowa jest jednym z algorytmów uczenia maszynowego. Prosta regresja liniowa należy do rodziny nauki nadzorowanej. Regresja służy do przewidywania ciągłych wartości.

Model prostej regresji liniowej

Uprośćmy to. Jak to się wszystko zaczęło?

Wszystko zaczęło się w 1800 roku od Francisa Galtona. Studiował stosunek wysokości między ojcami i ich synami. Zauważył pewien wzór: wzrost każdego syna byłby taki sam, jak wzrost ojca, lub wzrost syna byłby bliższy ogólnej średniej wysokości wszystkich ludzi. Zjawisko to jest niczym innym jak regresją.

Na przykład Shaq O'Neal jest bardzo znanym graczem NBA i ma 2, 16 metra wysokości. Jego synowie Shaqir i Shareef O'neal mają odpowiednio 1, 96 metra i 2, 06 metra wysokości. Średnia wysokość populacji wynosi 1, 76 metra. Wysokość syna regresuje (dryfuje w kierunku) średniej wysokości.

Jak wykonujemy regresję?

Obliczanie regresji z tylko dwoma punktami danych:

Wszystko, co chcemy zrobić, aby znaleźć najlepszą regresję, to narysować linię możliwie najbliższą każdej kropce. W przypadku dwóch punktów danych łatwo jest narysować linię, wystarczy je połączyć.

Teraz, jeśli mamy teraz wiele punktów danych, jak narysować linię, która jest jak najbliżej każdego punktu danych.

W tym przypadku naszym celem jest zminimalizowanie pionowej odległości między linią a wszystkimi punktami danych. W ten sposób przewidujemy najlepszą linię dla naszego modelu regresji liniowej.

Czym jest prosta regresja liniowa?

Poniżej znajduje się szczegółowe wyjaśnienie prostej regresji liniowej:

  • Rysuje wiele możliwych linii, a następnie wykonuje każdą z tych analiz.
  • Suma błędów do kwadratu.
  • Suma błędów bezwzględnych.
  • metoda najmniejszych kwadratów… itd
  • Do naszej analizy zastosujemy metodę najmniejszych kwadratów.
  • Dokonamy różnicy między wszystkimi punktami i obliczymy kwadrat sumy wszystkich punktów. Która linia poda minimalną sumę, będzie naszą najlepszą linią.

Na przykład: robiąc to, moglibyśmy wziąć wielu mężczyzn i wzrost ich syna i robić takie rzeczy, jak mówienie mężczyźnie, jak wysoki może być jego syn. jeszcze zanim się urodził.


Google Image

Powyższy rysunek pokazuje prostą regresję liniową. Linia reprezentuje linię regresji. Dane przez: y = a + b * x

Gdzie y jest zmienną zależną (DV): Na przykład, jak zmienia się wynagrodzenie osoby w zależności od liczby lat doświadczenia pracownika. Zatem wynagrodzenie pracownika lub osoby będzie zmienną zależną.

Zmienna zależna jest naszą zmienną docelową, którą chcemy przewidzieć za pomocą regresji liniowej.

x jest naszą zmienną niezależną (IV): Zmienna zależna jest przyczyną zmiany zmiennej niezależnej. W powyższym przykładzie liczba lat doświadczenia jest naszą zmienną zależną, ponieważ liczba lat doświadczenia powoduje zmianę wynagrodzenia pracownika.

  • b jest zmienną współczynnika dla naszej zmiennej niezależnej x. Współczynnik ten odgrywa kluczową rolę. Mówi, jak zmiana jednostki x (IV) wpłynie na y (DV). Jest również określany jako współczynnik proporcjonalny. Jeśli chodzi o matematykę, od Ciebie zależy nachylenie linii lub możesz powiedzieć, że jest stroma.
  • W naszym przykładzie, jeśli nachylenie (b) jest mniejsze, co oznacza, że ​​liczba lat przyniesie mniejszy wzrost wynagrodzenia, z drugiej strony, jeśli nachylenie (b) jest większe, spowoduje wysoki wzrost wynagrodzenia wraz ze wzrostem liczby lata doświadczenia.
  • a jest wartością stałą. Jest również określany jako punkt przecięcia, to znaczy tam, gdzie linia przecina oś y lub oś DV. Innym sposobem możemy powiedzieć, że kiedy pracownik ma zero lat doświadczenia (x), wówczas wynagrodzenie (y) dla tego pracownika będzie stałe (a).

Jak działa Least Square?

Poniżej znajdują się punkty za najmniejszą kwadratową pracę:

  • Nakreśla dowolną linię zgodnie z trendami danych.
  • Bierze punkty danych i rysuje linie pionowe. Uwzględnia odległość pionową jako parametr.
  • Te pionowe linie przecinają linię regresji i dają odpowiedni punkt dla punktów danych.
  • Następnie znajdzie pionową różnicę między każdym punktem danych a odpowiadającym mu punktem danych na linii regresji.
  • Obliczy błąd, który jest kwadratem różnicy.
  • Następnie oblicza sumę błędów.
  • Następnie ponownie narysuje linię i powtórzy powyższą procedurę jeszcze raz.
  • W ten sposób rysuje wiele linii, a linia, która daje najmniejszą sumę błędu, jest wybierana jako najlepsza.
  • Ta najlepsza linia to nasza prosta linia regresji liniowej.

Zastosowanie prostej regresji liniowej

Analiza regresji jest przeprowadzana w celu przewidzenia zmiennej ciągłej. Analiza regresji ma wiele różnych zastosowań. Niektóre przykłady są następujące:

  • Analityka predykcyjna
  • Skuteczność marketingu,
  • wycena każdej aukcji
  • prognoza promocyjna produktu.

Tutaj omówimy jedno zastosowanie regresji liniowej do analizy predykcyjnej. Wykonamy modelowanie przy użyciu Pythona.

Kroki, które zamierzamy wykonać, aby zbudować nasz model, są następujące:

  • Zrobimy import bibliotek i zestawów danych.
  • Przetwarzamy dane wstępnie.
  • Podzielimy dane na zestaw testowy i zestaw szkoleniowy.
  • Stworzymy model, który będzie próbował przewidzieć zmienną docelową na podstawie naszego zestawu treningowego
  • Przewidujemy zmienną docelową dla zestawu testowego.
  • Przeanalizujemy wyniki prognozowane przez model

Do naszej analizy wykorzystamy zestaw danych o wynagrodzeniach z danymi 30 pracowników.

# Importowanie bibliotek

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importowanie zestawu danych (próbka danych pokazano w tabeli)

dataset = pd.read_csv('Salary_Data.csv')

lata doświadczenia Wynagrodzenie
1.5 37731
1.1 39343
2.2 39891
2) 43525
1.3 46205
3.2 54445
4 55749

# Wstępne przetwarzanie zestawu danych, tutaj podzielimy zestaw danych na zmienną zależną i zmienną niezależną. x jako niezależna i y jako zmienna zależna lub docelowa

X = dataset.iloc(:, :-1).values
y = dataset.iloc(:, 1).values

# Podział zestawu danych na zestaw szkoleniowy i testowy:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 1/3, random_state = 0)

Tutaj rozmiar 1/3 testu pokazuje, że z danych całkowitych 2/3 części służy do treningu modelu, a reszta 1/3 służy do testowania modelu.

# Dopasujmy nasz prosty model regresji liniowej do zestawu treningowego

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

Model regresji liniowej jest teraz trenowany. Ten model będzie używany do przewidywania zmiennej zależnej.

# Prognozowanie wyników zestawu testów

y_pred = regressor.predict(X_test)

# Wizualizacja wyników zestawu testów

plt.scatter(X_test, y_test, color = 'blue')
plt.plot(X_train, regressor.predict(X_train), color = 'red')
plt.title('Salary of Employee vs Experience (Test set)')
plt.xlabel('Years of Experience')
plt.ylabel('Salary')
plt.show()

# Parametr modelu

print(regressor.intercept_)
print(regressor.coef_)
26816.19224403119
(9345.94244312)

Tak więc wartość przechwytującego (a) wynosi 26816. Co sugeruje, że każdy świeższy (zero doświadczenia) uzyskałby około 26816 kwoty jako wynagrodzenie.

Współczynnik dla naszego modelu wyniósł 9345.94. Sugeruje to, że utrzymując wszystkie pozostałe parametry na stałym poziomie, zmiana jednej jednostki zmiennej niezależnej (lata doświadczenia) da zmianę w wysokości 9345 jednostek wynagrodzenia.

Wskaźniki oceny regresji

Istnieją trzy podstawowe metody pomiaru oceny dostępne do analizy regresji:

  • Średni błąd bezwzględny (MAE): Pokazuje średnią błędów bezwzględnych, która jest różnicą między przewidywaną a rzeczywistą.
  • Mean Squared Error (MSE): Pokazuje średnią wartość kwadratowych błędów.
  • Błąd średniej kwadratowej (RMSE): Pokazuje pierwiastek kwadratowy średniej kwadratowych błędów.

Możemy porównać powyższe metody:

  • MAE: Pokazuje średni błąd i najłatwiejszą ze wszystkich trzech metod.
  • MSE: Ten jest bardziej popularny niż MAE, ponieważ poprawia większe błędy, co w rezultacie pokazuje więcej wglądów.
  • RMSE: Ten jest lepszy niż MSE, ponieważ możemy interpretować błąd w kategoriach y.

Te 3 są tylko funkcjami utraty.

# Ocena modelu

from sklearn import metrics
print('MAE:', metrics.mean_absolute_error(y_test, y_pred))
print('MSE:', metrics.mean_squared_error(y_test, y_pred))
print('RMSE:', np.sqrt(metrics.mean_squared_error(y_test, y_pred)))
MAE: 3426.4269374307123
MSE: 21026037.329511296
RMSE: 4585.4157204675885

Wniosek

Analiza regresji liniowej jest potężnym narzędziem do algorytmów uczenia maszynowego, które służy do przewidywania zmiennych ciągłych, takich jak wynagrodzenie, sprzedaż, wydajność itp. Regresja liniowa uwzględnia liniową zależność między zmiennymi niezależnymi i zależnymi. Prosta regresja liniowa ma tylko jedną zmienną niezależną, na podstawie której model przewiduje zmienną docelową. Omówiliśmy model i zastosowanie regresji liniowej na przykładzie analizy predykcyjnej w celu przewidzenia wynagrodzenia pracowników.

Polecane artykuły

Jest to przewodnik po prostej regresji liniowej. Tutaj omawiamy model i zastosowanie regresji liniowej, wykorzystując przykład analizy predykcyjnej do przewidywania wynagrodzeń pracowników. Możesz również przejrzeć nasze inne powiązane artykuły, aby dowiedzieć się więcej-

  1. Analiza regresji liniowej
  2. Regresja liniowa w R.
  3. Modelowanie regresji liniowej
  4. Narzędzia do testowania regresji
  5. Matplotlib In Python | 14 najlepszych działek w Matplotlib
  6. Słownik w języku Python | Metody i przykłady
  7. Przykłady pierwiastka kwadratowego w PHP
  8. Regresja liniowa a regresja logistyczna | Najważniejsze różnice

Kategoria: