Spis treści

25 marca 20248 min.
Max Cyrek
Max Cyrek
Aktualizacja wpisu: 16 kwietnia 2024

Analiza regresji – co to jest i na czym polega?

Analiza regresji – co to jest i na czym polega?

Analiza regresji rzuca światło na złożone zależności między zmiennymi, co pozwala badaczom i przedsiębiorstwom np. prognozować trendy. Jakie jest jej znaczenie w wydobywaniu wartościowych wniosków i kierowaniu decyzjami?

Z tego artykułu dowiesz się:

Analiza regresji – definicja i historia

Analiza regresji to metoda statystyczna, wykorzystywana do badania zależności między jedną zmienną zależną a jedną lub większą liczbą zmiennych niezależnych. Polega na próbie dopasowania linii (lub krzywej) do danych, aby zrozumieć charakter relacji między zmiennymi. W przypadku regresji liniowej relacja jest modelowana jako liniowa, co oznacza, że badacz stara się znaleźć najlepsze dopasowanie linii do danych.

Celem analizy regresji jest zrozumienie jak zmiana w jednej zmiennej niezależnej wpływa na zmienną zależną. Może być wykorzystywana do prognozowania, wyjaśniania zależności przyczynowo-skutkowych oraz oceny siły i kierunku związku między zmiennymi.

Analiza regresji to metoda statystyczna, służąca do modelowania i analizy związków między zmiennymi, umożliwiająca przewidywanie wartości jednej zmiennej na podstawie innych.

Definicja analizy regresji

Historia analizy regresji sięga początków XIX wieku – jej korzeni można szukać w pracach Francisa Galtona, brytyjskiego naukowca, który jako pierwszy użył terminu „regresja” w kontekście badania cech dziedzicznych. Badając wzrost rodziców i ich dzieci, zauważył, że dzieci wyjątkowo wysokich lub niskich rodziców miały tendencję do powrotu (regresji) do średniego wzrostu populacji. Nazwał to zjawisko „regresją do średniej”, co dało początek analizie regresji jako narzędziu statystycznemu[1].

Niemal równolegle Adrien-Marie Legendre, a później Carl Friedrich Gauss, rozwijali metodę najmniejszych kwadratów, technikę wykorzystywaną w analizie regresji do estymacji parametrów modelu. Dzięki niej można minimalizować sumy kwadratów różnic między obserwowanymi a przewidywanymi wartościami przez model, co jest fundamentem linearnego modelowania statystycznego[2].

Rozwój komputerów i oprogramowania statystycznego w XX wieku umożliwił analizę dużych zbiorów danych i skomplikowanych modeli regresyjnych, a także przyczynił się do wprowadzenia regresji wielorakiej, która pozwoliła analizować wpływ wielu zmiennych niezależnych na zmienną zależną jednocześnie.

Elementy analizy regresji

Analiza regresji nie byłaby możliwa bez następujących elementów:

Zmienne

W analizie regresji wyróżnia się następujące zmienne:

  • Zmienna zależna (Y) to wartość do przewidzenia lub wyjaśnienia. Jest to główny punkt zainteresowania analizy.
  • Zmienne niezależne (X) stosuje się do przewidywania wartości zmiennej zależnej. Są to czynniki, które według przypuszczeń, mają wpływ na zmienną zależną.

Model regresji

Model regresji to równanie matematyczne, opisujące związek między zmiennymi zależnymi i niezależnymi. Najprostsza forma, regresja liniowa, ma postać:

(Y = a + bX + e),

gdzie:

  • Y to zmienna zależna,
  • X to zmienna niezależna,
  • a to wyraz wolny (przecięcie z osią Y),
  • b to współczynnik kierunkowy (pokazuje, jak zmienia się Y przy zmianie X),
  • e to błąd estymacji (różnica między obserwowanymi a przewidywanymi wartościami Y).

Współczynnik determinacji (R²)

Współczynnik determinacji (R²) pokazuje, jaki procent zmienności zmiennej zależnej jest wyjaśniany przez zmienną lub zmienne niezależne. Wartość R² mieści się w zakresie od 0 do 1, gdzie wartości bliższe 1 oznaczają silniejszy związek.

Test statystyczny

W analizie regresji wyróżnia się dwa rodzaje testów statystycznych:

  • T-test służy do oceny czy współczynniki regresji różnią się istotnie od zera, wskazując czy dana zmienna niezależna ma statystycznie istotny wpływ na zmienną zależną.
  • F-test służy do oceny czy model regresji jako całość jest statystycznie istotny.

Założenia

Analiza regresji opiera się na kilku założeniach, w tym:

  • Związek między zmiennymi zależnymi i niezależnymi jest liniowy.
  • Reszty (czyli różnice między obserwowanymi a przewidywanymi wartościami zmiennej zależnej) są rozłożone normalnie.
  • Homoskedastyczność oznacza, że istnieje stała wariancja reszt na wszystkich poziomach zmiennej niezależnej.
  • Nieobecność współliniowości – zmienne niezależne nie są ze sobą silnie skorelowane, a więc w analizie regresji nieobecna jest współliniowość.

Diagnostyka oraz poprawki i ulepszenia modelu

Diagnostyka modelu obejmuje ocenę spełnienia założeń regresji i analizę reszt, aby zidentyfikować potencjalne problemy z modelem, takie jak nieliniowość, wysokie wartości odstające lub punkty wpływowe.

W odpowiedzi na wyniki diagnostyki modelu mogą być potrzebne różne modyfikacje, w tym transformacja zmiennych, dodanie zmiennych interakcyjnych lub zastosowanie innych form regresji (np. regresji wielorakiej, regresji logistycznej).

Rodzaje analizy regresji

Analiza regresji to wszechstronne narzędzie statystyczne służące do badania zależności między zmiennymi. Jej najprostszym typem jest regresja liniowa – stosuje się ją do do modelowania związku liniowego między jedną zmienną zależną a jedną lub więcej zmiennymi niezależnymi. Jest podstawą bardziej złożonych analiz i służy jako punkt wyjścia dla dalszych badań.

Rozszerzeniem regresji liniowej jest regresja wieloraka, która pozwala włączyć do modelu co najmniej dwie zmienne niezależne. Dzięki temu można przeprowadzić bardziej szczegółową analizę wpływu wielu czynników na zmienną zależną, co przydaje się, gdy wiele różnych zmiennych może wpływać na wynik.

Regresję logistyczną, w przeciwieństwie do liniowej, stosuje się, gdy zmienna zależna jest kategoryczna np., gdy chcemy przewidzieć wynik tak/nie lub sukces/porażka. Model ten jest szczególnie użyteczny w modelowaniu prawdopodobieństwa wystąpienia pewnego zdarzenia.

Regresja wielomianowa oferuje sposobność modelowania zależności nieliniowych między zmiennymi, dodając do równania regresji wyrazów wielomianowych. Jest to przydatne w przypadkach, gdy relacja między zmiennymi nie jest prosta i liniowa, lecz bardziej złożona.

Metoda regresji krokowej, czyli stepwise regression, pozwala selektywnie dodawać lub usuwać zmienne z modelu na podstawie ich statystycznej istotności, co może prowadzić do efektywniejszych modeli.

Regresja kwantylowa pozwala estymować zależności dla różnych punktów rozkładu zmiennej zależnej, co jest przydatne dla zrozumienia jak zmienne niezależne wpływają na różne wartości zmiennej zależnej.

Regresja Cox’a, znana również jako model proporcjonalnego hazardu, jest używana w analizie czasu do zdarzenia, na przykład w badaniach nad czasem przeżycia. Dzięki niej można badać jak czynniki wpływają na ryzyko wystąpienia zdarzenia w czasie.

Metody analizy regresji

Istnieje wiele metod estymacji i selekcji modelu – oto niektóre z najczęściej stosowanych:

  • Metoda najmniejszych kwadratów to klasyczna metoda estymacji parametrów w regresji liniowej. Polega na minimalizacji sumy kwadratów różnic między obserwowanymi a przewidywanymi przez model wartościami zmiennej zależnej. Jest popularna ze względu na jej prostotę, efektywność obliczeniową i dobre właściwości statystyczne w standardowych warunkach.
  • Metoda najmniejszych kwadratów w obecności ograniczeń to wariant metody najmniejszych kwadratów, który pozwala na wprowadzenie ograniczeń parametrów modelu regresji, takich jak nieujemność współczynników. Sprawdza się, gdy na podstawie teorii lub wcześniejszych badań wiadomo, że pewne parametry muszą spełniać określone warunki.
  • Metoda największej wiarygodności bazuje na maksymalizacji funkcji wiarygodności, czyli prawdopodobieństwa obserwacji danych przy danych parametrach modelu. Może być stosowana, gdy rozkład błędów jest inny niż normalny.
  • Ridge regression (regresja grzbietowa) to metoda stosowana w celu zapobiegania nadmiernemu dopasowaniu przez wprowadzenie kary za duże wartości współczynników regresji. Reguluje ona model, minimalizując nie tylko sumę kwadratów reszt, ale także sumę kwadratów współczynników, pomnożoną przez parametr kary. Pozwala to zachować prostotę modelu nawet w obecności wielu zmiennych.
  • Podobnie jak ridge regression, metoda lasso (Least Absolute Shrinkage and Selection Operator) służy ograniczaniu nadmiernego dopasowania, ale robi to przez wprowadzenie kary za absolutną wartość współczynników. Jedną z jej unikalnych cech jest zdolność do redukcji niektórych współczynników do zera, co efektywnie eliminuje mniej istotne zmienne z modelu.
  • Sieć elastyczna (znana też pod angielskim terminem elastic net) łączy cechy ridge i lasso regression, stosując jednocześnie kary za kwadratowe i absolutne wartości współczynników. Dzięki temu można skuteczniej radzić sobie z problemami, takimi jak współliniowość w danych, co jest zbalansowanym rozwiązaniem między selekcją zmiennych a regulacją modelu.

Przebieg analizy regresji

Na początku analizy regresji należy dokładnie określić jej cel, czyli jaką badaną zależność i zmienne brane pod uwagę jako niezależne i zależne. Po zdefiniowaniu problemu następuje zbieranie danych – należy zadbać o ich odpowiednią jakość i ilość, aby umożliwić wiarygodną analizę.

Kolejnym krokiem jest wstępne przetworzenie danych – czyszczenie ich z błędów, uzupełnienie brakujących wartości oraz, ewentualnie, transformację zmiennych, na przykład przez normalizację lub standaryzację. Sprawia to, że model regresji będzie wykorzystywał tylko czyste i odpowiednio przygotowane dane.

Po przygotowaniu danych można przystąpić do właściwego modelowania, czyli wyboru odpowiedniego typu regresji i estymacji parametrów modelu. Oprócz tego należy uwzględnić wszystkie istotne zmienne niezależne i, w razie potrzeby, zmodyfikować model przez dodanie interakcji między zmiennymi lub transformację zmiennych, aby lepiej oddać zależności w danych.

Po estymacji następuje ocena adekwatności modelu, tj. sprawdzenie czy dobrze opisuje dane. Wykorzystuje się do tego różne metody np. współczynnik determinacji R², testy statystyczne na istotność współczynników regresji, a także analizę reszt modelu. Ostatnia technika pozwala zweryfikować czy błędy modelu są rozłożone normalnie i czy są niezależne od wartości przewidywanych – jest to clou wiarygodności modelu.

W przypadku wykrycia problemów (np. nieliniowości zależności czy autokorelacji reszt) model może wymagać modyfikacji poprzez np. dodanie kolejnych zmiennych, zastosowanie innej formy regresji czy zastosowanie technik regularyzacji w celu zapobiegania nadmiernemu dopasowaniu.

Ostatnim etapem analizy regresji jest interpretacja wyników, którą należy przeprowadzić w kontekście postawionego problemu badawczego. Obejmuje ona ocenę znaczenia poszczególnych zmiennych niezależnych dla zmiennej zależnej, analizę siły i kierunku wykrytych zależności, a także dyskusję na temat ograniczeń modelu i możliwości jego zastosowania w praktyce.

Zastosowanie analizy regresji

Analiza regresji znajduje zastosowanie w szerokim spektrum branż i działań:

  • W ekonomii i finansach wykorzystuje się ją do analizy wpływu różnych czynników na ceny rynkowe, przewidywania koniunktury gospodarczej, oceny ryzyka inwestycyjnego oraz modelowania zachowań konsumentów. Pozwala lepiej zrozumieć jak zmienne (np. stopy procentowe, inflacja czy poziomy dochodów) wpływają na rynki finansowe i gospodarkę.
  • W marketingu analiza regresji służy do oceny skuteczności kampanii reklamowych, badając wpływ różnych kanałów komunikacyjnych i strategii na zainteresowanie klientów i sprzedaż.
  • W sektorze zdrowia analiza umożliwia badanie związków między stylami życia i czynnikami środowiskowymi a ryzykiem wystąpienia chorób. Lekarze i badacze używają jej do identyfikowania czynników ryzyka dla różnych schorzeń, co przyczynia się do lepszego zrozumienia ich etiologii i profilaktyki.
  • W dziedzinie produkcji wykorzystuje się ją do modelowania zależności między procesami produkcyjnymi a jakością wyrobów. Pomaga też w identyfikacji czynników wpływających na wydajność i niezawodność produkcji.
  • W obszarze nauk środowiskowych stosuje się ją do analizy wpływu działalności człowieka na środowisko naturalne, na przykład w badaniach dotyczących zmian klimatu, zanieczyszczenia powietrza i wody.
  • W sporcie może być wykorzystana do oceny jak różne czynniki, takie jak trening, dieta czy strategie gry, wpływają na wyniki sportowe. Trenerzy i analitycy sportowi korzystają z tej metody, aby poprawiać strategie treningowe i taktyki gry.

Rola analizy regresji

Dzięki analizie regresji badacze i analitycy mogą identyfikować, które czynniki rzeczywiście wpływają na interesujące ich zjawiska, jaka jest ich siła i sposób współoddziaływania zmiennych. Przykładowo, w ekonomii analizę regresji można wykorzystać do badania wpływu stóp procentowych na ogólny wzrost gospodarczy. Jest ona również nieocenionym narzędziem prognostycznym, ponieważ pozwala przewidywać wartości jednej zmiennej na podstawie znanych wartości innych zmiennych – pozwala to np. lepiej planować produkcję czy zarządzać zasobami.

Analiza regresji jest też nieocenioną pomocą w procesie podejmowania decyzji oraz tworzenia polityk i praw. Daje ona solidne podstawy empiryczne, dzięki czemu decyzje oparte są na danych, a nie tylko na intuicji, co przekłada się na lepsze zarządzanie ryzykiem, optymalizację zasobów i skuteczniejsze planowanie strategiczne.

Analiza regresji jest też ważnym narzędziem do testowania hipotez i tworzenia teorii – nie tylko dostarcza metod weryfikacji założeń badawczych i analizy ich implikacji, lecz także stanowi fundament empirycznej weryfikacji hipotez, co stanowi o jej sile i wiarygodności.

FAQ

Przypisy

  1. https://journals.sagepub.com/doi/pdf/10.1068/a300203?id=a300203
  2. https://link.springer.com/chapter/10.1007/978-0-585-25657-3_1

Formularz kontaktowy

Rozwijaj swoją firmę

we współpracy z Cyrek Digital
Wyślij zapytanie
Pola wymagane
Max Cyrek
Max Cyrek
CEO
"Do not accept ‘just’ high quality. Anyone can do that. If the sky is the limit, find a higher sky.”

Razem z całym zespołem Cyrek Digital pomagam firmom w cyfrowej transformacji. Specjalizuje się w technicznym SEO. Na działania marketingowe patrzę zawsze przez pryzmat biznesowy.

zobacz artykuły
Skontaktuj się ze mną
Masz pytania? Napisz do mnie.
Oceń tekst
Średnia ocena: artykuł nieoceniony. 0

Być może zainteresują Cię:

Mapa strony