Lineární regrese

Ve statistice se lineární regrese používá pro dvě věci:

Lineární regrese je forma regresní analýzy, ve které je vztah mezi jednou nebo více nezávislými proměnnými a jinou proměnnou, nazývanou závislá proměnná, modelován funkcí nejmenších čtverců, nazývanou lineární regresní rovnice. Tato funkce je lineární kombinací jednoho nebo více modelových parametrů, nazývaných regresní koeficienty. Lineární regresní rovnice s jednou nezávislou proměnnou představuje přímku, když je predikovaná hodnota (tj. závislá proměnná z regresní rovnice) vynesena proti nezávislé proměnné: to se nazývá jednoduchá lineární regrese. Všimněte si však, že „lineární“ se nevztahuje k této přímce, ale spíše ke způsobu, jakým se regresní koeficienty vyskytují v regresní rovnici. Výsledky jsou předmětem statistické analýzy.

Příklad lineární regrese s jednou nezávislou proměnnou.

Lineární regresní model předpokládá, vzhledem k náhodný vzorek , Možná nedokonalý vztah mezi , regressand, a regresory . Narušení termín , Což je náhodná proměnná příliš, je přidán do tohoto předpokládaného vztahu zachytit vliv všeho ostatního na jiné než . Proto, více lineární regresní model má následující podobu:

Všimněte si, že regresory (X-s) se také nazývají nezávislé proměnné, exogenní proměnné, kovariáty, vstupní proměnné nebo predikční proměnné. Podobně regresivy (Y-s) se také nazývají závislé proměnné, proměnné odezvy, měřené proměnné nebo predikované proměnné. Existují p + 1 neznámé parametry β0, β1, …, βp. Jedním z účelů lineární regrese je určit tyto neznámé parametry a jejich statistickou významnost (jinými slovy: střední hodnotu a směrodatnou odchylku každé βj, j = 0, 1, …, p).

Modely, které neodpovídají této specifikaci, mohou být ošetřeny nelineární regresí. Model lineární regrese nemusí být lineární funkcí nezávislé proměnné: lineární v tomto kontextu znamená, že podmíněný průměr je v parametrech lineární . Model je například lineární v parametrech a , ale není lineární v , nelineární funkce . Ilustrace tohoto modelu je uvedena v příkladu níže.

Je důležité odlišit model formulovaný z hlediska náhodných veličin a pozorované hodnoty těchto náhodných veličin. Pozorované hodnoty, nebo data, označená malými písmeny, se obvykle skládají z n hodnot .

Obecně platí, že je třeba určit parametry, . Pro odhad parametrů je často užitečné použít maticový zápis

kde Y je sloupec vektor, který zahrnuje pozorované hodnoty , Zahrnuje nepozorované stochastické složky a matice X pozorované hodnoty regresorů

X zahrnuje typicky konstantní sloupec, tedy sloupec, který se nemění napříč pozorováními a který se používá k reprezentaci průsečíkového výrazu . Matice X se někdy nazývá návrhová matice.

Pokud existuje lineární závislost mezi sloupci X, pak vektor parametrů nelze odhadnout pomocí nejmenších čtverců, pokud není omezen, jako například požadavkem, aby součet některých jeho složek byl 0. Některé lineární kombinace složek však mohou být v takových případech stále jednoznačně odhadnutelné. Například model

nelze vyřešit pro a nezávisle, protože matice pozorování má sníženou hodnotu 2. V tomto případě lze model přepsat jako

a vyřešit dát hodnotu pro složené entity .

Všimněte si, že k tomu, abychom mohli provést pouze odhad nejmenších čtverců, není nutné považovat vzorek za náhodné veličiny. Může být dokonce koncepčně jednodušší považovat vzorek za fixní, pozorované hodnoty, jak jsme to dělali doposud. V souvislosti s testováním hypotéz a intervaly spolehlivosti však bude nutné interpretovat vzorek jako náhodné veličiny, z nichž vzejdou odhady, které jsou samy náhodnými veličinami. Pak bude možné studovat rozložení odhadů a vyvozovat závěry.

Klasické předpoklady pro lineární regresi zahrnují předpoklady, že vzorek je vybrán náhodně ze sledovaného souboru, že závislá proměnná je spojitá na reálné přímce a že chybové výrazy sledují identická a nezávislá normální rozdělení, to znamená, že chyby jsou i.i.d. a Gaussovy. Všimněte si, že tyto předpoklady znamenají, že chybový výraz statisticky nezávisí na hodnotách nezávislých proměnných, to znamená, že je statisticky nezávislý na prediktorových proměnných. Tento článek přejímá tyto předpoklady, pokud není uvedeno jinak. Všimněte si, že všechny tyto předpoklady mohou být uvolněny v závislosti na povaze skutečného pravděpodobnostního modelu daného problému. Otázka výběru, které předpoklady uvolnit, jakou funkční formu přijmout a další volby související s podkladovým pravděpodobnostním modelem jsou známy jako hledání specifikací. Zejména si všimněte, že předpoklad, že chybové výrazy jsou normálně rozloženy, nemá žádný význam, pokud vzorek není velmi malý, protože centrální limitní věty znamenají, že pokud chybové výrazy mají konečný rozptyl a nejsou příliš silně korelovány, odhady parametrů budou přibližně normálně rozloženy, i když základní chyby nejsou.

Za těchto předpokladů lze uvést ekvivalentní formulaci jednoduché lineární regrese, která explicitně ukazuje lineární regresi jako model podmíněného očekávání.

Podmíněná očekávaná hodnota Yi daná Xi je afinní funkcí Xi. Všimněte si, že tento výraz vyplývá z předpokladu, že průměr je nulový podmíněný Xi.

Prvním cílem regresní analýzy je co nejlépe přizpůsobit data odhadem parametrů modelu. Z různých kritérií, která lze použít k definování toho, co představuje nejlépe vyhovující, je kritérium nejmenších čtverců velmi mocné. Tento odhad (nebo odhad, pokud jsme v kontextu náhodného vzorku) je dán

Pro plné odvození viz Lineární nejmenších čtverců.

Tyto odhady mohou být použity k testování různých hypotéz.

Označení podle rozptylu chybového termínu (připomenout předpokládáme, že pro každý ). Nezaujatý odhad je dána

kde je součet čtvercových zbytků.
Vztah mezi odhadem a skutečnou hodnotou je:

kde má rozdělení chí-kvadrát s n − p  − 1 stupněm volnosti.

Řešení normálních rovnic lze zapsat jako

To ukazuje, že odhady parametrů jsou lineárními kombinacemi závislé proměnné. Z toho vyplývá, že pokud jsou pozorovací chyby normálně rozloženy, budou se odhady parametrů řídit společným normálním rozložením. Za těchto předpokladů je odhadovaný vektor parametrů přesně rozložen,

kde N označuje multivariační normální rozdělení.

Standardní chyba odhadu j-tého parametru βj (kde j = 0, 1, …, p) je dána rovnicí

100(1 − α)% interval spolehlivosti pro daný parametr, , se vypočítá takto:

Zbytky mohou být vyjádřeny jako

Matice je známá jako klobouková matice a má užitečnou vlastnost, že je idempotentní. Pomocí této vlastnosti lze ukázat, že pokud jsou chyby normálně rozloženy, budou se zbytky řídit normálním rozložením s kovarianční maticí
.
Studentované zbytky jsou užitečné při testování odlehlých hodnot.

Klobouková matice je matice kolmého průmětu na sloupový prostor matice X.

Při dané hodnotě nezávislé proměnné xd, (kde d = 1, 2, …, n) se vypočte predikovaná odezva jako

Zápis prvků jako , Průměrný interval spolehlivosti odezvy 100(1 − α)% pro predikci je dán pomocí teorie šíření chyb:

Předpokládané intervaly spolehlivosti odezvy 100(1 − α)% pro data jsou dány vzorcem:

Považujeme zde případ nejjednoduššího regresního modelu, . Za účelem odhadu a , Máme vzorek pozorování, které jsou zde nejsou vnímány jako náhodné proměnné a označeny malými písmeny. Jak je uvedeno v úvodu, nicméně, bychom mohli chtít interpretovat vzorek z hlediska náhodných proměnných v některých jiných kontextech, než nejmenších čtverců odhad.

Myšlenka odhadu nejmenších čtverců je minimalizovat následující neznámou veličinu, součet čtvercových chyb:

Vezmeme-li derivaci předchozího výrazu s ohledem na a dává normální rovnice:

Jedná se o lineární systém rovnic, které mohou být vyřešeny pomocí Cramerova pravidla:

Kovarijní matice je

Průměrný interval spolehlivosti odpovědi je dán

Předpokládaný interval spolehlivosti odpovědi je dán

Termín je odkazem na Studentovo t-rozdělení. je standardní chyba.

V analýze rozptylu (ANOVA) je celkový součet čtverců rozdělen na dvě nebo více složek.

„Celkový (opravený) součet čtverců“ je

je průměrná hodnota pozorovaného yi. (Zde byl od každé hodnoty y odečten „opravený“ průměr.) Ekvivalentně

Celkový součet čtverců je rozdělen jako součet „regresního součtu čtverců“ SSReg (nebo RSS, také nazývaný „vysvětlený součet čtverců“) a „chybového součtu čtverců“ SSE, který je součtem čtverců zbytků.

Regresní součet čtverců je

kde u je n-by-1 vektor, ve kterém každý prvek je 1. Všimněte si, že

Chyba (nebo „nevysvětlený“) součet čtverců SSE, což je součet čtverců zbytků, je dána

Celkový součet čtverců SST je

Pearsonův koeficient regrese, R 2 je pak dán jako

Pokud jsou chyby nezávislé a normálně distribuované s očekávanou hodnotou 0 a všechny mají stejný rozptyl, pak za nulové hypotézy, že všechny prvky v β = 0 kromě konstanty, statistika

následuje F-rozdělení s p a n − p − 1 stupni volnosti (n je počet regressandů a p + 1 je počet neznámých parametrů β0, β1, …, βp). Pokud je tato statistika příliš velká, pak se zamítá nulová hypotéza. Jak velká je příliš velká, závisí na úrovni testu, což je tolerovaná pravděpodobnost chyby typu I; viz statistická významnost.

Vzniká v následující situaci: existují dva statistické modely:

je součet zbytků j-tého modelu (j = 1 nebo 2). Pak poměr

má F-rozdělení n − p(1) − 1 a
n − p(2) − 1 stupňů volnosti.

Graf hmotnosti proti výšce (viz níže) ukazuje, že nemůže být modelován přímkou, takže regrese se provádí modelováním dat pomocí paraboly.

kde závislá proměnná je hmotnost a nezávislá proměnná je výška.

Místo pozorování , v matici X.

Hodnoty parametrů se zjišťují řešením normálních rovnic

Prvek ij z normální rovnice matice, je tvořen součtem produktů sloupce i a sloupce j z X.

Prvek i pravostranného vektoru vznikne sečtením součinů sloupce i X se sloupcem závislých proměnných hodnot.

Tedy, normální rovnice jsou

Vypočítané hodnoty jsou dány

Zjištěná a vypočtená data se vynesou do grafu a zbytky, , se vypočtou a vynesou do grafu. Směrodatné odchylky se vypočtou pomocí součtu čtverců, S = 0,76.

Intervaly spolehlivosti se počítají pomocí:

s = 5%, = 2,2. Proto můžeme říci, že 95% intervaly spolehlivosti jsou:

Předpokládejme, že pro údaje v tomto příkladu byly navrženy následující dva modely:

Která z těchto dvou je lepší?

Nulová hypotéza říká, že mezi těmito dvěma modely není žádný rozdíl. Zbytkový součet čtverců je SSE(1) = 7,49 a SSE(2) = 0,76.

F-rozdělení s 13, respektive 12 stupni volnosti dává α = 95%
F13,12(1 – 0,95) = 2,66. Protože Q > 2,66, nulová hypotéza může být odmítnuta na úrovni 95%.

Zkoumání výsledků regresních modelů

Kontrola předpokladů modelu

Některé z modelových předpokladů lze vyhodnotit výpočtem reziduí a jejich vynesením do grafu nebo jinou analýzou.
Pro ověření platnosti předpokladů lze sestrojit následující grafy:

Údaje by neměly vykazovat žádný patrný vzorec ve všech kromě posledního grafu.

Zobecněné nejmenších čtverců, které zahrnují vážené nejmenších čtverců jako zvláštní případ, lze použít v případě, že pozorovací chyby mají nerovný rozptyl nebo sériovou korelaci.

Model chyb v proměnných nebo součet nejmenších čtverců, když jsou nezávislé proměnné zatíženy chybou

Generalizovaný lineární model se používá, když distribuční funkce chyb není Normální rozdělení. Příkladem jsou exponenciální rozdělení, gama distribuce, inverzní Gaussova distribuce, Poissonova distribuce, binomická distribuce, multinomiální distribuce

Řada alternativních přístupů k výpočtu regresních parametrů je zahrnuta do kategorie známé jako robustní regrese. Jedna technika minimalizuje střední absolutní chybu nebo nějakou jinou funkci zbytkových veličin místo střední kvadratické chyby jako u lineární regrese. Robustní regrese je výpočetně mnohem náročnější než lineární regrese a je také poněkud obtížněji implementovatelná. Odhady nejmenších čtverců sice nejsou příliš citlivé na rozbití normality předpokladu chyb, to však neplatí, pokud rozptyl nebo průměr rozložení chyb není ohraničen nebo pokud není k dispozici analytik, který by uměl identifikovat odlehlé veličiny.

Mezi uživateli Stata je Robustní regrese často chápána jako lineární regrese s Huber-Whiteovými standardními odhady chyb kvůli konvencím pojmenování regresních příkazů. Tento postup uvolňuje předpoklad homoscedasticity pouze pro odhady rozptylu; prediktory jsou stále obyčejné odhady nejmenších čtverců (OLS). To občas vede ke zmatkům; uživatelé Stata se někdy domnívají, že lineární regrese je robustní metoda, když je tato možnost použita, i když ve skutečnosti není robustní ve smyslu odporu vůči vnějším hodnotám.

Instrumentální proměnné a související metody

Předpoklad, že chybový člen v lineárním modelu může být považován za nekorelovaný s nezávislými proměnnými, bude často neobhajitelný, protože vynechané-proměnné zkreslení, „reverzní“ příčinná souvislost a chyby-v-proměnných problémy mohou generovat takovou korelaci. Instrumentální proměnné a další metody mohou být použity v takových případech.

Aplikace lineární regrese

Lineární regrese se široce používá v biologických, behaviorálních a společenských vědách k popisu možných vztahů mezi proměnnými. Řadí se k nejdůležitějším nástrojům používaným v těchto disciplínách.

Trendová přímka představuje trend, tedy dlouhodobý pohyb v datech časových řad po započtení ostatních složek. Vypovídá, zda se určitý datový soubor (řekněme HDP, ceny ropy nebo ceny akcií) v průběhu času zvýšil nebo snížil. Trendová přímka by mohla být jednoduše nakreslena okem přes soubor datových bodů, ale správněji se jejich poloha a sklon vypočítává pomocí statistických technik, jako je lineární regrese. Trendové přímky jsou typicky přímky, i když některé variace používají polynomy vyššího stupně v závislosti na stupni zakřivení požadovaném v přímce.

Trendové čáry se někdy používají v podnikové analytice k zobrazení změn v datech v průběhu času. To má tu výhodu, že je to jednoduché. Trendové čáry se často používají k argumentaci, že určitá akce nebo událost (například školení nebo reklamní kampaň) způsobila pozorované změny v určitém časovém okamžiku. Jedná se o jednoduchou techniku, která nevyžaduje kontrolní skupinu, experimentální návrh nebo sofistikovanou analytickou techniku. Trpí však nedostatečnou vědeckou validitou v případech, kdy jiné potenciální změny mohou data ovlivnit.

Jako jeden příklad lze uvést rané důkazy o vztahu kouření tabáku k úmrtnosti a nemocnosti, které pocházejí ze studií využívajících regresi. Výzkumníci obvykle zahrnují do své regresní analýzy několik proměnných ve snaze odstranit faktory, které by mohly vytvářet falešné korelace. U příkladu kouření cigaret mohou výzkumníci kromě kouření zahrnout i socioekonomický status, aby zajistili, že žádný pozorovaný vliv kouření na úmrtnost není způsoben nějakým vlivem vzdělání nebo příjmu. Nikdy však není možné zahrnout všechny možné matoucí proměnné do studie využívající regresi. U příkladu kouření může hypotetický gen zvýšit úmrtnost a také způsobit, že lidé budou více kouřit. Z tohoto důvodu jsou randomizované kontrolované studie často schopny generovat přesvědčivější důkazy příčinných vztahů než korelační analýza využívající lineární regresi. Pokud kontrolované experimenty nejsou proveditelné, mohou být použity varianty regresní analýzy, jako jsou instrumentální proměnné a další metody, aby se pokusily odhadnout příčinné vztahy z pozorovacích dat.

Průměr (Aritmetika, Geometrie) – Medián – Režim – Výkon – Odchylka – Směrodatná odchylka

Testování hypotéz – Význam – Nullova hypotéza/Alternativní hypotéza – Chyba – Z-test – Studentův t-test – Maximální pravděpodobnost – Standardní skóre/Z skóre – P-hodnota – Analýza rozptylu

Funkce přežití – Kaplan-Meier – Logrank test – Četnost selhání – Proporcionální modely nebezpečnosti

Normal (zvonová křivka) – Poisson – Bernoulli

Matoucí veličina – Pearsonův korelační koeficient produktového momentu – Rank korelace (Spearmanův korelační koeficient hodnosti, Kendall tau korelační koeficient hodnosti)

Lineární regrese – Nelineární regrese – Logistická regrese