Lineární regrese je regresní model používaný ve statistice pro závislost jedné (vysvětlené, závislé) proměnné na jiné nebo několika dalších proměnných (faktory, regresory, nezávislé proměnné) s lineární funkcí závislosti.
Model lineární regrese je nejběžněji používaný a nejvíce studovaný v ekonometrii . Konkrétně jsou studovány vlastnosti odhadů parametrů získaných různými metodami za předpokladu pravděpodobnostních charakteristik faktorů a náhodných chyb modelu. Limitní (asymptotické) vlastnosti odhadů nelineárních modelů jsou také odvozeny na základě aproximace nelineárních modelů lineárními modely. Z ekonometrického hlediska je linearita v parametrech důležitější než linearita v modelových faktorech.
Regresní model
,kde jsou parametry modelu, je náhodná chyba modelu; se nazývá lineární regrese, pokud má regresní funkce tvar
,kde jsou regresní parametry (koeficienty), jsou regresory (modelové faktory), k je počet modelových faktorů [1] .
Lineární regresní koeficienty ukazují rychlost změny závislé proměnné pro daný faktor, přičemž ostatní faktory jsou fixní (v lineárním modelu je tato rychlost konstantní):
Parametr , pro který neexistují žádné faktory, se často nazývá konstanta . Formálně se jedná o hodnotu funkce při nulové hodnotě všech faktorů. Pro analytické účely je vhodné uvažovat, že konstanta je parametr s "faktorem" rovným 1 (nebo jinou libovolnou konstantou, takže tento "faktor" se také nazývá konstanta). V tomto případě, pokud s ohledem na to přečíslujeme faktory a parametry původního modelu (ponecháme-li označení celkového počtu faktorů - k), pak lze lineární regresní funkci zapsat v následujícím tvaru, který formálně nemá obsahovat konstantu:
,kde je vektor regresorů, je sloupcový vektor parametrů (koeficientů).
Lineární model může být buď s konstantou, nebo bez konstanty. Pak v této reprezentaci je první faktor buď roven jedné, nebo je to obyčejný faktor.
V konkrétním případě, kdy je faktor jedinečný (bez zohlednění konstanty), hovoříme o párové nebo jednoduché lineární regresi:
Když je počet faktorů (bez zohlednění konstanty) více než jeden, mluví se o vícenásobné regresi:
Nechť je dán vzorek n pozorování proměnných y a x . Nechť t je číslo pozorování ve vzorku. Potom — hodnota proměnné y v t -tém sledování, — hodnota j - tého faktoru v t -tém sledování. V souladu s tím je vektor regresorů v t -tém pozorování. Potom v každém pozorování probíhá lineární regresní závislost:
Představme si notaci:
je vektor pozorování závislé proměnné y je maticí faktorů. je vektor náhodných chyb.Poté lze lineární regresní model reprezentovat ve formě matice:
V klasické lineární regresi se předpokládá, že spolu se standardní podmínkou jsou splněny také následující předpoklady ( Gauss-Markovovy podmínky ):
Tyto předpoklady v maticové reprezentaci modelu jsou formulovány jako jeden předpoklad o struktuře kovarianční matice vektoru náhodné chyby:
Kromě výše uvedených předpokladů se v klasickém modelu předpokládá, že faktory jsou deterministické ( nestochastické ). Kromě toho je formálně požadováno, aby matice měla plnou hodnost ( ), to znamená, že se předpokládá, že neexistuje úplná kolinearita faktorů.
Když jsou splněny klasické předpoklady, obyčejná metoda nejmenších čtverců umožňuje získat dostatečně kvalitní odhady parametrů modelu, a to: jsou to nezkreslené , konzistentní a nejúčinnější odhady .
Nejmenší čtverce a regresní analýza | |||||||||
---|---|---|---|---|---|---|---|---|---|
Výpočetní statistika |
| ||||||||
Korelace a závislost |
| ||||||||
Regresní analýza |
| ||||||||
Regrese jako statistický model |
| ||||||||
Rozklad rozptylu |
| ||||||||
Modelová studie |
| ||||||||
Předpoklady |
| ||||||||
Plánování experimentů |
| ||||||||
Numerická aproximace | |||||||||
Aplikace |
|
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|