Lineární regrese

Lineární regrese je regresní model používaný ve  statistice pro závislost jedné (vysvětlené, závislé) proměnné na jiné nebo několika dalších proměnných (faktory, regresory, nezávislé proměnné) s lineární funkcí závislosti.

Model lineární regrese je nejběžněji používaný a nejvíce studovaný v ekonometrii . Konkrétně jsou studovány vlastnosti odhadů parametrů získaných různými metodami za předpokladu pravděpodobnostních charakteristik faktorů a náhodných chyb modelu. Limitní (asymptotické) vlastnosti odhadů nelineárních modelů jsou také odvozeny na základě aproximace nelineárních modelů lineárními modely. Z ekonometrického hlediska je linearita v parametrech důležitější než linearita v modelových faktorech.

Definice

Regresní model

,

kde  jsou parametry modelu,  je náhodná chyba modelu; se nazývá lineární regrese, pokud má regresní funkce tvar

,

kde  jsou regresní parametry (koeficienty),  jsou regresory (modelové faktory), k  je počet modelových faktorů [1] .

Lineární regresní koeficienty ukazují rychlost změny závislé proměnné pro daný faktor, přičemž ostatní faktory jsou fixní (v lineárním modelu je tato rychlost konstantní):

Parametr , pro který neexistují žádné faktory, se často nazývá konstanta . Formálně se jedná o hodnotu funkce při nulové hodnotě všech faktorů. Pro analytické účely je vhodné uvažovat, že konstanta je parametr s "faktorem" rovným 1 (nebo jinou libovolnou konstantou, takže tento "faktor" se také nazývá konstanta). V tomto případě, pokud s ohledem na to přečíslujeme faktory a parametry původního modelu (ponecháme-li označení celkového počtu faktorů - k), pak lze lineární regresní funkci zapsat v následujícím tvaru, který formálně nemá obsahovat konstantu:

,

kde  je vektor regresorů,  je sloupcový vektor parametrů (koeficientů).

Lineární model může být buď s konstantou, nebo bez konstanty. Pak v této reprezentaci je první faktor buď roven jedné, nebo je to obyčejný faktor.

Párová a vícenásobná regrese

V konkrétním případě, kdy je faktor jedinečný (bez zohlednění konstanty), hovoříme o párové nebo jednoduché lineární regresi:

Když je počet faktorů (bez zohlednění konstanty) více než jeden, mluví se o vícenásobné regresi:

Příklady

Model organizačních nákladů (bez určení náhodné chyby)

Nejjednodušší model spotřebitelských výdajů ( Keynes )

Maticová reprezentace

Nechť je dán vzorek n pozorování proměnných y a x . Nechť t  je číslo pozorování ve vzorku. Potom  — hodnota proměnné y v t -tém sledování,  — hodnota j - tého faktoru v t -tém sledování. V souladu s  tím je vektor regresorů v t -tém pozorování. Potom v každém pozorování probíhá lineární regresní závislost:

Představme si notaci:

 je vektor pozorování závislé proměnné y  je maticí faktorů.  je vektor náhodných chyb.

Poté lze lineární regresní model reprezentovat ve formě matice:

Klasická lineární regrese

V klasické lineární regresi se předpokládá, že spolu se standardní podmínkou jsou splněny také následující předpoklady ( Gauss-Markovovy podmínky ):

  1. Homoscedasticita (konstantní nebo stejný rozptyl) nebo nedostatek heteroskedasticity náhodných chyb modelu:
  2. Nedostatek autokorelace náhodných chyb:

Tyto předpoklady v maticové reprezentaci modelu jsou formulovány jako jeden předpoklad o struktuře kovarianční matice vektoru náhodné chyby:

Kromě výše uvedených předpokladů se v klasickém modelu předpokládá, že faktory jsou deterministické ( nestochastické ). Kromě toho je formálně požadováno, aby matice měla plnou hodnost ( ), to znamená, že se předpokládá, že neexistuje úplná kolinearita faktorů.

Když jsou splněny klasické předpoklady, obyčejná metoda nejmenších čtverců umožňuje získat dostatečně kvalitní odhady parametrů modelu, a to: jsou to nezkreslené , konzistentní a nejúčinnější odhady .

Metody hodnocení

Viz také

Poznámky

  1. Demidenko, 1981 , str. 6.

Literatura