Metoda nejmenších čtverců (LSM) je matematická metoda používaná k řešení různých problémů, založená na minimalizaci součtu čtverců odchylek některých funkcí z experimentálních vstupních dat. Lze jej použít k „řešení“ přeurčených soustav rovnic (když počet rovnic převyšuje počet neznámých), k nalezení řešení v případě běžných (nepřeurčených) nelineárních soustav rovnic, k aproximaci bodových hodnot určité funkce. OLS je jednou ze základních metod regresní analýzy pro odhad neznámých parametrů regresních modelů ze vzorových dat.
Až do začátku XIX století. vědci neměli určitá pravidla pro řešení soustavy rovnic, ve které je počet neznámých menší než počet rovnic; Do té doby se používaly zvláštní metody v závislosti na typu rovnic a na vynalézavosti kalkulátorů, a proto různé kalkulátory vycházely ze stejných pozorovacích dat k různým závěrům. Gauss (1795) je připisován první aplikaci metody a Legendre (1805) ji nezávisle objevil a publikoval pod jejím moderním názvem ( francouzsky: Méthode des moindres quarrés ) [1] . Laplace spojil metodu s teorií pravděpodobnosti a americký matematik Adrain (1808) uvažoval o jejích pravděpodobnostních aplikacích [2] . Metoda je rozšířena a vylepšena dalším výzkumem Enckeho , Bessela , Hansena a dalších.
Práce A. A. Markova na počátku 20. století umožnily zařadit metodu nejmenších čtverců do teorie odhadu matematické statistiky, v níž je důležitou a přirozenou součástí. Díky úsilí Y. Neimana, F. Davida, A. Aitkena, S. Raa bylo v této oblasti dosaženo mnoha důležitých výsledků [3] .
Nechť , sada skalárních experimentálních dat, , sada vektorových experimentálních dat, a předpokládá se, že závisí na .
Je zavedena nějaká (v nejjednodušším případě lineární) skalární funkce , která je určena vektorem neznámých parametrů .
Úkolem je najít takový vektor , aby celkový počet chyb byl v určitém smyslu minimální.
Podle metody nejmenších čtverců je řešením tohoto problému vektor , který funkci minimalizuje
V nejjednodušším případě bude výsledkem nejmenších čtverců aritmetický průměr vstupních dat.
Výhoda LSM oproti minimalizaci jiných typů chyb spočívá v tom, že pokud je diferencovatelná vzhledem k , pak je také diferencovatelná. Přirovnání parciálních derivací k nule redukuje problém na řešení soustavy rovnic, a pokud závisí na lineárně, pak soustava rovnic bude lineární.
Zejména metoda nejmenších čtverců může být použita k "řešení" systému lineárních rovnic
,kde je obdélníková matice velikosti (to znamená, že počet řádků matice A je větší než počet hledaných proměnných).
Takový systém rovnic obecně nemá řešení. Proto lze tento systém „řešit“ pouze ve smyslu výběru takového vektoru , aby se minimalizovala „vzdálenost“ mezi vektory a . K tomu můžete použít kritérium pro minimalizaci součtu čtverců rozdílů levé a pravé části rovnic soustavy, tedy . Je snadné ukázat, že řešení tohoto minimalizačního problému vede k řešení následující soustavy rovnic
.Pomocí operátoru pseudoinverze lze řešení přepsat takto:
,kde je pseudoinverzní matice pro .
I tento problém lze „řešit“ pomocí tzv. vážených nejmenších čtverců (viz dále), kdy různé rovnice soustavy dostávají z teoretických úvah různé váhy.
Striktní zdůvodnění a stanovení mezí smysluplné použitelnosti metody podali A. A. Markov a A. N. Kolmogorov .
Nechť existují hodnoty nějaké proměnné (mohou to být výsledky pozorování, experimentů atd.) a odpovídající proměnné . Úkolem je aproximovat vztah mezi a pomocí nějaké známé funkce až po některé neznámé parametry , tedy ve skutečnosti najít nejlepší hodnoty parametrů , které se hodnoty co nejvíce přibližují skutečným hodnotám . Ve skutečnosti se to redukuje na případ „řešení“ přeurčeného systému rovnic s ohledem na :
.
V regresní analýze a zejména v ekonometrii se používají pravděpodobnostní modely vztahu mezi proměnnými.
,
kde jsou tzv. náhodné chyby modelu.
Odchylky pozorovaných hodnot od hodnot modelu jsou tedy předpokládány již v samotném modelu. Podstatou LSM (obvyklého, klasického) je najít takové parametry, při kterých bude součet kvadrátů odchylek (chyb, u regresních modelů často nazývaných regresní rezidua ) minimální:
,kde je angličtina. Zbytkový součet čtverců [4] je definován jako:
.V obecném případě lze tento problém řešit numerickými metodami optimalizace (minimalizace). V tomto případě se mluví o nelineárních nejmenších čtvercích (NLS nebo NLLS - anglicky Non-Linear Least Squares ). V mnoha případech lze získat analytické řešení. K vyřešení minimalizační úlohy je nutné najít stacionární body funkce tak, že ji derivujeme s ohledem na neznámé parametry , derivujeme rovnítko k nule a vyřešíme výslednou soustavu rovnic:
.Nechť je regresní závislost lineární :
.Nechť y je sloupcový vektor pozorování vysvětlované proměnné a matice pozorování faktorů (řádky matice jsou vektory hodnot faktorů v daném pozorování, podél sloupců jsou vektory hodnot daného faktoru ve všech pozorováních). Maticová reprezentace lineárního modelu má tvar:
.Potom bude vektor odhadů vysvětlované proměnné a vektor regresních reziduí roven
.podle toho bude součet druhých mocnin regresních reziduí roven
.Derivováním této funkce vzhledem k vektoru parametru a přirovnáním derivací k nule získáme soustavu rovnic (v maticovém tvaru):
.V dešifrované maticové formě vypadá tento systém rovnic takto:
kde všechny součty přebírají všechny přípustné hodnoty .
Pokud je v modelu zahrnuta konstanta (jako obvykle), pak pro všechny je tedy v levém horním rohu matice soustavy rovnic počet pozorování a ve zbývajících prvcích prvního řádku a prvního sloupce - pouze součet hodnot proměnných: a první prvek pravé strany systému je .
Řešení tohoto systému rovnic dává obecný vzorec pro odhady nejmenších čtverců pro lineární model:
.Pro analytické účely se ukazuje jako užitečné poslední znázornění tohoto vzorce (v soustavě rovnic se při dělení n místo součtů objevují aritmetické průměry). Pokud jsou data vycentrována v regresním modelu , pak v této reprezentaci má první matice význam výběrové kovarianční matice faktorů a druhá je vektor kovariance faktoru se závislou proměnnou. Pokud jsou navíc data také normalizována na RMS (tedy případně standardizována ), pak má první matice význam výběrová korelační matice faktorů, druhý vektor - vektory výběrových korelací faktorů se závisle proměnnou.
Důležitou vlastností odhadů LLS pro modely s konstantou je, že přímka sestrojené regrese prochází těžištěm vzorových dat, to znamená, že je splněna rovnost:
.Zejména v extrémním případě, kdy jediným regresorem je konstanta, zjistíme, že odhad OLS jednoho parametru (samotná konstanta) se rovná střední hodnotě vysvětlované proměnné. To znamená, že aritmetický průměr, známý pro své dobré vlastnosti ze zákonů velkých čísel, je také odhadem nejmenších čtverců - splňuje kritérium pro minimální součet čtverců odchylek od něj.
Nejjednodušší speciální případyV případě párové lineární regrese , kdy se odhaduje lineární závislost jedné proměnné na druhé, jsou výpočetní vzorce zjednodušeny (obejdete se bez maticové algebry). Soustava rovnic má tvar:
.Odtud je snadné najít odhady koeficientů:
Ačkoli jsou obecně preferovány konstantní modely, v některých případech je z teoretických úvah známo, že konstanta by měla být nulová. Například ve fyzice má vztah mezi napětím a proudem tvar ; měření napětí a proudu je nutné odhadnout odpor. V tomto případě mluvíme o modelu . V tomto případě máme místo soustavy rovnic jedinou rovnici
.
Vzorec pro odhad jednoho koeficientu má tedy tvar
.
Pokud jsou data aproximována polynomiální regresní funkcí jedné proměnné , pak je možné pomocí vnímání stupňů jako nezávislých faktorů pro každou z nich odhadnout parametry modelu na základě obecného vzorce pro odhad parametrů lineárního modelu. K tomu v obecném vzorci stačí vzít v úvahu, že při takovém výkladu a . Proto maticové rovnice v tomto případě budou mít tvar:
Nejprve si všimneme, že pro lineární modely jsou odhady nejmenších čtverců lineárními odhady, jak vyplývá z výše uvedeného vzorce. Pro nezaujaté odhady OLS je nutné a postačující splnit nejdůležitější podmínku regresní analýzy : matematické očekávání náhodné chyby , podmíněné faktory, musí být rovno nule. Tato podmínka je splněna zejména tehdy, jestliže
První podmínku pro modely s konstantou lze považovat za vždy splněnou, protože konstanta přebírá nenulové matematické očekávání chyb (proto jsou obecně preferovány modely s konstantou).
Druhá podmínka – podmínka exogenních faktorů – je zásadní. Pokud tato vlastnost není splněna, pak můžeme předpokládat, že téměř jakékoli odhady budou extrémně neuspokojivé: nebudou ani konzistentní (to znamená, že ani velmi velké množství dat v tomto případě neumožňuje získat kvalitativní odhady). V klasickém případě se silněji předpokládá determinismus faktorů, na rozdíl od náhodné chyby, která automaticky znamená, že exogenní podmínka je splněna. V obecném případě pro konzistenci odhadů stačí splnit podmínku exogenity spolu s konvergencí matice k nějaké nesingulární matici s nárůstem velikosti vzorku do nekonečna.
Aby byly kromě konzistence a nestrannosti efektivní i odhady (obvyklých) nejmenších čtverců (nejlepší ve třídě lineárních nezkreslených odhadů), musí být splněny další vlastnosti náhodné chyby:
Tyto předpoklady mohou být formulovány pro kovarianční matici vektoru náhodných chyb .
Lineární model, který takové podmínky splňuje, se nazývá klasický . LLS odhady pro klasickou lineární regresi jsou nezkreslené , konzistentní a nejúčinnější odhady ve třídě všech lineárních nestranných odhadů ). Jak je snadné ukázat, kovarianční matice vektoru odhadů koeficientů se bude rovnat:
.
Účinnost znamená, že tato kovarianční matice je „minimální“ (jakákoli lineární kombinace odhadů koeficientů a zejména samotné odhady koeficientů mají minimální rozptyl), to znamená, že ve třídě lineárních nezkreslených odhadů jsou nejlepší odhady OLS. . Diagonální prvky této matice, rozptyly odhadů koeficientů, jsou důležitými parametry pro kvalitu získaných odhadů. Není však možné vypočítat kovarianční matici, protože rozptyl náhodné chyby není znám. Lze dokázat, že nestranný a konzistentní (pro klasický lineární model) odhad rozptylu náhodných chyb je hodnota:
.
Dosazením této hodnoty do vzorce pro kovarianční matici získáme odhad kovarianční matice. Výsledné odhady jsou rovněž nezaujaté a konzistentní . Důležité také je, že odhad rozptylu chyb (a potažmo rozptylů koeficientů) a odhady parametrů modelu jsou nezávislé náhodné veličiny, což umožňuje získat testovací statistiku pro testování hypotéz o modelových koeficientech.
Je třeba poznamenat, že pokud nejsou splněny klasické předpoklady, odhady parametrů nejmenších čtverců nejsou nejúčinnějšími odhady (zůstávají nezaujaté a konzistentní ). Odhad kovarianční matice se však ještě více zhoršuje: stává se neobjektivní a nekonzistentní . To znamená, že statistické závěry o kvalitě zkonstruovaného modelu mohou být v tomto případě krajně nespolehlivé. Jedním ze způsobů, jak tento problém vyřešit, je použití speciálních odhadů kovarianční matice, které jsou konzistentní při porušení klasických předpokladů ( standardní chyby ve formě White a standardní chyby ve formě Newey-West ). Dalším přístupem je použití tzv. zobecněných nejmenších čtverců .
Metoda nejmenších čtverců umožňuje široké zobecnění. Místo minimalizace součtu čtverců reziduí lze minimalizovat nějakou pozitivně-definitivní kvadratický tvar reziduálního vektoru , kde je nějaká symetrická pozitivně-definitivní matice váhy. Obyčejné nejmenší čtverce jsou speciálním případem tohoto přístupu, kdy je matice váhy úměrná matici identity. Jak známo, existuje rozklad pro symetrické matice (nebo operátory) . Zadaný funkcionál tedy může být reprezentován následovně: , to znamená, že tento funkcionál může být reprezentován jako součet druhých mocnin některých transformovaných "zbytků". Můžeme tedy rozlišit třídu metod nejmenších čtverců - LS-metody (Least Squares).
Bylo prokázáno (Aitkenův teorém), že pro zobecněný lineární regresní model (ve kterém nejsou kladena žádná omezení na kovarianční matici náhodných chyb) jsou nejúčinnější (ve třídě lineárních nestranných odhadů) odhady tzv. . zobecněné nejmenší čtverce (GLS, GLS - Generalized Least Squares) - LS-metoda s váhovou maticí rovnou inverzní kovarianční matici náhodných chyb: .
Lze ukázat, že vzorec pro GLS-odhady parametrů lineárního modelu má tvar
.
Kovarianční matice těchto odhadů se bude rovnat
.
Ve skutečnosti podstata OLS spočívá v určité (lineární) transformaci (P) původních dat a aplikaci obvyklých nejmenších čtverců na transformovaná data. Účelem této transformace je, že u transformovaných dat náhodné chyby již splňují klasické předpoklady.
V případě diagonální váhové matice (a potažmo kovarianční matice náhodných chyb) máme tzv. vážené nejmenší čtverce. V tomto případě je vážený součet čtverců reziduí modelu minimalizován, to znamená, že každé pozorování obdrží "váhu", která je nepřímo úměrná rozptylu náhodné chyby v tomto pozorování: . Ve skutečnosti jsou data transformována vážením pozorování (dělením částkou úměrnou předpokládané směrodatné odchylce náhodných chyb) a na vážená data jsou aplikovány normální nejmenší čtverce.
![]() |
|
---|---|
V bibliografických katalozích |
Nejmenší čtverce a regresní analýza | |||||||||
---|---|---|---|---|---|---|---|---|---|
Výpočetní statistika |
| ||||||||
Korelace a závislost |
| ||||||||
Regresní analýza |
| ||||||||
Regrese jako statistický model |
| ||||||||
Rozklad rozptylu |
| ||||||||
Modelová studie |
| ||||||||
Předpoklady |
| ||||||||
Plánování experimentů |
| ||||||||
Numerická aproximace | |||||||||
Aplikace |
|