V aplikované statistice je metoda nejmenších čtverců (TLS, TLS - anglicky Total Least Squares ) typem regrese s chybami v proměnných , technika modelování dat využívající metodu nejmenších čtverců , která bere v úvahu chyby v obou závislých a v nezávislých proměnných. Metoda je zobecněním Demingovy regrese a ortogonální regrese a lze ji aplikovat na lineární i nelineární modely.
Aproximace dat metodou nejmenších plných čtverců je obecně ekvivalentní nejlepší aproximaci datové matice podle normy Frobenius [1] .
Při modelování dat metodou nejmenších čtverců je ztrátová funkce S minimalizována ,
kde r je vektor odchylky a W je hmotnostní matice. V lineární metodě nejmenších čtverců model obsahuje rovnice, které jsou lineární v parametrech ve vektoru , takže odchylky se počítají podle vzorce
Existuje m pozorování v parametrech vektoru y a n v β pro m > n . X je matice m × n , jejíž prvky jsou buď konstanty nebo funkce nezávislých proměnných x . Hmotnostní matice W je v ideálním případě inverzí k pozorovací matici rozptylu a kovariance y . Předpokládá se, že nezávislé proměnné nemají chyby. Parametry odhadu se zjistí nastavením gradientu na nulu, což vede k rovnici [poznámka 1]
Předpokládejme nyní, že jak x , tak y jsou pozorovány s chybami s maticemi variance-kovariance , resp. V tomto případě je ztrátová funkce zapsána jako
,kde a jsou odchylky pro x a y . Je jasné, že tyto odchylky nemohou být nezávislé a musí mezi nimi být nějaká souvislost. Pokud funkci zapíšeme jako , jsou omezení vyjádřena m podmínkami [2] .
Problém je tedy redukován na minimalizaci ztrátové funkce za m omezení. Problém je vyřešen pomocí Lagrangeových multiplikátorů . Po některých algebraických transformacích [3] dostáváme
nebo alternativně,
Zde M je matice rozptylu-kovariance vztahující se k nezávislým i závislým proměnným.
V případě, že chyby dat nejsou korelovány, jsou všechny matice M a W diagonální. Pak použijeme konstrukci přímky po bodech.
A v tomto případě
který ukazuje, jak je rozptyl v i -tém bodě určen rozptylem nezávislých a závislých proměnných, stejně jako model použitý ke sladění dat. Výraz lze zobecnit poznámkou, že parametrem je sklon čáry.
Výraz tohoto druhu se používá k aproximaci pH titračních dat , když malé chyby v x dávají velké chyby v y v případě velkého sklonu.
Nejprve je třeba poznamenat, že problém MRPK v obecném případě nemá řešení, což se ukázalo již v roce 1980 [4] . Zvažte jednoduchý případ, kdy existuje jedinečné řešení bez jakýchkoli předpokladů.
Výpočet MNPC pomocí singulárního rozkladu hodnot je popsán ve standardních textech [5] . Můžeme vyřešit rovnici
s ohledem na B , kde X je matice m -by- n a Y je matice m -by- k [poznámka 2]
To znamená, že se snažíme najít matici B , která minimalizuje chybové matice R a F pro X a Y , v daném pořadí. To znamená
,kde je rozšířená matice s R a F vedle sebe a je normou matice , druhá odmocnina součtu druhých mocnin všech prvků matice, která je ekvivalentní druhé odmocnině součtu druhých mocnin délek řádků nebo sloupců matice.
To lze přepsat jako
Kde je matice identity. Cílem je najít matici , která redukuje hodnost o k . Definujte jako singulární rozklad rozšířené matice .
,kde V je rozděleno na bloky odpovídající tvarům matic X a Y .
Pomocí Eckart-Yangovy věty je aproximace minimalizující chybovost taková aproximace, že se matice a matice nemění, zatímco nejmenší singulární hodnoty jsou nahrazeny nulami. To znamená, že chceme
takže díky linearitě
Bloky z matic U a Σ můžeme odstranit zjednodušením výrazu na
To dává R a F , takže
Nyní, ne- li degenerovat, což není vždy pravda (všimněte si, že chování PBMC v případě degenerace není zcela jasné), můžeme rovnou vynásobit obě strany tím , že přivedeme spodní blok pravé matice k negativní identitě. matice, která dává [6]
a pak
Implementace v systému GNU Octave :
funkce B = tls ( X,Y ) [ m n ] = velikost ( X ); % n je šířka matice X (X[mxn]) Z = [ XY ] ; %Z je rozšíření X o Y. [ USV ] = svd ( Z , 0 ) ; _ % najdeme [[Singulární rozklad|SVD]] matice Z. VXY = V ( 1 : n , 1 + n : konec ); % Vezmeme blok matice V, skládající se z prvních n řádků a n + 1 posledních sloupců VYY = V ( 1 + n : konec , 1 + n : konec ); % Vezměte pravý dolní blok matice V. B = - VXY / VYY ; konecMetodu řešení výše popsaného problému, která vyžaduje, aby matice nebyla degenerovaná, lze mírně rozšířit o tzv. klasický PBM algoritmus [7] .
Standardní implementace klasického algoritmu PBMC je dostupná na Netlib , viz také články [8] [9] . Všechny moderní implementace, založené například na použití obyčejné metody nejmenších čtverců, aproximují matici (která je v literatuře označována jako ), jak to dělají Van Houffel a Vandewalle. Za zmínku však stojí, že výsledná matice v mnoha případech není řešením PBMC [10] .
Pro nelineární systémy podobné úvahy ukazují, že normální rovnici pro iterační cyklus lze přepsat jako
Pokud nezávislé proměnné nemají žádné chyby, představují odchylky "vertikální" vzdálenost mezi datovým bodem a prokládací křivkou (nebo povrchem). V nejmenších celých čtvercích představují odchylky vzdálenost mezi datovým bodem a prokládací křivkou, měřenou v určitém směru. Ve skutečnosti, pokud jsou obě proměnné měřeny ve stejných jednotkách a chyby obou proměnných jsou stejné, pak odchylka představuje nejkratší vzdálenost od datového bodu k proložení křivky , tj. vektor odchylky je kolmý na tečnu ke křivce. . Z tohoto důvodu se tento typ regrese někdy nazývá bivariační euklidovská regrese [11] nebo ortogonální regrese .
Vážný problém nastává, pokud se proměnné neměří ve stejných jednotkách. Podívejme se nejprve na měření vzdálenosti mezi datovými body a křivkou – jaká by byla jednotka pro vzdálenost? Pokud budeme měřit vzdálenost na základě Pythagorovy věty, je jasné, že budeme muset sčítat jednotky měřené v různých jednotkách, což vede k nesmyslným výsledkům. Pokud změníme měřítko jedné z proměnných, například měříme v gramech než v kilogramech, dostaneme jiné výsledky (jiná křivka). Aby se předešlo tomuto problému nesouměřitelnosti, je někdy navrhováno jejich převedení na bezrozměrné veličiny – to lze nazvat normalizací nebo standardizací. Existují však různé způsoby, jak toho dosáhnout, což vede k neekvivalentním modelům. Jedním přístupem je normalizace se známou (nebo odhadovanou) přesností měření, čímž se minimalizuje Mahalanobisova vzdálenost k bodům na čáře a poskytuje řešení s maximální pravděpodobností . Neznámé přesnosti měření lze zjistit pomocí analýzy rozptylu .
Stručně řečeno, metoda nejmenších plných čtverců nemá vlastnost invariance s ohledem na jednotky měření, tj. není to měřítko invariantní . Pro užitečnost modelu požadujeme, aby tato vlastnost byla splněna. Dalším pokrokem je pochopení, že odchylky (vzdálenosti) naměřené v jiných jednotkách lze kombinovat, pokud se místo sčítání použije násobení. Zvažte aproximaci přímky, pro každý datový bod se součin horizontálních a vertikálních odchylek rovná dvojnásobku plochy trojúhelníku tvořeného segmenty odchylky a lícující přímkou. Volíme přímku, která minimalizuje součet těchto ploch. Nositel Nobelovy ceny Paul Samuelson v roce 1942 dokázal, že ve dvourozměrném případě je tato přímka vyjádřena pouze poměry směrodatných odchylek a korelací koeficientů, které (1) splňují rovnici, pokud jsou pozorování na přímce; (2) ukázat invarianci škály, (3) ukázat invarianci ve výměně proměnných [12] . Tato přímka byla znovu objevena v různých oborech a je známá jako standardizovaná hlavní osa [13] [14] , redukovaná hlavní osa, funkční geometrické průměry [15] , regrese nejmenších čtverců, diagonální regrese a přímka nejmenších oblastí. Tofallis [16] rozšířil tento přístup na práci s více proměnnými.
Nejmenší čtverce a regresní analýza | |||||||||
---|---|---|---|---|---|---|---|---|---|
Výpočetní statistika |
| ||||||||
Korelace a závislost |
| ||||||||
Regresní analýza |
| ||||||||
Regrese jako statistický model |
| ||||||||
Rozklad rozptylu |
| ||||||||
Modelová studie |
| ||||||||
Předpoklady |
| ||||||||
Plánování experimentů |
| ||||||||
Numerická aproximace | |||||||||
Aplikace |
|