Regrese ( lat. regressio - zpětný pohyb, ústup) v teorii pravděpodobnosti a matematické statistice je jednostranný stochastický vztah, který zakládá korespondenci mezi náhodnými proměnnými [1] , tedy matematický výraz , který odráží vztah mezi závisle proměnnou y . a nezávislé proměnné x , za předpokladu , že tento výraz bude mít statistickou významnost . Na rozdíl od čistě funkční závislosti y = f ( x), kdy každá hodnota nezávisle proměnné x odpovídá jedné konkrétní hodnotě veličiny y , s regresním vztahem může stejná hodnota x odpovídat v závislosti na případu různým hodnotám veličiny y . Pokud pro každou hodnotu existují hodnoty y i 1 … y in i hodnoty y , pak závislost aritmetického průměru na a je regresí ve statistickém smyslu tohoto pojmu [2] .
Tento termín poprvé použil ve statistice Francis Galton (1886) v souvislosti se studiem dědičnosti lidských fyzických vlastností. Lidská výška byla brána jako jedna z charakteristik; zatímco bylo zjištěno, že obecně byli synové vysokých otců nepřekvapivě vyšší než synové otců nízkého vzrůstu. Zajímavější bylo, že odchylka ve výšce synů byla menší než odchylka ve výšce otců. Tak se projevila tendence vracet růst synů k průměru ( regrese k průměrnosti ), tedy "regrese". Tato skutečnost byla prokázána výpočtem průměrné výšky synů otců, kteří jsou 56 palců vysocí, výpočtem průměrné výšky synů otců, kteří jsou 58 palců vysocí, atd . , a podél osy x - hodnoty průměrné výšky otců. Body (přibližně) leží na přímce s kladným sklonem menším než 45°; je důležité, aby regrese byla lineární .
Předpokládejme, že existuje vzorek z bivariačního rozdělení dvojice náhodných proměnných ( X, Y ). Přímka v rovině ( x, y ) byla selektivní analogií funkce
V teorii pravděpodobnosti se pod pojmem "regrese" rozumí tato funkce, která není ničím jiným než podmíněným matematickým očekáváním náhodné veličiny Y , za předpokladu, že jiná náhodná veličina X nabyla hodnoty x . Pokud má například dvojice ( X, Y ) dvourozměrné normální rozdělení s E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor ( X, Y )=ρ, pak lze ukázat, že podmíněné rozdělení Y pro X = x bude také normální s očekáváním rovným
a disperze
V tomto příkladu je regrese Y na X lineární funkce . Jestliže regrese Y na X není lineární, pak dané rovnice jsou lineární aproximací skutečné regresní rovnice.
Obecně platí, že regrese jedné náhodné proměnné do druhé nemusí být nutně lineární. Není také nutné se omezovat na pár náhodných proměnných. Problémy statistické regrese jsou spojeny s určením obecného tvaru regresní rovnice, konstruováním odhadů neznámých parametrů obsažených v regresní rovnici a testováním statistických hypotéz o regresi [3] . Tyto problémy jsou posuzovány v rámci regresní analýzy .
Jednoduchým příkladem regrese Y na X je vztah mezi Y a X , který je vyjádřen vztahem: Y = u ( X ) + ε, kde u ( x )= E ( Y | X = x ), a náhodný proměnné X a ε jsou nezávislé. Tato reprezentace je užitečná, když je plánován experiment ke studiu funkčního vztahu y = u ( x ) mezi nenáhodnými proměnnými y a x . V praxi jsou regresní koeficienty v rovnici y = u ( x ) obvykle neznámé a jsou odhadovány z experimentálních dat.
Závislost y na x znázorňujeme ve formě lineárního modelu prvního řádu:
Budeme předpokládat, že hodnoty x jsou určeny bez chyby, β 0 a β 1 jsou parametry modelu a ε je chyba, jejíž rozdělení se řídí normálním zákonem s nulovou střední a konstantní odchylkou σ 2 . Hodnoty parametrů β nejsou předem známy a je nutné je určit ze souboru experimentálních hodnot ( x i , y i ), i =1, …, n . Můžeme tedy napsat:
kde znamená hodnotu y predikovanou modelem pro dané x , b 0 a b 1 jsou vzorové odhady parametrů modelu. Stanovme také — hodnotu aproximační chyby pro t. pozorování.
Pro výpočet parametrů modelu z experimentálních dat se často používají různé programy pro statistické zpracování dat. Pro tento jednoduchý případ však není těžké sepsat podrobné vzorce [4] [5] .
Metoda nejmenších čtverců dává následující vzorce pro výpočet parametrů tohoto modelu a jejich odchylek:
zde jsou průměry definovány jako obvykle: a s e 2 označuje zbytkovou odchylku regrese, což je odhad rozptylu σ 2 , pokud je model správný.
Směrodatné chyby regresních koeficientů se používají stejným způsobem jako směrodatná chyba průměru – k nalezení intervalů spolehlivosti a testování hypotéz. Studentovo kritérium používáme např. k testování hypotézy, že regresní koeficient je roven nule, tedy že je pro model nevýznamný. Statistika studentů: . Pokud je pravděpodobnost pro získanou hodnotu a n − 2 stupňů volnosti dostatečně malá, například <0,05, hypotéza se zamítá. Naopak, pokud není důvod nulovou hypotézu zamítat, řekněme, je důvod přemýšlet o existenci kýžené regrese, alespoň v této podobě, nebo o sběru dalších pozorování. Pokud je volný člen roven nule , pak přímka prochází počátkem a odhad sklonu je roven
,a jeho standardní chyba
Obvykle nejsou známy skutečné hodnoty regresních koeficientů β 0 a β 1 . Známé jsou pouze jejich odhady b 0 a b 1 . Jinými slovy, skutečná přímka regrese může jít jinak než ta, která je postavena na vzorových datech. Můžete vypočítat oblast spolehlivosti pro regresní přímku. Pro jakoukoli hodnotu x jsou odpovídající hodnoty y normálně rozděleny. Průměr je hodnota regresní rovnice . Nejistotu jeho odhadu charakterizuje standardní regresní chyba:
Nyní můžete vypočítat -procentní interval spolehlivosti pro hodnotu regresní rovnice v bodě x :
,kde t (1−α/2, n − 2) je t - hodnota Studentova rozdělení. Obrázek ukazuje 10bodovou regresní přímku (plné tečky) a také oblast 95% spolehlivosti regresní přímky, která je ohraničena tečkovanými čarami. S 95% pravděpodobností lze tvrdit, že skutečná čára je někde uvnitř této oblasti. Nebo jinak, pokud shromáždíme podobné soubory dat (označené kroužky) a postavíme na nich regresní čáry (označené modře), pak v 95 případech ze 100 tyto čáry neopustí oblast spolehlivosti. (Pro vizualizaci klikněte na obrázek) Všimněte si, že některé body jsou mimo oblast spolehlivosti. To je zcela přirozené, protože mluvíme o oblasti spolehlivosti regresní přímky, nikoli o hodnotách samotných. Rozptyl hodnot je součtem rozptylu hodnot kolem regresní přímky a nejistoty polohy této přímky samotné, konkrétně:
Zde m je násobek měření y pro dané x . A -procentní interval spolehlivosti (interval předpovědi) pro průměr hodnot m y by byl:
.Na obrázku je tato 95% oblast spolehlivosti při m = 1 omezena plnými čarami. 95 % všech možných hodnot y ve studovaném rozsahu hodnot x spadá do této oblasti .
Dá se rigorózně dokázat, že pokud je podmíněné očekávání nějaké dvourozměrné náhodné veličiny ( X, Y ) lineární funkcí , pak toto podmíněné očekávání musí být reprezentováno ve tvaru , kde E ( X )=μ 1 , E ( Y )=μ 2 , var ( X ) = σ 1 2 , var ( Y ) = σ 2 2 , cor ( X, Y )=ρ.
Navíc pro výše zmíněný lineární model , kde a jsou nezávislé náhodné veličiny a má nulové očekávání (a libovolné rozdělení), můžeme dokázat, že . Potom pomocí výše uvedené rovnosti lze získat vzorce pro a :
.
Pokud je odněkud a priori známo, že množina náhodných bodů v rovině je generována lineárním modelem, ale s neznámými koeficienty a , lze získat bodové odhady těchto koeficientů pomocí uvedených vzorců. K tomu je třeba namísto matematických očekávání, rozptylů a korelací náhodných veličin X a Y dosadit do těchto vzorců jejich nezkreslené odhady. Získané odhadové vzorce se přesně shodují se vzorci odvozenými na základě metody nejmenších čtverců.
Slovníky a encyklopedie |
---|