Probitová regrese

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 7. října 2019; kontroly vyžadují 3 úpravy .

Probitová regrese ( probit model , angl. probit ) je statistický (nelineární) model a metoda pro analýzu závislosti kvalitativních (především binárních) proměnných na různých faktorech, založených na normálním rozdělení (na rozdíl od např. podobná logitová regrese , která je založena na logistickém rozdělení ). V ekonomii ( ekonometrie ) se probitové modely (spolu s logitem, gompitem atd.) používají v modelech binární volby nebo v modelech vícenásobné volby mezi různými alternativami, pro modelování selhání společností , v životním pojištění - pro odhadování pravděpodobnosti úmrtí v závislosti na na věku a pohlaví atd. V toxikologii se probitová regrese používá k posouzení vlivu dávky nebo koncentrace určitých látek na biologické objekty.

Probitový model umožňuje odhadnout pravděpodobnost, že analyzovaná (závislá) proměnná nabude hodnoty 1 pro dané hodnoty faktoru (tj. je to odhad podílu „jednotek“ pro danou hodnotu faktoru). V probitovém modelu je probitová funkce pravděpodobnosti modelována jako lineární kombinace faktorů (včetně konstanty). Probitová funkce se nazývá funkce inverzní ke kumulativní funkci (CDF) standardního normálního rozdělení, tj. funkce, která určuje kvantil standardního normálního rozdělení pro danou pravděpodobnost . $x_{q}=\Phi ^{-1}(q)$

Termín " probit " jako odvozenina z angličtiny. Jednotku pravděpodobnosti navrhl (poprvé použil) Chester Ittner Bliss [1899-1979]) [1] ve svém článku o kvantitativní analýze letálního účinku jedů na příkladu účinku nikotinu na mšici oxalovou ( Aphis rumicis L. ) [1] . Od té doby je metoda probit analýzy obzvláště populární v toxikologii . Samotné použití funkce normální distribuce k popisu vztahu „dávka-účinek“ pochází od anglického matematika J. W. Trevana, který ukázal, že intenzita buněčné odpovědi na danou dávku lékové substance se řídí Gaussovou distribucí [2]. .

Esence modelu

Probitový model je speciálním případem modelu binární volby , který používá normální rozdělení. Totiž nechť je závislá proměnná binární, to znamená, že může nabývat pouze dvou hodnot, o kterých se pro jednoduchost předpokládá a . Může to například znamenat přítomnost / nepřítomnost jakýchkoli podmínek, úspěch nebo neúspěch něčeho, odpověď je ano / ne v průzkumu atd. Nechť existuje také vektor regresorů (faktorů) , které ovlivňují . Probitový model předpokládá, že pravděpodobnost toho, co je určeno normálním rozdělením, tedy probitový model je: $Y$ $jeden$ $0$ $Y$ $X$ $Y$ $Y=1$

p(x)=P(Y=1\mid X=x)=\Phi (x^{T}b)

kde je kumulativní distribuční funkce ( CDF ) standardního normálního rozdělení, jsou neznámé parametry, které mají být odhadnuty. $\Phi$ $b$

Použití standardního normálního rozdělení neomezuje obecnost modelu, protože možný nenulový průměr je brán v úvahu v konstantě, která je nutně přítomna mezi faktory, a možný nejednotkový rozptyl je brán v úvahu kvůli na příslušnou normalizaci všech koeficientů b.

Stejně jako v obecném případě modelu binární volby je model založen na předpokladu, že existuje nějaká skrytá (nepozorovaná) proměnná , v závislosti na hodnotách, kterých pozorovaná proměnná nabývá hodnoty nebo : $Y^{*}$ $Y$ $0$ $jeden$

Y={\begin{cases}1,Y^{*}>0\\0,Y^{*}<0\end{cases))

Předpokládá se, že latentní proměnná závisí na faktorech ve smyslu běžné lineární regrese , kde náhodná chyba má v tomto případě standardní normální rozdělení . Pak $X$ $y^{*}=x^{T}b+\varepsilon$ $N(0,1)$

$p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+\varepsilon >0)=P(\varepsilon >-x^{T}b) =1-\Phi (-x^{T}b)=\Phi (x^{T}b)$

Poslední rovnost vyplývá ze symetrie normálního rozdělení.

Model lze také doložit užitečností alternativ - nepozorovatelnou funkcí , tedy ve skutečnosti dvěma funkcemi , respektive pro dvě alternativy. Funkce rozdílu užitku alternativ zde hraje roli oné velmi skryté proměnné. $U(y,x)$ $U_{1}(x)=x^{T}b_{1}+\varepsilon _{1}$ $U_{0}(x)=x^{T}b_{0}+\varepsilon _{0}$

Odhad parametru

Odhad se obvykle provádí metodou maximální věrohodnosti . Nechť existuje vzorek objemu faktorů a závislé proměnné . Pro dané číslo pozorování použijte index . Log-věrohodnostní funkce má tvar: $n$ $X$ $Y$ $t$

l(b)=\sum _{t=1}^{n}(y_{t}\ln \Phi (x_{t}^{T}b)+(1-y_{t})\ ln(1-\Phi (x_{t}^{T}b))

Maximalizace této funkce s ohledem na neznámé parametry umožňuje získat konzistentní , asymptoticky účinné a asymptoticky normální odhady parametrů. To druhé znamená, že:

{\sqrt {n}}({\hat {b}}-b)\ {\xarrowarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}) ,

kde je asymptotická kovarianční matice odhadů parametrů, která je určena standardní metodou pro metodu maximální věrohodnosti (prostřednictvím Hessovy nebo gradientu logaritmické pravděpodobnostní funkce v optimálním bodě): $\Omega ^{-1}$

\Omega =\operatorname {E} {\bigg [}{\frac {\varphi ^{2}(X'b)}{\Phi (X'b)(1-\Phi (X'b) )))XX'{\bigg ]}

kde je funkce hustoty pravděpodobnosti ( PDF ) standardního normálního rozdělení . $\varphi$

Matice je neznámá a používá se její konzistentní odhad : $\Omega$

{\hat {\Omega }}={\frac {1}{n}}\sum _{t=1}^{n}{\bigg [}{\frac {\varphi ^{2}( x_{t}^{T}b)}{\Phi (x_{t}^{T}b)(1-\Phi (x_{t}^{T}b))))x_{t}x_{ t}^{T}{\bigg ]}

Vyhodnocení modelu se obvykle provádí ve specializovaných (statistických, ekonometrických ) softwarových produktech, např. Statistica , EViews, Matrixer, R [3] , SPSS atd. [4] , i když „ruční“ vyhodnocení je možné např. MS Office Excel pomocí vestavěného „Hledání řešení“ k maximalizaci funkce pravděpodobnosti logování.

Metriky kvality a testování modelů

K posouzení kvality konstruované probitové regrese se používají standardní statistiky pro modely binární volby :

Statistika poměru pravděpodobnosti ( ). $LR$

Pseudokoeficient determinace ( $R_{pseudo}^{2})$

McFaddenův koeficient určení ( index poměru pravděpodobnosti )( ) $R_{McFadden}^{2},LRI$

Informační kritéria Akaike, Schwartz, Hannan-Quinn ( ). $AIC,BIC(SC),HQ$

Statistiky Hosmer-Lemeshow (Hosmer-Lemeshow, ) $HL$ .

Andrews statistiky (Andrews)

Je důležité analyzovat podíl správných předpovědí. Zejména je analyzován podíl správných a (nebo) nesprávných prognóz pro hodnotu každé z hodnot závislé proměnné (0 a 1).

Příklady

Toxikologie

Uvažujme model probit na příkladu působení insekticidu na hmyz [5] [6] . Závislá binární proměnná je proměnná, která má hodnotu 1, pokud hmyz zemřel, a 0 v opačném případě. U vzorku hmyzu reakce některého hmyzu na insekticid nezávisí na reakci ostatních. „Měřič“ dávky působí jako faktor modelu , kde je dávka insekticidu. Pravděpodobnost, že hmyz náhodně vybraný z populace zemře v daném čase, se rovná $n$ $x=\lg(d)$ $d$

p(x)=\Phi (\alpha +\beta x)

Pokud jsou známy parametry modelu a (označujeme odhady , resp.), pak se z rovnice zjistí úroveň dávky , při které určité procento hmyzu zemře $\alpha$ $\beta$ $A$ $b$ ${\displaystyle x_{p))$

a+bx_{p}=\Phi ^{-1}(p)=q_{p}\Šipka doprava x_{p}=(q_{p}-a)/b

kde je kvantil hladiny standardního normálního rozdělení. ${\displaystyle q_{p))$ $p$

Zejména pro úroveň dávky, při které zemře 50 % hmyzu, . Tato hodnota se v toxikologii běžně označuje jako LD 50 . $x_{50}$ ${\displaystyle \lg d_{50}=x_{50}=-a/b\Rightarrow d_{50}=10^{-a/b))$

Můžete také vytvořit přibližný interval spolehlivosti pro následující: . Rozptyl lze odhadnout přibližně takto: ${\displaystyle x_{p))$ $x_{p}\pm 2\sigma _{x_{p))$ $\sigma _{x_{p}}^{2}$

\sigma _{x_{p}}^{2}=(\sigma _{a}^{2}+2x_{p}\sigma _{ab}+x_{p}^{2}\sigma _{b}^{2})/b^{2}

kde je odhad rozptylu odhadů parametrů modelu, je odhad kovariance mezi odhady parametrů. ${\displaystyle \sigma _{a}^{2},\sigma _{b}^{2))$ $\sigma _{{ab}}$

Přesnější interval spolehlivosti lze odhadnout z Fellerova teorému , podle kterého jsou 95% meze spolehlivosti kořeny kvadratické rovnice ${\displaystyle x_{p))$ $\lambda _{1}$ $\lambda _{2}$

\lambda ^{2}(b^{2}-t^{2}\sigma _{b}^{2})-2\lambda (b^{2}x_{p}+t^{ 2}\sigma _{ab})+(b^{2}x_{p}^{2}-t^{2}\sigma _{a}^{2})=0

kde je 95% Studentův t-distribuční bod. $t=t_{95}$

Variace a zobecnění

V praxi nastávají situace, kdy je nutné zkoumat nikoli dvě alternativy, ale více alternativ. Pokud jsou tyto alternativy neuspořádané, pak se hovoří o multinominálním probitovém modelu . V případě objednaných alternativ (například 5-ti bodové hodnocení kvality služby nebo produktu) se hovoří o ordinálním nebo objednaném ( objednaném ) probitovém modelu .

Viz také

Poznámky

↑ 12 Blaženost CI. The method of probits (anglicky) // Science. - 1934. - Sv. 79 , č. 2037 . - str. 38-39 . - doi : 10.1126/science.79.2037.38 . — PMID 17813446 . — .
↑ Trevan, JW 1927. Chyba stanovení toxicity. Proč. Royal Soc. 101B: 483-514. citováno v Albert A. Selektivní toxicita. Fyzikální a chemické základy terapie. Za. z angličtiny. Ve 2 svazcích. T. 1. - M: Medicína, 1989, S. 247. ISBN 5-225-01519-0
↑ Příklady analýzy dat R - Probitová regrese . Získáno 3. srpna 2012. Archivováno z originálu dne 29. listopadu 2012. (neurčitý)
↑ cs:Comparison_of_statistical_packages#Regrese
↑ Finney, DJ Probit Analysis (3. vydání ) . - Cambridge University Press, Cambridge, UK, 1971. - ISBN 052108041X .
↑ Příručka aplikované statistiky. Ve 2 dílech T. 1: Per. z angličtiny. / Ed. E. Lloyd, W. Lederman, Yu. N. Tyurin. — M.: Finance a statistika, 1989. — 510 s. — ISBN 5-279-00245-3

Literatura

Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometrics. Počáteční kurz. - M. : Delo, 2007. - 504 s. - ISBN 978-5-7749-0473-0 . .

Nosko V.P. Ekonometrie pro začátečníky (dodatečné kapitoly). – M.: IET, 2005. S. 379.