Binární výběrový model

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 9. prosince 2016; kontroly vyžadují 5 úprav .

Model binární volby je model závislosti binární proměnné (nabývající pouze dvou hodnot - 0 a 1) na množině faktorů používaných v ekonometrii . Konstrukce běžného lineárního modelu pro takové závislé proměnné je teoreticky nesprávná, protože podmíněné očekávání takových proměnných se rovná pravděpodobnosti , že závislá proměnná nabude hodnoty 1, a lineární model umožňuje mimo jiné záporné hodnoty. a hodnoty nad 1 (nehledě na to, že pravděpodobnost musí být od 0 do 1). Proto se běžně používají některé kumulativní distribuční funkce. Nejčastěji se používá normální distribuce ( probit ), logistická distribuce ( logit), Gompertzovo rozdělení (gompit).

Esence modelu

Nechť je proměnná binární, to znamená, že může nabývat pouze dvou hodnot, o kterých se pro jednoduchost předpokládá, že jsou rovné a . Může to například znamenat přítomnost / nepřítomnost jakýchkoli podmínek, úspěch nebo neúspěch něčeho, odpověď je ano / ne v průzkumu atd. Nechť existuje také vektor regresorů (faktorů) , které ovlivňují . $Y$ $jeden$ $0$ $Y$ $X$ $Y$

Regresní model se zabývá faktorově podmíněným očekáváním závislé proměnné, které se v tomto případě rovná pravděpodobnosti, že se závislá proměnná rovná 1. Definicí matematického očekávání a zohledněním pouze dvou možných hodnot totiž , my máme:

E(Y\mid X=x)=1\cdot P(Y=1\mid X=x)+0\cdot P(Y=0\mid X=x)=P(Y=1\mid X=x)=p(x)

V tomto ohledu je použití například standardního lineárního regresního modelu teoreticky nesprávné, už jen proto, že pravděpodobnost ze své podstaty nabývá omezených hodnot od 0 do 1. V tomto ohledu je rozumné modelovat pomocí integrální funkce určitých rozdělení. $y=x^{T}b+\varepsilon$ $p(x)$

Obvykle se předpokládá, že existuje nějaká skrytá (nepozorovaná) "obyčejná" proměnná , v závislosti na jejích hodnotách nabývá pozorovaná proměnná hodnotu 0 nebo jedna: $Y^{*}$ $Y$

Y={\begin{cases}1,Y^{*}>0\\0,Y^{*}<0\end{cases))

Předpokládá se, že latentní proměnná závisí na faktorech ve smyslu obvyklé lineární regrese , kde má náhodná chyba rozdělení . Pak $X$ $y^{*}=x^{T}b+\varepsilon$ $F$

$p(x)=P(Y^{*}>0|X=x)=P(x^{T}b+\varepsilon >0)=P(\varepsilon >-x^{T}b) =1-F(-x^{T}b)$

Pokud je rozdělení symetrické, pak můžeme psát

$p(x)=F(x^{T}b)$

Ekonomický výklad

Dalším odůvodněním je použití konceptu užitečnosti alternativ - nikoli pozorovatelné funkce , tedy ve skutečnosti dvou funkcí , respektive pro dvě alternativy. Je logické předpokládat, že pokud je pro dané hodnoty faktorů užitečnost jedné alternativy větší než užitečnost druhé, vybere se první a naopak. V tomto ohledu je rozumné zvážit funkci rozdílu užitku alternativ . Pokud je větší než nula, zvolí se první varianta, pokud je menší nebo rovna nule, pak druhá. Rozdílová funkce užitku zde tedy hraje roli velmi skryté proměnné. Přítomnost náhodné chyby v užitných vzorech umožňuje vzít v úvahu neabsolutní determinismus výběru (přinejmenším nedeterminovanost daným souborem faktorů, ačkoli prvek náhodnosti výběru existuje pro jakýkoli soubor faktory). $U(y,x)$ $U_{1}(x)=x^{T}b_{1}+\varepsilon _{1}$ $U_{0}(x)=x^{T}b_{0}+\varepsilon _{0}$ $\Delta U(x)=U_{1}(x)-U_{0}(x)=x^{T}(b_{1}-b_{0})+(\varepsilon _{1} -\varepsilon _{0})=x^{T}b+\varepsilon$

Distribuční modely

Probit . Probitový modelpoužívá kumulativní funkci standardního normálního rozdělení: $F$ $\Phi$

p(x)=1-\Phi (-x^{T}b)=\Phi (x^{T}b)

Logit . Logit model využívá CDF logistické distribuce:

p(x)=1-e^{-x^{T}b}/(1+e^{-x^{T}b})=e^{x^{T}b}/( 1+e^{x^{T}b})

Gompit . Používá se rozdělení extrémních hodnot - Gompertzovo rozdělení:

p(x)=1-(1-e^{e^{-x^{T}b)))=e^{e^{-x^{T}b))

Odhad parametru

Odhad se obvykle provádí metodou maximální věrohodnosti . Nechť existuje vzorek objemu faktorů a závislé proměnné . Pro dané číslo pozorování použijte index . Pravděpodobnost získání hodnoty v pozorování lze modelovat následovně: $n$ $X$ $Y$ $t$ $t$ $y_{t}$

P(Y=y_{t})=p^{y_{t}}(x_{t})(1-p(x_{t}))^{1-y_{t}}=(1 -F(-x_{t}^{T}b))^{y_{t}}F^{1-y_{t}}(-x_{t}^{T}b)

Opravdu, jestliže , pak je druhý faktor zjevně roven 1 a první je právě , ale jestliže , pak je první faktor roven jedné a druhý je roven . Předpokládá se, že data jsou nezávislá. Pravděpodobnostní funkci lze tedy získat jako součin výše uvedených pravděpodobností : $y_{t}=1$ $p(x_{t})$ $y_{t}=0$ $(1-p(x_{t}))$

L(b)=\prod _{t=1}^{n}(1-F(-x_{t}^{T}b))^{y_{t))F^{1-y_ {t}}(-x_{t}^{T}b)

V souladu s tím má funkce logaritmické pravděpodobnosti tvar:

l(b)=\sum _{t=1}^{n}y_{t}\ln(1-F(-x_{t}^{T}b))+(1-y_{t })\ln F(-x_{t}^{T}b)

Maximalizace této funkce s ohledem na neznámé parametry umožňuje získat konzistentní , asymptoticky účinné a asymptoticky normální odhady parametrů. To druhé znamená, že:

{\sqrt {n}}({\hat {b}}-b)\ {\xarrowarrow {d}}\ {\mathcal {N}}(0,\,\Omega ^{-1}) ,

kde je asymptotická kovarianční matice odhadů parametrů, která je stanovena standardním způsobem pro metodu maximální věrohodnosti (přes Hessian nebo gradient logaritmické věrohodnostní funkce v optimálním bodě). $\Omega ^{-1}$

Metriky kvality a testování modelů

Statistika poměru pravděpodobnosti

LR=2(l_{1}-l_{0})

kde jsou hodnoty logaritmické pravděpodobnosti odhadovaného modelu a modelu s omezením, ve kterém je konstanta (nezávisí na faktorech x, vyjma konstanty ze sady faktorů). ${\displaystyle l_{1},l_{0))$ $p(x)$

Tato statistika, stejně jako v obecném případě použití metody maximální věrohodnosti, umožňuje testování statistické významnosti modelu jako celku. Pokud je jeho hodnota dostatečně velká (více než kritická hodnota rozdělení , kde je počet faktorů (bez konstanty) modelu), pak lze model považovat za statisticky významný. $\chi ^{2}(k)$ $k$

Používají se také analogy klasického koeficientu determinace , například:

Pseudokoeficient determinace :

R_{pseudo}^{2}=1-{\frac {1}{1+LR/n}}={\frac {LR}{LR+n}}

McFaddenův koeficient determinace ( index poměru pravděpodobnosti ):

{\displaystyle R_{McFadden}^{2}=LRI=1-l_{1}/l_{0))

Oba ukazatele se pohybují od 0 do 1.

Informační kritéria : Akaike informační kritérium (AIC), Bayesian Schwartz informační kritérium (BIC, SC), Hennan-Queen kritérium (HQ).

Je důležité analyzovat podíl správných předpovědí v závislosti na zvoleném klasifikačním prahu (z jaké úrovně pravděpodobnosti se bere hodnota 1). Obvykle se křivka ROC používá k posouzení kvality modelu a indikátorem AUC je plocha pod křivkou ROC.

Hosmer-Lemeshow statistiky (HL, HL, Hosmer-Lemeshow ). Pro výpočet této statistiky je výběrový soubor rozdělen do několika dílčích výběrů, pro každý z nich je určen skutečný podíl dat s hodnotou závislé proměnné 1, tedy ve skutečnosti průměrná hodnota závislé proměnné za dílčí výběr.

p_{j}={\overline {y}}_{j}=\sum _{i=1}^{n_{j}}{y}_{ij}/n_{j}

a předpokládaná střední pravděpodobnost v podskupině

{\overline {\hat {p}}}_{j}=\sum _{i=1}^{n_{j}}{\hat {p}}_{ij}/n_{j}

. Potom se pomocí vzorce určí hodnota statistiky HL

HL=\sum _{j=1}^{J}{\frac {n_{j}(p_{j}-{\overline {\hat {p))}_{j})^{2 }}({\overline {\hat {p}}}_{j}(1-{\overline {\hat {p}}}_{j}})))

Přesné rozdělení této statistiky není známo, ale autoři pomocí simulace zjistili, že je aproximováno rozdělením . $\chi ^{2}(J-2)$

Andrews statistiky (Andrews)

Viz také

Literatura

Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometrics. Počáteční kurz. - M. : Delo, 2007. - 504 s. - ISBN 978-5-7749-0473-0 . .

Nosko V.P. Ekonometrie pro začátečníky (dodatečné kapitoly). – M.: IET, 2005. S. 379.

Greene, William H. (1997) Econometric Analysis, 3. vydání, Prentice-Hall.

Andrews, Donald WK (1988) „Chí-kvadrát diagnostické testy pro ekonometrické modely: teorie“, Econometrica , 56, 1419–1453.

Andrews, Donald WK (1988) „Chí-kvadrát diagnostické testy pro ekonometrické modely: Úvod a aplikace“, Journal of Econometrics, 37, 135–156.

Hosmer, David W. Jr. a Stanley Lemeshow (1989) Applied Logistic Regression, John Wiley & Sons.