Binární výběrový model

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 9. prosince 2016; kontroly vyžadují 5 úprav .

Model binární volby je model závislosti binární proměnné (nabývající pouze dvou hodnot - 0 a 1) na množině faktorů  používaných v ekonometrii . Konstrukce běžného lineárního modelu pro takové závislé proměnné je teoreticky nesprávná, protože podmíněné očekávání takových proměnných se rovná pravděpodobnosti , že závislá proměnná nabude hodnoty 1, a lineární model umožňuje mimo jiné záporné hodnoty. ​​a hodnoty nad 1 (nehledě na to, že pravděpodobnost musí být od 0 do 1). Proto se běžně používají některé kumulativní distribuční funkce. Nejčastěji se používá normální distribuce ( probit ), logistická distribuce ( logit), Gompertzovo rozdělení (gompit).

Esence modelu

Nechť je proměnná binární, to znamená, že může nabývat pouze dvou hodnot, o kterých se pro jednoduchost předpokládá, že jsou rovné a . Může to například znamenat přítomnost / nepřítomnost jakýchkoli podmínek, úspěch nebo neúspěch něčeho, odpověď je ano / ne v průzkumu atd. Nechť existuje také vektor regresorů (faktorů) , které ovlivňují .

Regresní model se zabývá faktorově podmíněným očekáváním závislé proměnné, které se v tomto případě rovná pravděpodobnosti, že se závislá proměnná rovná 1. Definicí matematického očekávání a zohledněním pouze dvou možných hodnot totiž , my máme:

V tomto ohledu je použití například standardního lineárního regresního modelu teoreticky nesprávné, už jen proto, že pravděpodobnost ze své podstaty nabývá omezených hodnot od 0 do 1. V tomto ohledu je rozumné modelovat pomocí integrální funkce určitých rozdělení.

Obvykle se předpokládá, že existuje nějaká skrytá (nepozorovaná) "obyčejná" proměnná , v závislosti na jejích hodnotách nabývá pozorovaná proměnná hodnotu 0 nebo jedna:

Předpokládá se, že latentní proměnná závisí na faktorech ve smyslu obvyklé lineární regrese , kde má náhodná chyba rozdělení . Pak

Pokud je rozdělení symetrické, pak můžeme psát

Ekonomický výklad

Dalším odůvodněním je použití konceptu užitečnosti alternativ - nikoli pozorovatelné funkce , tedy ve skutečnosti dvou funkcí , respektive pro dvě alternativy. Je logické předpokládat, že pokud je pro dané hodnoty faktorů užitečnost jedné alternativy větší než užitečnost druhé, vybere se první a naopak. V tomto ohledu je rozumné zvážit funkci rozdílu užitku alternativ . Pokud je větší než nula, zvolí se první varianta, pokud je menší nebo rovna nule, pak druhá. Rozdílová funkce užitku zde tedy hraje roli velmi skryté proměnné. Přítomnost náhodné chyby v užitných vzorech umožňuje vzít v úvahu neabsolutní determinismus výběru (přinejmenším nedeterminovanost daným souborem faktorů, ačkoli prvek náhodnosti výběru existuje pro jakýkoli soubor faktory).

Distribuční modely

Probit . Probitový modelpoužívá kumulativní funkci standardního normálního rozdělení:

Logit . Logit model využívá CDF logistické distribuce:

Gompit . Používá se rozdělení extrémních hodnot - Gompertzovo rozdělení:

Odhad parametru

Odhad se obvykle provádí metodou maximální věrohodnosti . Nechť existuje vzorek objemu faktorů a závislé proměnné . Pro dané číslo pozorování použijte index . Pravděpodobnost získání hodnoty v pozorování lze modelovat následovně:

Opravdu, jestliže , pak je druhý faktor zjevně roven 1 a první je právě , ale jestliže , pak je první faktor roven jedné a druhý je roven . Předpokládá se, že data jsou nezávislá. Pravděpodobnostní funkci lze tedy získat jako součin výše uvedených pravděpodobností :

V souladu s tím má funkce logaritmické pravděpodobnosti tvar:

Maximalizace této funkce s ohledem na neznámé parametry umožňuje získat konzistentní , asymptoticky účinné a asymptoticky normální odhady parametrů. To druhé znamená, že:

kde  je asymptotická kovarianční matice odhadů parametrů, která je stanovena standardním způsobem pro metodu maximální věrohodnosti (přes Hessian nebo gradient logaritmické věrohodnostní funkce v optimálním bodě).

Metriky kvality a testování modelů

,

kde  jsou hodnoty logaritmické pravděpodobnosti odhadovaného modelu a modelu s omezením, ve kterém je konstanta (nezávisí na faktorech x, vyjma konstanty ze sady faktorů).

Tato statistika, stejně jako v obecném případě použití metody maximální věrohodnosti, umožňuje testování statistické významnosti modelu jako celku. Pokud je jeho hodnota dostatečně velká (více než kritická hodnota rozdělení , kde je počet faktorů (bez konstanty) modelu), pak lze model považovat za statisticky významný.

Používají se také analogy klasického koeficientu determinace , například:

Oba ukazatele se pohybují od 0 do 1.

Je důležité analyzovat podíl správných předpovědí v závislosti na zvoleném klasifikačním prahu (z jaké úrovně pravděpodobnosti se bere hodnota 1). Obvykle se křivka ROC používá k posouzení kvality modelu a indikátorem AUC je plocha pod křivkou ROC.

a předpokládaná střední pravděpodobnost v podskupině . Potom se pomocí vzorce určí hodnota statistiky HL

Přesné rozdělení této statistiky není známo, ale autoři pomocí simulace zjistili, že je aproximováno rozdělením .

Viz také

Literatura