Model binární volby je model závislosti binární proměnné (nabývající pouze dvou hodnot - 0 a 1) na množině faktorů používaných v ekonometrii . Konstrukce běžného lineárního modelu pro takové závislé proměnné je teoreticky nesprávná, protože podmíněné očekávání takových proměnných se rovná pravděpodobnosti , že závislá proměnná nabude hodnoty 1, a lineární model umožňuje mimo jiné záporné hodnoty. a hodnoty nad 1 (nehledě na to, že pravděpodobnost musí být od 0 do 1). Proto se běžně používají některé kumulativní distribuční funkce. Nejčastěji se používá normální distribuce ( probit ), logistická distribuce ( logit), Gompertzovo rozdělení (gompit).
Nechť je proměnná binární, to znamená, že může nabývat pouze dvou hodnot, o kterých se pro jednoduchost předpokládá, že jsou rovné a . Může to například znamenat přítomnost / nepřítomnost jakýchkoli podmínek, úspěch nebo neúspěch něčeho, odpověď je ano / ne v průzkumu atd. Nechť existuje také vektor regresorů (faktorů) , které ovlivňují .
Regresní model se zabývá faktorově podmíněným očekáváním závislé proměnné, které se v tomto případě rovná pravděpodobnosti, že se závislá proměnná rovná 1. Definicí matematického očekávání a zohledněním pouze dvou možných hodnot totiž , my máme:
V tomto ohledu je použití například standardního lineárního regresního modelu teoreticky nesprávné, už jen proto, že pravděpodobnost ze své podstaty nabývá omezených hodnot od 0 do 1. V tomto ohledu je rozumné modelovat pomocí integrální funkce určitých rozdělení.
Obvykle se předpokládá, že existuje nějaká skrytá (nepozorovaná) "obyčejná" proměnná , v závislosti na jejích hodnotách nabývá pozorovaná proměnná hodnotu 0 nebo jedna:
Předpokládá se, že latentní proměnná závisí na faktorech ve smyslu obvyklé lineární regrese , kde má náhodná chyba rozdělení . Pak
Pokud je rozdělení symetrické, pak můžeme psát
Dalším odůvodněním je použití konceptu užitečnosti alternativ - nikoli pozorovatelné funkce , tedy ve skutečnosti dvou funkcí , respektive pro dvě alternativy. Je logické předpokládat, že pokud je pro dané hodnoty faktorů užitečnost jedné alternativy větší než užitečnost druhé, vybere se první a naopak. V tomto ohledu je rozumné zvážit funkci rozdílu užitku alternativ . Pokud je větší než nula, zvolí se první varianta, pokud je menší nebo rovna nule, pak druhá. Rozdílová funkce užitku zde tedy hraje roli velmi skryté proměnné. Přítomnost náhodné chyby v užitných vzorech umožňuje vzít v úvahu neabsolutní determinismus výběru (přinejmenším nedeterminovanost daným souborem faktorů, ačkoli prvek náhodnosti výběru existuje pro jakýkoli soubor faktory).
Probit . Probitový modelpoužívá kumulativní funkci standardního normálního rozdělení:
Logit . Logit model využívá CDF logistické distribuce:
Gompit . Používá se rozdělení extrémních hodnot - Gompertzovo rozdělení:
Odhad se obvykle provádí metodou maximální věrohodnosti . Nechť existuje vzorek objemu faktorů a závislé proměnné . Pro dané číslo pozorování použijte index . Pravděpodobnost získání hodnoty v pozorování lze modelovat následovně:
Opravdu, jestliže , pak je druhý faktor zjevně roven 1 a první je právě , ale jestliže , pak je první faktor roven jedné a druhý je roven . Předpokládá se, že data jsou nezávislá. Pravděpodobnostní funkci lze tedy získat jako součin výše uvedených pravděpodobností :
V souladu s tím má funkce logaritmické pravděpodobnosti tvar:
Maximalizace této funkce s ohledem na neznámé parametry umožňuje získat konzistentní , asymptoticky účinné a asymptoticky normální odhady parametrů. To druhé znamená, že:
kde je asymptotická kovarianční matice odhadů parametrů, která je stanovena standardním způsobem pro metodu maximální věrohodnosti (přes Hessian nebo gradient logaritmické věrohodnostní funkce v optimálním bodě).
kde jsou hodnoty logaritmické pravděpodobnosti odhadovaného modelu a modelu s omezením, ve kterém je konstanta (nezávisí na faktorech x, vyjma konstanty ze sady faktorů).
Tato statistika, stejně jako v obecném případě použití metody maximální věrohodnosti, umožňuje testování statistické významnosti modelu jako celku. Pokud je jeho hodnota dostatečně velká (více než kritická hodnota rozdělení , kde je počet faktorů (bez konstanty) modelu), pak lze model považovat za statisticky významný.
Používají se také analogy klasického koeficientu determinace , například:
Oba ukazatele se pohybují od 0 do 1.
Je důležité analyzovat podíl správných předpovědí v závislosti na zvoleném klasifikačním prahu (z jaké úrovně pravděpodobnosti se bere hodnota 1). Obvykle se křivka ROC používá k posouzení kvality modelu a indikátorem AUC je plocha pod křivkou ROC.
Přesné rozdělení této statistiky není známo, ale autoři pomocí simulace zjistili, že je aproximováno rozdělením .