Metoda maximální pravděpodobnosti

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 19. ledna 2021; kontroly vyžadují 4 úpravy .

Metoda maximální věrohodnosti nebo metoda maximální věrohodnosti (MMP, ML, MLE - anglicky m aximum l ikelihood e stimation ) v matematické statistice je metoda pro odhad neznámého parametru pomocí maximalizace věrohodnostní funkce [1] . Založeno na předpokladu, že všechny informace o statistickém vzorku jsou obsaženy ve věrohodnostní funkci.

Metodu maximální věrohodnosti analyzoval, doporučoval a velmi popularizoval R. Fischer v letech 1912 až 1922 (ačkoli ji dříve používali Gauss , Laplace a další).

Odhad maximální věrohodnosti je oblíbená statistická technika, která se používá k vytvoření statistického modelu z dat a poskytnutí odhadu parametrů modelu.

Metoda maximální věrohodnosti odpovídá mnoha známým metodám odhadu v oblasti statistiky. Například vás zajímá takový antropometrický parametr, jako je výška obyvatel Ruska. Předpokládejme, že máte údaje o růstu určitého počtu lidí, nikoli celé populace. Navíc se předpokládá, že růst je normálně distribuovaná veličina s neznámým rozptylem a střední hodnotou . Průměr a rozptyl růstu ve vzorku jsou maximální pravděpodobnosti průměru a rozptylu celé populace.

Pro pevný soubor dat a základní pravděpodobnostní model získáme pomocí metody maximální věrohodnosti hodnoty parametrů modelu, které data „přibližují“ skutečným. Odhad maximální věrohodnosti poskytuje jedinečný a snadný způsob, jak určit řešení v případě normálního rozdělení.

Metoda odhadu maximální pravděpodobnosti se používá na širokou škálu statistických modelů, včetně:

lineární modely a zobecněné lineární modely;
faktorová analýza ;
modelování strukturních rovnic;
mnoho situací, při testování hypotéz a vytváření intervalu spolehlivosti;
diskrétní modely dle výběru.

Esence metody

Nechť je ukázka z distribuce , kde jsou neznámé parametry. Nechť je pravděpodobnostní funkce , kde . Bodový odhad $X_{1},\ldots ,X_{n}$ $\mathbb {P} _{\theta }$ $\theta \in \Theta$ $L({\mathbf {x}}\mid \theta )\dvojtečka \Theta \to {\mathbb {R}}$ ${\mathbf {x}}\in {\mathbb {R}}^{n}$

{\hat {\theta }}_{\mathrm {M\Pi } }={\hat {\theta }}_{\mathrm {M\Pi } }(X_{1},\ldots ,X_ {n})=\mathop {\rm {argmax)) \limits _{\theta \in \Theta }L(X_{1},\ldots ,X_{n}\mid \theta )

se nazývá maximální pravděpodobnostní odhad parametru . Odhad maximální pravděpodobnosti je tedy ten, který maximalizuje funkci pravděpodobnosti pro implementaci fixního vzorkování. $\theta$

Často se místo pravděpodobnostní funkce používá log-pravděpodobnostní funkce . Protože funkce monotónně narůstá v celém definičním oboru, maximum libovolné funkce je maximem funkce a naopak. Takto, $L$ $l=\ln L$ $x\do \ln x,\;x>0$ $L(\theta)$ $\ln L(\theta )$

{\hat {\theta }}_{\mathrm {M\Pi } }=\mathop {\rm {argmax}} \limits _{\theta \in \Theta }l(X_{1},\ ldots ,X_{n}\mid \theta )

Pokud je pravděpodobnostní funkce diferencovatelná, pak nezbytnou podmínkou pro extrém je rovnost jeho gradientu na nulu :

g(\theta )={\frac {\částečné l({\mathbf {x)),\theta _{0})}{\částečné \theta }}=0

Dostatečnou extrémní podmínku lze formulovat jako zápornou definitivnost hessovské matice druhých derivací:

H={\frac {\částečný ^{2}l({\mathbf {x)),\theta _{0})}{\částečný \theta \částečný \theta ^{T))}

Důležitá pro posouzení vlastností odhadů metody maximální věrohodnosti je tzv. informační matice , která se z definice rovná:

I(\theta )=E[g(\theta )g(\theta )^{T}]

V optimálním bodě se informační matice shoduje s očekáváním Hessian, brané se znaménkem mínus:

I=-E(H_{0})

Vlastnosti

Odhady maximální pravděpodobnosti mohou být obecně zkreslené (viz příklady), ale jsou konzistentní , asymptoticky účinné a asymptoticky normální odhady. To znamená asymptotická normalita

{\sqrt {n}}({\hat {\theta }}-\theta ){\xrightarrow d}N(0,{\boldsymbol {I}}_({\infty }}^{{-1}} )

kde je asymptotická informační matice. ${\boldsymbol {I}}_{{\infty }}=-\lim _{{n\rightarrow \infty }}{\frac {1}{n}}{\mathbb {E}}({\boldsymbol { H))$

Asymptotická účinnost znamená, že asymptotická kovarianční matice je spodní hranicí pro všechny konzistentní asymptoticky normální odhady. ${\boldsymbol {I}}_{{\infty }}^{{-1}}$

Jestliže je odhad maximální věrohodnosti, parametry , pak je odhad maximální věrohodnosti pro , kde g je spojitá funkce (funkční invariance). Zákony o distribuci dat tak mohou být parametrizovány různými způsoby. ${\klobouk {\theta ))$ $\theta$ $g({\hat {\theta )))$ $g(\theta)$
Nezbytnou podmínkou pro MP-hodnocení je také zavedení systému formuláře: $\left\{{\begin{matrix}{\frac {\partial }{\partial \theta _{1))}\ln {L_{n))\left({\vec {x)), {\vec {\theta }}\right)&=&0\\\cdots &\cdots &\\{\frac {\partial }{\partial \theta _{k}}}\ln {L_{n}} \left({\vec {x)),{\vec {\theta }}\right)&=&0\\\end{matrix}}\right.$

kde je pravděpodobnostní funkce velikosti vzorku

L_{n}\left({\vec {x)),{\vec {\theta }}\right)=\prod _{i=1}^{n}L_{1}\left(x_ {i},{\vec {\theta }}\right)

{\vec {x}}

n

Příklady

Nechť je nezávislý vzorek ze spojitého rovnoměrného rozdělení na intervalu , kde je neznámý parametr. Pak má věrohodnostní funkce tvar $X_{1},\ldots ,X_{n}\sim {\mathrm {U}}[0,\theta ]$ $[0,\theta]$ $\theta >0$

f({\mathbf {x}}\mid \theta )={\begin{cases}{\frac {1}{\theta ^{n}}},&{\mathbf {x}}\in [0, \theta ]^{n}\subset {\mathbb {R}}^{n}\\0,&{\mathbf {x}}\ne \in [0,\theta ]^{n}\end{cases }}.

Poslední rovnost lze přepsat jako:

f({\mathbf {x}}\mid \theta )={\begin{cases}{\frac {1}{\theta ^{n}}},&\theta \geq \max(x_{1}, \ldots ,x_{n})\\0,&\theta <\max(x_{1},\ldots ,x_{n})\end{cases}},

kde , což ukazuje, že věrohodnostní funkce dosahuje svého maxima v bodě . Takto ${\mathbf {x}}=(x_{1},\ldots ,x_{n})^{{\top }}$ $\theta =\max(x_{1},\ldots ,x_{n})$

{\klobouk {\theta }}_{({\mathrm {M\Pi }}}}=\max(X_{1},\ldots ,X_{n})

Takový odhad bude zkreslený: , odkud $P\{\max(X_{1},\ldots ,X_{n})\leq x\}=\left({\frac {x}{\theta }}\right)^{n}$ $E{\hat {\theta }}_{({\mathrm {M\Pi }}}}=\int _{0}^{\theta }xd\left({\frac {x}{\theta }} \right)^{n}={\frac {n}{n+1}}\theta$

Dovolit být nezávislý vzorek z normálního rozdělení s neznámým průměrem a rozptylem . Sestrojme odhad maximální pravděpodobnosti pro neznámý vektor parametrů . Log-věrohodnostní funkce má tvar $X_{1},\ldots ,X_{n}\sim \mathrm {N} (\mu ,\sigma ^{2})$ $\left(\widehat {\mu }_{({\mathrm {M\Pi }}}},\widehat {\sigma ^{2}}_{({\mathrm {M\Pi }}}}\right )^{{{\rm {T))))$ $\left(\mu ,\sigma ^{2}\right)^{{{\rm {T))))$

L({\mathbf {x}}\mid \mu ,\sigma ^{2})=-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-{\frac {1}{2\sigma ^{2}}}\sum \limits _{{i=1}}^{n}(X_{i}-\mu )^{2}

Abychom našli jeho maximum, přirovnáme parciální derivace k nule :

\left\{{\begin{matrix}\displaystyle {\frac {\partial }{\partial \mu }}L({\mathbf {x}}\mid \mu ,\sigma ^{2})=0\ \[10pt]\displaystyle {\frac {\partial }{\partial \sigma ^{2))}L({\mathbf {x))\mid \mu ,\sigma ^{2})=0\\\ end{matrix}}\right.\Rightarrow \left\{{\begin{matrix}\displaystyle {\frac {\sum \limits _{{i=1}}^{n}X_{i}-n\mu }{\sigma ^{2}}}=0\\[10pt]\displaystyle -{\frac {n}{2\sigma ^{2}}}+{\frac {\sum \limits _{{i= 1}}^{n}(X_{i}-\mu )^{2}}{2\left(\sigma ^{2}\right)^{2}}}=0\\\end{matrix} }\že jo.,

kde

{\hat {\mu }}_{\mathrm {M\Pi } }={\overline {X}}

je průměr vzorku a

\widehat {\sigma ^{2}}_{{{\mathrm {M\Pi }}}}=S_{n}^{2}

je výběrový rozptyl .

Způsob aplikace [2]

Zpracování experimentu

Předpokládejme, že měříme nějaké množství . Po provedení jednoho měření jsme dostali jeho hodnotu s chybou : . Zapišme hustotu pravděpodobnosti, že hodnota bude mít hodnotu : ${\textstyle a}$ ${\textstyle x_{1))$ ${\textstyle \sigma _{1}}$ ${\textstyle x_{1}\pm \sigma _{1))$ ${\textstyle a}$ ${\textstyle x_{1))$

$W(a)={\frac {1}{\sqrt {2\pi \sigma _{1}^{2))))\exp \left[-{\frac {(x_{1}- a)^{2}}{2\sigma _{1}^{2}}}\right]$ .

Nyní předpokládejme, že jsme provedli několik takových měření a získali . Hustota pravděpodobnosti, že veličina nabude hodnot , bude: ${\textstyle x_{1}\pm \sigma _{1},x_{2}\pm \sigma _{2}\ldots x_{n}\pm \sigma _{n))$ ${\textstyle a}$ ${\textstyle x_{1},x_{2}\ldots x_{n))$

$W(a)=\prod _{i=1}^{n}({\frac {1}{\sqrt {2\pi \sigma _{i}^{2))))\exp \ vlevo[-{\frac {(x_{i}-a)^{2}}{2\sigma _{i}^{2}}}\right]}$ .

Tato funkce se nazývá věrohodnostní funkce. Nejpravděpodobnější hodnota naměřené hodnoty je určena maximem věrohodnostní funkce. Pohodlnější je logovací funkce: ${\textstyle a^{*}}$

$L(a)=\ln W(a)=-\sum _{i=1}^{n}{\frac {(x_{i}-a)^{2}}{2\sigma _ {i}^{2}}}+\součet _{i=1}^{n}{\ln {\frac {1}{\sqrt {2\pi \sigma _{i}^{2}}} }}$ .

Rozlišujte logaritmickou pravděpodobnostní funkci s ohledem na : ${\textstyle a}$

${\frac {\partial {L}}{\partial {a}}}=\sum _{{i=1}}^{n}{{\frac {x_{i}-a}{\sigma _{ i}^{2}}}}$ .

Vyrovnejte se a získejte nějakou hodnotu : ${\frac {\částečné {L}}{\částečné {a}}}$ ${\textstyle 0}$ ${\textstyle a=a^{*}}$

$a^{*}={\frac {\sum \limits _{{i=1}}^{{n}}{{\frac {x_{i}}{\sigma _{i}^{2}} ))}{\sum \limits _{{i=1}}^{{n}}{{\frac {1}{\sigma _{i}^{2}}}}}}$ .

Cramer formuloval následující větu:

Věta: Neexistuje žádná jiná metoda zpracování výsledků experimentu, která by poskytla lepší přiblížení pravdě než metoda maximální věrohodnosti.

Chyby měření

Předpokládejme, že jsme provedli řadu měření a získali řadu hodnot , je přirozené napsat, že toto rozdělení bude mít Gaussovu formu : ${\textstyle a^{*}}$

$W(a)={\frac {1}{{\sqrt {2\pi \sigma _{{a^{*))}^{2))))}\exp \left[-{\frac {( a^{*}-a)^{2}}{2\sigma _{{a^{*}}}^{2}}}\right]$ .

Napišme logaritmickou věrohodnostní funkci: . $L(a)=\ln W(a)=-{{\frac {(a^{*}-a)^{2}}{2\sigma _{{a^{*}}}^{2} ))}+{\ln {{\frac {1}{{\sqrt {2\pi \sigma _{{a^{*}}}^{2}}}}}}}$

Vezměme si první derivaci:

${\frac {\partial {L}}{\partial {a}}}={\frac {a^{*}-a}{\sigma _{{a^{*}}}^{2}}}$ .

Pokud , tak . Nyní vezměte druhou derivaci: ${\frac {\partial {L}}{\partial {a}}}=0$ $a=a^{*}$

${\frac {\partial ^{2}{L}}{\partial {a}^{2}}}=-{\frac {1}{\sigma _{a^{*}}^{ 2}}}$ , kde

$\sigma _{a^{*}}=\left(-{\frac {\partial ^{2}{L}}{\partial {a}^{2}}}{\Big |}_ {a=a^{*}}\right)^{-1/2}$ .

Říká se tomu první magická formule [2] .

Metoda podmíněné maximální věrohodnosti

V regresních modelech se používá metoda podmíněné maximální věrohodnosti (Conditional ML) . Podstatou metody je, že se nepoužívá úplné společné rozdělení všech proměnných (závislých i regresorů), ale pouze podmíněné rozdělení závislé proměnné podle faktorů, tedy ve skutečnosti rozdělení náhodných chyb regresního modelu. . Celková věrohodnostní funkce je součinem "podmíněné věrohodnostní funkce" a hustoty distribuce faktorů. Podmíněná MMP je ekvivalentní plné verzi MMP v případě, kdy rozložení faktorů nijak nezávisí na odhadovaných parametrech. Tato podmínka je často porušována v modelech časových řad, jako je autoregresní model . V tomto případě jsou regresory minulé hodnoty závislé proměnné, což znamená, že jejich hodnoty se také řídí stejným modelem AR, to znamená, že distribuce regresorů závisí na odhadovaných parametrech. V takových případech se budou výsledky použití metody podmíněné a plné maximální věrohodnosti lišit.

Viz také

Poznámky

↑ Fisher - 1912 Mathematical Encyclopedic Dictionary, Moskva: Sovětská encyklopedie, 1988.
↑ 1 2 A.P. Onuchin. Experimentální metody jaderné fyziky. - Novosibirsk: Novosibirská státní technická univerzita, 2010. - S. 297-303. — 336 s. — ISBN 978-5-7782-1232-9 .

Literatura

Magnus Ya. R., Katyshev P. K., Peresetsky A. A. Econometrics. Počáteční kurz. - M. : Delo, 2007. - 504 s. - ISBN 978-5-7749-0473-0 .
Ostapenko R. I. Základy strukturálního modelování v psychologii a pedagogice: učební pomůcka pro studenty psychologické a pedagogické fakulty. - Voroněž.: VGPU, 2012. - 116 s. - ISBN 978-5-88519-886-8 .
Nikulin M. S. Kritérium pravděpodobnostních poměrů // Matematická encyklopedie / Vinogradov I. M. (hlavní redaktor). - M .: Sovětská encyklopedie , 1984. - T. 4. - S. 151. - 1216 s.

Slovníky a encyklopedie	velká čínština velká čínština velká čínština velká čínština velká čínština Velký Rus