Bayesovský koeficient je bayesovská alternativa k testování statistických hypotéz [1] [2] . Bayesian Model Comparison je metoda pro výběr modelů na základě Bayesových koeficientů. Diskutované modely jsou statistické modely [3] . Účelem Bayesova koeficientu je kvantifikovat podporu modelu vůči jinému modelu, zda jsou modely správné nebo ne [4] . Technická definice „podpory“ v kontextu Bayesovské inference je uvedena níže.
Bayesův koeficient je poměr pravděpodobnosti pro mezní pravděpodobnost dvou hypotéz, obvykle nulové hypotézy a alternativní [5] .
Posteriorní pravděpodobnost modelu M daná daty D je dána Bayesovou větou :
Klíčovým pojmem závislým na datech je pravděpodobnost modelu M daná daty D a představuje pravděpodobnost, že některá data budou získána za předpokladu, že model M je přijat . Správný výpočet tohoto členu je klíčem k bayesovskému srovnání modelů.
Vzhledem k problému výběru modelu , ve kterém si musíme vybrat mezi dvěma modely založenými na pozorovaných datech D , je relativní pravděpodobnost dvou různých modelů M 1 a M 2 , parametrizovaných vektory parametrů a , dána Bayesovým koeficientem K , definovaným jako
Jsou-li dva modely a priori stejně pravděpodobné, je Bayesův koeficient roven poměru zadních pravděpodobností modelů M 1 a M 2 . Pokud se místo integrálu Bayesova koeficientu použije pravděpodobnost odpovídající maximálnímu odhadu věrohodnosti parametru pro každý statistický model , pak se test stává klasickým testem poměru věrohodnosti . Na rozdíl od testu poměru pravděpodobnosti nezávisí srovnání Bayesovského modelu na žádné konkrétní sadě parametrů, protože se vypočítává integrací přes všechny parametry v každém modelu (s přihlédnutím k předchozím pravděpodobnostem ). Výhodou použití Bayesových koeficientů však je, že automaticky a zcela přirozeně zahrnují penalizaci za nadměrné začlenění struktury modelu [6] . To chrání před přetrénováním . V případě modelů, pro které je neznámá explicitní forma věrohodnostní funkce nebo je její výpočet příliš nákladný, lze pro výběr Bayesovského modelu použít přibližné bayesovské výpočty [7] , i když by měly být vezmeme-li v úvahu, že přibližný Bayesovský odhad Bayesových koeficientů je často zkreslený [8] .
Jiné přístupy:
Hodnota K > 1 znamená, že hypotéza M 1 je silněji podpořena daty než hypotéza M 2 . Všimněte si, že klasické testování statistických hypotéz je výchozím nastavením na jedinou hypotézu (nebo model) („ nulová hypotéza “) a bere v úvahu pouze důkazy proti ní. Harold Jeffries uvádí tabulku pro interpretaci získané hodnoty K [9] :
K | dhart | bitů | Váha důkazů |
---|---|---|---|
< 100 | 0 | — | Negativní (podporuje M 2 ) |
10 0 ...10 1/2 | 0...5 | 0...1,6 | Sotva pozoruhodné |
10 1/2 ...10 1 | 5...10 | 1.6...3.3 | Významný |
10 1 ...10 3/2 | 10...15 | 3,3...5,0 | silný |
10 3/2 ...10 2 | 15...20 | 5.0...6.6 | Velmi silný |
> 10 2 | > 20 | > 6.6 | přesvědčivý |
Druhý sloupec uvádí odpovídající váhy podpory v jednotkách decihartli (také známé jako decibans ), bity přidané do třetího sloupce pro přehlednost. Podle I. J. Gooda mohou lidé v běžném životě jen stěží rozumně odhadnout rozdíl v míře důvěry v hypotézu odpovídající změně hmotnosti o 1 deciban nebo 1/3 bitu (například výsledný poměr 4:5 v 9 studie se dvěma možnými výsledky) [10••] .
Alternativní široce citovanou tabulku navrhli Kass a Raftery (1995) [6] :
log 10K _ | K | Váha důkazů |
---|---|---|
0 až 1 ⁄ 2 | 1 až 3.2 | Stojí za zmínku |
od 1 ⁄ 2 do 1 | od 3.2 do 10 | Pozitivní |
1 až 2 | od 10 do 100 | silný |
> 2 | > 100 | Velmi silný |
K použití Bayesových koeficientů nebo klasického testování statistických hypotéz dochází v kontextu vyvozování , nikoli rozhodování za nejistoty . To znamená, že chceme pouze zjistit, která hypotéza je správná, spíše než učinit skutečné rozhodnutí na základě těchto informací. Frekvenční statistika striktně rozlišuje mezi těmito dvěma přístupy, protože klasické metody testování hypotéz nejsou koherentní v Bayesově smyslu. Bayesovské postupy, včetně Bayesových koeficientů, jsou koherentní, takže není třeba toto rozlišovat. Na závěr je pak jednoduše pohlíženo jako na zvláštní případ rozhodování za nejistoty, ve kterém je konečnou akcí vrácení hodnoty. Pro rozhodování mohou statistici používající Bayesovský přístup použít Bayesův koeficient spolu s předchozím rozdělením a ztrátovou funkcí . V kontextu výstupu bude mít ztrátová funkce podobu pravidla pro výpočet výsledku . Použití logaritmického skórovacího pravidla například vede k očekávanému užitku , který má podobu Kullback-Leiblerovy divergence .
Řekněme, že máme náhodnou proměnnou , která vyžaduje úspěch nebo neúspěch. Chceme porovnat model M 1 , kde pravděpodobnost úspěchu je q = ½ , a jiný model M 2 , kde hodnota q není známa, a jako předchozí rozdělení pro q bereme rovnoměrné rozdělení na [0,1 ]. Provedeme 200 pokusů a získáme 115 úspěchů a 85 neúspěchů. Pravděpodobnost lze vypočítat podle binomického rozdělení :
Pak máme pro hypotézu M 1
zatímco pro M 2
Poměr těchto hodnot je 1,197..., takže rozdíl je "sotva hodný pozornosti", i když se volba mírně přiklání k M 1 .
Testování těchto statistických hypotéz na základě frekvenční inference M 1 (zde považováno za nulovou hypotézu ) poskytne zcela jiný výsledek. Takový test uvádí, že hypotéza M1 by měla být zamítnuta na 5% hladině významnosti, protože pravděpodobnost získání 115 nebo více úspěchů ze vzorku 200 položek při q = ½ je 0,0200 a dvoustranný test pro získání extrému 115 nebo více dává 0,0400. Všimněte si, že 115 se liší od 100 o více než dvě standardní odchylky . Zatímco tedy testování statistické hypotézy založené na frekvenční inferenci přináší statistickou významnost na 5% úrovni, Bayesův koeficient to pravděpodobně nepřijme jako extrémní výsledek. Všimněte si však, že nehomogenní předchozí rozdělení (například takové, které odráží očekávání, že počet úspěchů a neúspěchů bude stejného řádu) může vést k Bayesovu koeficientu, který je konzistentnější s testováním frekvenční inference. .
V klasickém testu poměru pravděpodobnosti by bylo zjištěno , že maximální odhad pravděpodobnosti pro q je 115 ⁄ 200 = 0,575 , odkud
(místo zprůměrování přes všechny možné q ). To dává pravděpodobnostní poměr 0,1045 a ukazuje na hypotézu M2 .
M 2 je složitější model než M 1 , protože má volný parametr, který umožňuje konzistentněji popisovat data. Schopnost Bayesových koeficientů vzít toto v úvahu je důvodem, proč je Bayesovská inference předložena jako teoretické zdůvodnění a zobecnění Occamovy břitvy , ve které jsou chyby typu I redukovány [11] .
Na druhou stranu moderní metoda relativní věrohodnosti bere v úvahu počet volných parametrů modelu, na rozdíl od klasického věrohodnostního poměru. Metodu relativní pravděpodobnosti lze použít následovně. Model M 1 má 0 parametrů, a proto jeho hodnota Akaike Information Criterion (AIC) je 2 · 0 − 2 ln 0,005956 ≈ 10,2467 . Model M 2 má 1 parametr, a proto jeho hodnota AIC je 2 · 1 − 2 ln 0,056991 ≈ 7,7297 . Proto je méně pravděpodobné, že M 1 minimalizuje ztrátu informace než M 2 , přibližně faktorem exp((7,7297 − 10,2467)/2) ≈ 0,284 krát. M2 je tedy o něco výhodnější, ale M1 nelze vyřadit .