Kullback-Leibler vzdálenost

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. prosince 2021; kontroly vyžadují 2 úpravy .

Vzdálenost (divergence, divergence) Kullback-Leibler ( anglicky Kullback-Leibler divergence ), RKL , informační nesoulad , rozlišovací informace , informační zisk , relativní entropie ( anglicky relativní entropie ) [1] - nezáporný funkcionál , což je asymetrická míra vzdálenost od sebe přítel dvou pravděpodobnostních rozdělení [2] definovaných na společném prostoru elementárních událostí . Často se používá v teorii informace a matematické statistice .

Definice a interpretace

Kullback-Leiblerova divergence distribuce s ohledem na (nebo relativně vzato "vzdálenost od do ") je označena . První argument funkcionálu (distribuce ) je obvykle interpretován jako pravdivé nebo a priori postulované rozdělení , druhý (distribuce ) jako předpokládané (ověřitelné). Rozdělení často slouží jako aproximace rozdělení . Hodnotu funkcionálu lze chápat jako množství ignorované distribuční informace , pokud byla použita k aproximaci . Tato míra vzdálenosti v teorii informace je také interpretována jako množství ztráty informace při nahrazení skutečné distribuce distribucí . $Q$ $P$ $P$ $Q$ $D_{\mathrm {KL} }(P\paralelní Q)$ $P$ $Q$ $Q$ $P$ $P$ $Q$ $P$ $P$ $Q$

V obecném případě, pokud je nějaká míra , pro kterou existují funkce absolutně spojité vzhledem k a , pak Kullback-Leibler divergence rozdělení vzhledem k je definována jako $\mu$ $X$ $\mu$ $p={\frac {{\rm {d}}P}{{\rm {d}}\mu }}$ $q={\frac {{\rm {d}}Q} ({\rm {d}}\mu }}$ $Q$ $P$

D_{\mathrm {KL} }(P\paralelní Q)=\int _{X}p\,\log {\frac {p}{q))\,{\rm {d))\mu

Základ logaritmu v tomto vzorci nehraje významnou roli. Jeho volba umožňuje stanovit konkrétní typ funkcionálu z rodiny ekvivalentních funkcionálů a rovná se volbě měrné jednotky pro nesrovnalost Kullback-Leibler (podobně jako u výpočtu entropie ), takže je možné použít logaritmus s libovolným základ větší než jedna. Jinými slovy, funkcionál je definován až do kladného konstantního faktoru. Nejběžnější jsou přirozený logaritmus (z důvodů pohodlí), stejně jako binární logaritmus - pro měření nesrovnalostí v bitech (obvykle používaný v teorii informace ). Kullback-Leiblerova divergence je bezrozměrná veličina , bez ohledu na rozměr původních náhodných proměnných.

Ačkoli Kullback-Leiblerova vzdálenost (RKL) je často považována za způsob měření vzdálenosti mezi rozděleními pravděpodobnosti, tento funkcionál není metrikou v prostoru rozdělení, protože nesplňuje trojúhelníkovou nerovnost a nesplňuje axiom symetrie: . Jeho infinitezimální forma, zejména jeho Hessian , však dává metrický tenzor , který je známý jako Fisherova informační metrika . $D_{\mathrm {KL} }(P\paralelní Q)\neq D_{\mathrm {KL} }(Q\paralelní P)$

Kullback-Leiblerova vzdálenost je speciálním případem obecnější třídy nesrovnalostí nazývaných f - nesrovnalosti , stejně jako speciálním případem Bregmanovy třídy nesrovnalostí . RKL je jediná divergence pravděpodobností, která patří do obou tříd.

RKL byl původně představen Solomonem Kullbackem a Richardem Leiblerem v roce 1951 jako směrová divergence mezi dvěma distribucemi. O tom pojednává Kullbackův text Teorie a statistika informací. [jeden]

Vzdálenost Kullback-Leibler je někdy také interpretována jako informační zisk dosažený při použití namísto . Někdy se pro RKL relativní entropie relativní (označené ) nebo křížová entropie používají matoucí názvy . $D_{\mathrm {KL} }(P\paralelní Q)$ $P$ $Q$ $P$ $Q$ $H(P\mid Q)$

Existují různé konvence, jak číst notaci . Často označovaný jednoduše jako nesoulad nebo vzdálenost mezi a , to však nevyjadřuje základní asymetrii ve vztahu. Někdy říkají "odchylka od (relativní k) " nebo, relativně vzato, "vzdálenost od " (obvykle v kontextu relativní entropie nebo informačního zisku). V tomto případě je rozdělení interpretováno jako pravdivé. $D_{\mathrm {KL} }(P\paralelní Q)$ $P$ $Q$ $P$ $Q$ $Q$ $P$ $Q$

Konkrétní definice a definice z hlediska derivátu Radon – Nikodim

Pro diskrétní rozdělení pravděpodobnosti a s řadou elementárních událostí je Kullback-Leiblerova divergence rozdělení s ohledem na rozdělení (nebo "vzdálenost od do ") definována [3] jako: $P$ $Q$ $n$ $Q$ $P$ $P$ $Q$

D_{KL}(P\paralelní Q)=\sum \limits _{i=1}^{n}p_{i}\log {\frac {p_{i}}{q_{i}}}

Jinými slovy, je to střední hodnota logaritmického rozdílu mezi pravděpodobnostmi a , kde střední hodnota je vzata z rozdělení . RKL je definováno pouze tehdy, pokud , pro všechny ( absolutní spojitost ). Kdykoli je příspěvek -tého členu interpretován jako nula, protože . $p$ $q$ $P$ $q_{i}=0\Rightarrow p_{i}=0$ $i=1,...,n$ $p_{i}=0$ $i$ $\lim _{x\to 0}x\log(x)=0$

Pro -rozměrná absolutně spojitá rozdělení a Kullback-Leiblerova vzdálenost je dána výrazem [4] $k$ $P$ $Q$

D_{\mathrm {KL} }(P\paralelní Q)=\int _{X}\,p(x)\log {\frac {p(x)}{q(x)))\, {\rm {d}}x

kde a jsou funkce hustoty distribuce a , v tomto pořadí, definované na intervalu . $p(x)$ $q(x)$ $P$ $Q$ ${\displaystyle X\subseteq R^{k))$

Obecněji, jestliže a jsou míry pravděpodobnosti na množině a jsou absolutně spojité vzhledem k , pak RKL od do je definován jako: $P$ $Q$ $X$ $P$ $Q$ $P$ $Q$

D_{\mathrm {KL} }(P\paralelní Q)=\int _{X}\log {\frac ({\rm {d))P}({\rm {d))Q)) \,{\rm {d}}P

kde je derivát Radon-Nikodym vzhledem k , a za předpokladu, že výraz vpravo existuje. Ekvivalentně to lze zapsat jako ${\frac {{\rm {d}}P}{{\rm {d}}Q}}$ $P$ $Q$

D_{\mathrm {KL} }(P\paralelní Q)=\int _{X}\log \!\left({\frac ({\rm {d))P} ({\rm {d }}Q}}\right){\frac {{\rm {d}}P}{{\rm {d}}Q}}\,{\rm {d}}Q

Je třeba poznamenat, že použití derivátu Radon-Nikodim slouží jako formální prostředek k psaní těchto výrazů, ale neodhaluje jejich smysluplný význam.

Funkce Kullback-Leibler divergence je bezrozměrná, ale její hodnoty mohou mít různé jednotky. Pokud jsou tedy logaritmy v těchto vzorcích brány v základu 2, pak je divergence (z hlediska teorie informace také informace) měřena v bitech ; pokud je založeno na e (s přirozenou bází), pak se divergence (informace) měří v nats . Většina vzorců obsahujících RKL si zachovává svůj význam bez ohledu na základ logaritmu.

Charakterizace

Arthur Hobson dokázal, že Kullback-Leiblerova vzdálenost je jedinou mírou rozdílu mezi rozděleními pravděpodobnosti, která splňuje některé žádoucí vlastnosti, které jsou kanonickými rozšířeními k těm, které se objevují v běžně používaných charakteristikách entropie . [5] Vzájemná informace je tedy jediným měřítkem vzájemné závislosti, která podléhá některým souvisejícím podmínkám, protože ji lze definovat pomocí RCL .

Existuje také Bayesovská charakterizace vzdálenosti Kullback-Leibler. [6]

Motivace

V teorii informace Kraft-McMillanův teorém uvádí, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy k identifikaci jediné hodnoty lze považovat za reprezentující implicitní rozdělení pravděpodobnosti přes , kde je délka kódu pro , v bitech. Proto lze RCL interpretovat jako očekávanou délku zprávy navíc od značky nula, která se má přenést, pokud se použije kód, který je optimální pro dané (nesprávné) rozdělení Q, ve srovnání s použitím kódu založeného na skutečném rozdělení P. . $x_{i}\subset X$ $q(x_{i})=2^{-I_{i))$ $X$ $I_i$ $x_{i}$

${\textstyle {\begin{matrix}D_{\mathrm {KL} }(P\paralelní Q)=-\sum _{x}p(x)\log q(x)+\součet _{x}p( x)\log p(x)=H(P,Q)-H(P)\,\!\end{matice}}}$ , kde je křížová entropie P a Q, je entropie P. $H(P,Q)$ $H(P)$

Všimněte si také, že existuje spojení mezi RKL a "rychlostní funkcí" v teorii velkých odchylek . [7] [8]

Vlastnosti

Vzdálenost Kullback-Leibler je vždy nezáporná, což je výsledek, který je téměř všude známý jako Gibbsova nerovnost . Entropie H(P) tedy specifikuje minimální hodnotu křížové entropie H(P,Q), očekávaný počet bitů navíc požadovaných, když je použit kód založený na Q spíše než na P. musí být předán k určení hodnoty , pokud je použit kód, který odpovídá rozdělení pravděpodobnosti Q spíše než "skutečnému" rozdělení P. $D_{\mathrm {KL} }(P\paralelní Q)\geq 0,$ $D_{KL}(P\paralelní Q)=0\iff P=Q$ $x\subset X$
Vzdálenost Kullback-Leibler není symetrická: . $D_{\mathrm {KL} }(P\paralelní Q)\neq D_{\mathrm {KL} }(Q\paralelní P)$

Kullback-Leiblerova vzdálenost zůstává přísně definovaná pro spojitá rozdělení a navíc je invariantní při změně proměnných. Pokud je například proměnná x nahrazena proměnnou y(x), pak, protože a , lze RKL přepsat: $P(x)dx=P(y)dy$ $Q(x)dx=Q(y)$

${\textstyle D_{\mathrm {KL} }(P\parallel Q)=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x )}{Q(x)}}\right)\,dx=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)dy /dx}{Q(y)dy/dx}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P (y)}{Q(y)}}\right)\,dy}$ ,

kde a . Navzdory předpokladu, že transformace byla kontinuální, to v tomto případě není nutné. To také ukazuje, že RKL určuje hodnotu konzistentní s rozměrem , protože pokud x je rozměrová proměnná, pak P(x) a Q(x) mají také rozměr, protože jde o bezrozměrnou veličinu. Výraz pod logaritmem však zůstává bezrozměrný, jak by měl. Proto lze Kullback-Leiblerovu vzdálenost v jistém smyslu považovat za fundamentálnější veličinu než některé jiné vlastnosti v teorii informace [9] (jako je sebeinformace nebo Shannonova entropie ), která se může stát nedefinovanou nebo negativní pro non- diskrétní pravděpodobnosti. $y_{a}=y(x_{a})$ $y_{b}=y(x_{b})$ $P(x)dx$

RKL je aditivní pro nezávislé distribuce v podstatě stejným způsobem jako Shannonova entropie. Jsou-li nezávislé rozvody se společným rozdělením a podobně , pak $P_{1}, P_{2}$ $P(x,y)=P_{1}(x)P_{2}(y)$ $Q(x,y)=Q_{1}(x)Q_{2}(y)$ $D_{\mathrm {KL} }(P\paralelní Q)=D_{\mathrm {KL} }(P_{1}\paralelní Q_{1})+D_{\mathrm {KL} }(P_{ 2}\paralelní Q_{2}).$

Kullback-Leiblerova vzdálenost pro vícerozměrné normální rozdělení

Řekněme, že máme dvě vícerozměrná normální rozdělení , se střední hodnotou a s (reverzibilní) kovarianční maticí . Pokud mají dvě distribuce stejný rozměr k, pak RCL mezi distribucemi je následující [10] : ${\displaystyle \mu _{0},\mu _{1))$ $\Sigma _{0},\Sigma _{1}$

$D_{\text{KL}}({\mathcal {N}}_{0}\paralelní {\mathcal {N}}_{1})={1 \over 2}\left(\mathrm { tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+\left(\mu _{1}-\mu _{0}\right)^{\top } \Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\det \Sigma _{1} \over \det \Sigma _{ 0}}\vpravo)\vpravo).$

Logaritmus v posledním členu musí být vzat k základu e, protože všechny kromě posledního členu jsou přirozené logaritmy výrazů, které jsou buď libovolnými faktory funkce hustoty, nebo se jinak přirozeně vyskytují. Proto rovnice dává výsledek měřený v nat . Vydělením tohoto výrazu zcela log e 2 dostaneme rozdělení v bitech.

Vztah k metrikám

Dalo by se nazvat RCL " metrikou " v prostoru rozdělení pravděpodobnosti, ale to by bylo nesprávné, protože není symetrické a nesplňuje trojúhelníkovou nerovnost . Přesto, že jde o předběžnou metriku , generuje topologii v prostoru rozdělení pravděpodobnosti . Přesněji, jestliže je posloupnost distribucí taková, že , pak říkáme, že . Z Pinskerovy nerovnosti vyplývá, že — , kde druhé je potřeba pro konvergenci ve variaci . $D_{\mathrm {KL} }(P\paralelní Q)\neq D_{\mathrm {KL} }(Q\paralelní P)$ ${\displaystyle \{P_{1},P_{2},\cdots \))$ $\lim _{n\rightarrow \infty }D_{\mathrm {KL} }(P_{n}\parallel Q)=0$ $P_{n}{\xrightarrow {D}}Q$ $P_{n}{\xrightarrow {\mathrm {D} }}P\Rightarrow P_{n}{\xrightarrow {\mathrm {TV} }}P$

Podle Alfreda Renyiho (1970, 1961). [11] [12]

Fisherova informační metrika

Nicméně vzdálenost Kullback-Leibler přímo souvisí s metrikou, konkrétně s Fisherovou informační metrikou . Předpokládejme, že máme rozdělení pravděpodobnosti P a Q, přičemž obě jsou parametrizována stejným (možná vícerozměrným) parametrem . Zvažte nyní dvě blízké hodnoty a , takové, že se parametr liší od parametru pouze o malé číslo . Konkrétně, rozšíření v Taylorově řadě až do prvního řádu, máme (pomocí Einsteinovy konvence ) $\theta$ $P=P(\theta )$ $Q=P(\theta _{0})$ $\theta$ $\theta _{0}$

$P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots$ ,

kde je malá změna v j-tém směru a je odpovídající rychlost změny v rozdělení pravděpodobnosti. Vzhledem k tomu, že RCL má absolutní minimum rovné 0 při P=Q, to znamená, že RCL má druhý řád malosti z hlediska parametrů . Formálněji, stejně jako pro jakékoli minimum, první derivace divergence zmizí ${\displaystyle \Delta \theta ^{j}=(\theta -\theta _{0})^{j))$ $\theta$ $P_{j}(\theta _{0})={\frac {\částečné P}{\částečné \theta ^{j))}(\theta _{0})$ $\theta =\theta _{0}$ ${\displaystyle \Delta \theta ^{j))$ $\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\ paralelní P(\theta _{0}))=0,$

a Taylorova expanze začíná od druhého řádu malosti

$D_{\mathrm {KL} }(P(\theta )\paralelní P(\theta _{0}))={\frac {1}{2))\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots$ ,

kde Hessian musí být nezáporný. Je-li dovoleno měnit se (a vynechat dílčí index 0), pak Hessian definuje (pravděpodobně degenerovanou) Riemannovu metriku v prostoru parametrů , nazývanou Fisherova informační metrika. $g_{jk}(\theta )$ $\theta _{0}$ $g_{jk}(\theta )$ $\theta$

Vztah k dalším dimenzím teorie informace

Mnoho dalších veličin teorie informace lze interpretovat jako použití Kullback-Leiblerovy vzdálenosti na konkrétní případy.

Vlastní hodnota je RCL rozdělení pravděpodobnosti z Kroneckerova symbolu , představující jistotu, že — tedy počet extra bitů, které je třeba přenést, aby bylo možné určit , zda je příjemci k dispozici pouze rozdělení pravděpodobnosti , nikoli skutečnost, že . $D_{\mathrm {KL} }(\delta _{im}\parallel \{p_{i}\})$ $P(i)$ $i=m$ $i$ $P(i)$ $i=m$

Vzájemné informace -

${\begin{aligned}I(X;Y)&=D_{\mathrm {KL} }(P(X,Y)\paralelní P(X)P(Y))\\&=\název operátora { E} _{X}\{D_{\mathrm {KL} }(P(Y\mid X)\paralelní P(Y))\}\\&=\jméno operátora {E} _{Y}\{D_{ \mathrm {KL} }(P(X\mid Y)\paralelní P(X))\}\end{aligned}}$

je RCL součinu dvou mezních rozdělení pravděpodobnosti ze společného rozdělení pravděpodobnosti – to znamená očekávaného počtu bitů navíc, které je třeba odeslat k určení, a pokud jsou zakódovány pomocí pouze jejich mezního rozdělení namísto společného rozdělení. Ekvivalentně, pokud je známá pravděpodobnost spojení , je to očekávaný počet extra bitů, které by měly být v průměru odeslány, aby se určilo , zda není hodnota již známa přijímači. $P(X)P(Y)$ $P(X,Y)$ $X$ $Y$ $P(X,Y)$ $Y$ $X$

Shannonova entropie -

${\begin{aligned}\mathrm {H} (X)&=\operatorname {E} [\operatorname {I} _{X}(x)]\\&=\log(N)-D_{ \text{KL}}(P(X)\paralelní P_{U}(X))\end{aligned}}$

je počet bitů, které musí být přeneseny, aby bylo možné identifikovat ze stejně pravděpodobných výsledků, je menší než jednotné rozdělení RCL ze skutečného rozdělení - to znamená méně než očekávaný počet uložených bitů, které musí být odeslány, pokud je hodnota zakódována podle k rovnoměrnému rozdělení a ne ke skutečnému rozdělení . $X$ $N$ $P_{U}(X)$ $P(X)$ $X$ $P_{U}(X)$ $P(X)$

Podmíněná entropie -

${\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL))(P(X,Y)\paralelní P_{U}( X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\paralelní P(X)P(Y))-D_{\text{KL }}(P(X)\paralelní P_{U}(X))\\&=\mathrm {H} (X)-\jméno operátora {I} (X;Y)\\&=\log(N)- \operatorname {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\paralelní P_{U}(X)){\bigr ]}\end{aligned} }$

je počet bitů, které musí být odeslány k identifikaci ze stejně pravděpodobných výsledků, je menší než RCL součinu distribucí ze skutečné společné distribuce – tedy menší než očekávaný počet uložených bitů, které musí být odeslány, pokud hodnota je zakódována podle jednotného rozdělení a nikoli s podmíněným rozdělením dat a . $X$ $N$ $P_{U}(X)$ $P(X,Y)$ $X$ $P_{U}(X)$ $P(X\mid Y)$ $X$ $Y$

Křížová entropie mezi dvěma distribucemi pravděpodobnosti měří průměrný počet bitů potřebných k identifikaci události ze souboru možných událostí, pokud se použije schéma kódování založené na daném rozložení pravděpodobnosti spíše než „skutečné“ rozložení . Křížová entropie pro dvě distribuce a ve stejném pravděpodobnostním prostoru je definována takto: $Q$ $P$ $P$ $Q$ $H(p,q)=\název operátora {E} _{p}[-\log q]=H(p)+D_{\mathrm {KL} }(p\paralelní q).$

Kullback-Leiblerova vzdálenost a Bayesovská modifikace

V Bayesian statistice , Kullback-Leibler vzdálenost může být používána jako míra zisku informace když jde od předchozí k aposteriori rozdělení pravděpodobnosti. Pokud se objeví nějaká nová skutečnost , lze ji použít k úpravě (apriorního) rozdělení pravděpodobnosti pro na nové (posteriorní) rozdělení pravděpodobnosti pomocí Bayesovy věty : $Y=y$ $p(x\mid I)$ $X$ $p(x\mid y,I)$

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I))).

Tato distribuce má novou entropii

H{\big (}p(\cdot \mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y, já),

která může být menší nebo větší než původní entropie . Z hlediska nového rozdělení pravděpodobnosti však lze odhadnout, že použití původního kódu založeného na namísto nového kódu založeného na by přidalo očekávaný počet bitů k délce zprávy. Jedná se tedy o množství užitečných informací nebo informačních zisků týkajících se , které byly získány zjištěním, že . ${\displaystyle H{\big (}p(\cdot \mid I){\big )))$ $p(x\mid I)$ $p(x\mid y,I)$ $D_{\mathrm {KL} }{\big (}p(\cdot \mid y,I)\mid p(\cdot \mid I){\big )}=\sum _{x}p( x\mid y,I)\log {\frac {p(x\mid y,I)}{p(x\mid I)))$ $X$ $Y=y$

Pokud následně dorazí další část dat , pak rozdělení pravděpodobnosti pro x může být dále aktualizováno, aby poskytlo nový nejlepší odhad , . Pokud znovu prozkoumáme informační zisk pro použití , a ne , ukáže se, že může být více nebo méně, než se dříve myslelo: , může být nebo , než , a proto celkový informační zisk nesplňuje trojúhelníkovou nerovnost: $Y_{2}=y_{2}$ $p(x\mid y_{1},y_{2},I)$ $p(x\mid y_{1},I)$ $p(x\mid I)$ $\sum _{x}p(x\mid y_{1},y_{2},I)\log {\frac {p(x\mid y_{1},y_{2},I)} {p(x\mid I)}}$ $\leq$ $>$ $\displaystyle \sum _{x}p(x\mid y_{1},I)\log {\frac {p(x\mid y_{1},I)}{p(x\mid I) }}$

${\displaystyle D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\paralelní p(\cdot \mid I){\big )))$ , může být větší než, menší nebo roven $D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},y_{2},I)\paralelní p(\cdot \mid y_{1},I){ \big )}+D_{\mathrm {KL} }{\big (}p(\cdot \mid y_{1},I)\paralelní p(x\mid I){\big )}.$

Vše, co lze říci, je, že v průměru, když vezmeme průměr pomocí , obě strany dají průměr. $p(y_{2}\mid y_{1},x,I)$

Bayesův experimentální model

Společným cílem v experimentálním bayesovském modelu je maximalizovat očekávanou RCL mezi předchozí a zadní distribucí. [13] Když se posterior přiblíží Gaussově distribuci, model, který maximalizuje očekávanou RCL, se nazývá Bayesovské d-optimální .

Rozlišovací informace

Kullback-Leiblerovu vzdálenost lze také interpretovat jako očekávanou diskriminační informaci pro více než : průměrnou informaci na vzorek pro rozdíl ve prospěch hypotézy oproti hypotéze, kdy je hypotéza pravdivá [14] . Jiný název pro toto množství, daný Irvingem Johnem Goodem , je očekávaná důkazní hmotnost pro překročení očekávané od každého vzorku. $D_{\mathrm {KL} }(p(x\mid H_{1})\paralelní p(x\mid H_{0}))$ $H_{1}$ ${\displaystyle H_{0))$ $H_{1}$ ${\displaystyle H_{0))$ $H_{1}$ $H_{1}$ ${\displaystyle H_{0))$

Očekávaná váha důkazů pro over není stejná jako informační zisk očekávaný například pro pravděpodobnostní rozdělení p(H) hypotézy, . $H_{1}$ ${\displaystyle H_{0))$ $D_{\mathrm {KL} }(p(x\mid H_{1})\paralelní p(x\mid H_{0}))\neq IG=D_{\mathrm {KL} }(p( H\střed x)\paralelní p(H\střed I)).$

Kteroukoli z těchto dvou veličin lze použít jako užitkovou funkci v Bayesovské experimentální formě k výběru optimální další otázky pro zkoumání, ale obecně povedou spíše k odlišným experimentálním strategiím.

Na stupnici entropie informačního zisku je velmi malý rozdíl mezi téměř jistotou a plnou jistotou – téměř jisté kódování pravděpodobně nebude vyžadovat více bitů než kódování s plnou jistotou. Na druhou stranu je váha důkazů implikována v logitové škále a rozdíl mezi nimi je obrovský, téměř nekonečný. To může odrážet rozdíl mezi tím, být si téměř jistý (na pravděpodobnostní úrovni), řekněme, že Riemannova hypotéza je pravdivá, a být si zcela jistý, že je pravdivá, protože existuje matematický důkaz. Užitečné jsou dvě různé škály ztrátových funkcí pro nejistotu, podle toho, jak dobře každá odráží konkrétní okolnosti daného problému v daném problému.

Princip minimální rozlišovací informace

Myšlenka RKL jako diskriminující informace vedla Kullbacka k návrhu principu minimálních diskriminačních informací (MDI ) : vzhledem k novým skutečnostem by měla být vybrána nová distribuce z těch, které je obtížné odlišit od původní distribuce ; protože nová data generují co nejmenší informační zisk . $F$ ${\displaystyle f_{0))$ $D_{KL}(f\paralelní f_{0})$

Například, pokud máme předchozí rozdělení přes a , a pak studujeme skutečné rozdělení a . RCL mezi novou společnou distribucí pro a , a starou předchozí distribucí bude: $p(x,a)$ $X$ $A$ $A$ $u(a)$ $X$ $A$ $q(x\mid a)u(a)$ $D_{\mathrm {KL} }(q(x\mid a)u(a)\paralelní p(x,a))=\název operátora {E} _{u(a)}\{D_{\ mathrm {KL} }(q(x\mid a)\paralelní p(x\mid a))\}+D_{\mathrm {KL} }(u(a)\paralelní p(a)),$

tj. součet RKL předchozí distribuce z aktualizované distribuce plus očekávaná hodnota (použité rozdělení pravděpodobnosti ) RKL předchozí podmíněné distribuce z nové distribuce . (Všimněte si, že často později očekávaná hodnota se nazývá podmíněná RKL (nebo podmíněná relativní entropie) a označuje se [15] . To minimalizuje if nad celkovým obsahem . A všimneme si, že tento výsledek sjednocuje Bayesův teorém, pokud je nové rozdělení ve skutečnosti funkce, která s jistotou reprezentuje , která má jednu konkrétní hodnotu. $p(a)$ $A$ $u(a)$ $u(a)$ $p(x\mid a)$ $p(x\mid a)$ $D_{KL}(q(x\mid a)\paralelní p(x\mid a))$ $q(x\mid a)=p(x\mid a)$ $u(a)$ $u(a)$ $A$

Minimální rozlišovací informace lze chápat jako rozšíření Laplaceova principu lhostejnosti (také známého jako princip nedostatečného důvodu) a Jaynesova principu maximální entropie . Zejména se jedná o přirozené rozšíření principu maximální entropie z diskrétní distribuce na spojitou, pro kterou se Shannonova entropie stává nepříliš vhodnou (viz diferenciální entropie ), ale RCL je nadále stejně relevantní.

V technické literatuře je MDI někdy označován jako princip minimální křížové entropie . Minimalizace RCL od s ohledem na je ekvivalentní minimalizaci křížové entropie a , což je vhodné, pokud se pokusíme zvolit přesnou přibližnou hodnotu až . $m$ $p$ $m$ $p$ $m$ $H(p,m)=H(p)+D_{\mathrm {KL} }(p\paralelní m),$ $p$

Příklad použití

Nechť je na základě vzorku z rozdělení nějaké náhodné veličiny potřeba obnovit hustotu jejího rozdělení, danou ve tvaru parametrické rodiny , kde argument funkce je neznámý parametr. Odhad parametru lze nalézt jako řešení problému minimalizace Kullback-Leiblerovy vzdálenosti mezi hustotou a empirickou distribuční hustotou, která je považována za "pravdivou". ${\displaystyle x_{1},x_{2},\dotsc ,x_{n))$ $f(x,\theta)$ $x\in X\subseteq R$ $\theta$ $\theta$ $f(x,\theta)$

{\hat {f}}(x)={\frac {1}{n}}\součet \limits _{i=1}^{n}\mathbf {\delta } (x-x_{i})

kde je funkce Dirac : $\delta$

{\hat {\theta }}=\operatorname {arg} {\underset {\theta }{\operatorname {min} }}D_{KL}({\hat {f}}(x),f(x,\ theta ))=\jméno operátora {arg} {\underset {\theta }{\jméno operátora {max} }}\int \limits _{X}^{}{\hat {f}}(x)\ln f(x ,\theta )\,dx=\jméno operátora {arg} {\underset {\theta }{\jméno operátora {max} }}\sum \limits _{i=1}^{n}\mathbf {\ln } f( x_{i},\theta )

Je snadné vidět, že řešení tohoto problému vede k odhadu maximální pravděpodobnosti pro parametr . Pokud skutečná hustota rozdělení náhodné veličiny nepatří do rodiny , nalezený odhad parametru se nazývá kvazipravděpodobnost a poskytuje nejlepší aproximaci skutečného rozdělení reprezentovaného vzorkem mezi rozděleními s hustotami ve smyslu Kullback-Leiblerovy vzdálenosti. . $\theta$ $f(x,\theta)$ ${\klobouk {\theta ))$ $\theta$ $f(x,\theta)$

Poznámky

↑ 1 2 Kullback S. Informační teorie a statistika. — John Wiley & Sons, 1959.
↑ Kullback S., Leibler R. A. O informacích a dostatečnosti // The Annals of Mathematical Statistics. 1951.V.22. č. 1. S. 79-86.
↑ MacKay, David JC Information Theory, Inference, and Learning Algorithms. - První vydání - Cambridge University Press, 2003. - C. p. 34.
↑ Bishop C. Rozpoznávání vzorů a strojové učení. - 2006. - S. p. 55.
↑ Hobson, Arthur. Pojmy ve statistické mechanice. Gordon a Breach. - New York, 1971. - ISBN 0677032404 .
↑ Baez, John; Fritz, Tobias. Teorie a aplikace kategorií 29.—C. "Bayesovská charakterizace relativní entropie", str. 421–456..
↑ I.N. Sanov. O pravděpodobnosti velkých odchylek náhodných veličin. - 1957. - S. 11-44.
↑ Metody extrémní hodnoty Novak SY s aplikacemi pro finance kap. 14.5. — Chapman & Hall. - 2011. - ISBN 978-1-4398-3574-6 .
↑ Relativní entropie . videolekce.net. Získáno 14. června 2016. Archivováno z originálu 25. prosince 2018. (neurčitý)
↑ Duchi J. "Derivace pro lineární algebru a optimalizaci". - S. 13 .
↑ Rényi A. Teorie pravděpodobnosti. - 1970. - ISBN 0-486-45867-9 ..
↑ Rényi, A. „O opatřeních entropie a informace“. - 4. Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. - s. 547–561.
↑ Chaloner, K.; Verdinelli, I. "Bayesovský experimentální design: recenze". — Statistická věda 10, 1995. — 273–304 s.
↑ Press, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). "Oddíl 14.7.2. Kullback–Leibler Distance". Numerické recepty: Umění vědecké práce na počítači (3. vydání). Cambridge University Press. ISBN 978-0-521-88068-8 . .
↑ Thomas M. Cover, Joy A. Thomas. Základy teorie informace . — John Wiley & Sons. - 1991. - S. p.22.