Vzdálenost (divergence, divergence) Kullback-Leibler ( anglicky Kullback-Leibler divergence ), RKL , informační nesoulad , rozlišovací informace , informační zisk , relativní entropie ( anglicky relativní entropie ) [1] - nezáporný funkcionál , což je asymetrická míra vzdálenost od sebe přítel dvou pravděpodobnostních rozdělení [2] definovaných na společném prostoru elementárních událostí . Často se používá v teorii informace a matematické statistice .
Kullback-Leiblerova divergence distribuce s ohledem na (nebo relativně vzato "vzdálenost od do ") je označena . První argument funkcionálu (distribuce ) je obvykle interpretován jako pravdivé nebo a priori postulované rozdělení , druhý (distribuce ) jako předpokládané (ověřitelné). Rozdělení často slouží jako aproximace rozdělení . Hodnotu funkcionálu lze chápat jako množství ignorované distribuční informace , pokud byla použita k aproximaci . Tato míra vzdálenosti v teorii informace je také interpretována jako množství ztráty informace při nahrazení skutečné distribuce distribucí .
V obecném případě, pokud je nějaká míra , pro kterou existují funkce absolutně spojité vzhledem k a , pak Kullback-Leibler divergence rozdělení vzhledem k je definována jako
.Základ logaritmu v tomto vzorci nehraje významnou roli. Jeho volba umožňuje stanovit konkrétní typ funkcionálu z rodiny ekvivalentních funkcionálů a rovná se volbě měrné jednotky pro nesrovnalost Kullback-Leibler (podobně jako u výpočtu entropie ), takže je možné použít logaritmus s libovolným základ větší než jedna. Jinými slovy, funkcionál je definován až do kladného konstantního faktoru. Nejběžnější jsou přirozený logaritmus (z důvodů pohodlí), stejně jako binární logaritmus - pro měření nesrovnalostí v bitech (obvykle používaný v teorii informace ). Kullback-Leiblerova divergence je bezrozměrná veličina , bez ohledu na rozměr původních náhodných proměnných.
Ačkoli Kullback-Leiblerova vzdálenost (RKL) je často považována za způsob měření vzdálenosti mezi rozděleními pravděpodobnosti, tento funkcionál není metrikou v prostoru rozdělení, protože nesplňuje trojúhelníkovou nerovnost a nesplňuje axiom symetrie: . Jeho infinitezimální forma, zejména jeho Hessian , však dává metrický tenzor , který je známý jako Fisherova informační metrika .
Kullback-Leiblerova vzdálenost je speciálním případem obecnější třídy nesrovnalostí nazývaných f - nesrovnalosti , stejně jako speciálním případem Bregmanovy třídy nesrovnalostí . RKL je jediná divergence pravděpodobností, která patří do obou tříd.
RKL byl původně představen Solomonem Kullbackem a Richardem Leiblerem v roce 1951 jako směrová divergence mezi dvěma distribucemi. O tom pojednává Kullbackův text Teorie a statistika informací. [jeden]
Vzdálenost Kullback-Leibler je někdy také interpretována jako informační zisk dosažený při použití namísto . Někdy se pro RKL relativní entropie relativní (označené ) nebo křížová entropie používají matoucí názvy .
Existují různé konvence, jak číst notaci . Často označovaný jednoduše jako nesoulad nebo vzdálenost mezi a , to však nevyjadřuje základní asymetrii ve vztahu. Někdy říkají "odchylka od (relativní k) " nebo, relativně vzato, "vzdálenost od " (obvykle v kontextu relativní entropie nebo informačního zisku). V tomto případě je rozdělení interpretováno jako pravdivé.
Pro diskrétní rozdělení pravděpodobnosti a s řadou elementárních událostí je Kullback-Leiblerova divergence rozdělení s ohledem na rozdělení (nebo "vzdálenost od do ") definována [3] jako:
.Jinými slovy, je to střední hodnota logaritmického rozdílu mezi pravděpodobnostmi a , kde střední hodnota je vzata z rozdělení . RKL je definováno pouze tehdy, pokud , pro všechny ( absolutní spojitost ). Kdykoli je příspěvek -tého členu interpretován jako nula, protože .
Pro -rozměrná absolutně spojitá rozdělení a Kullback-Leiblerova vzdálenost je dána výrazem [4]
,kde a jsou funkce hustoty distribuce a , v tomto pořadí, definované na intervalu .
Obecněji, jestliže a jsou míry pravděpodobnosti na množině a jsou absolutně spojité vzhledem k , pak RKL od do je definován jako:
,kde je derivát Radon-Nikodym vzhledem k , a za předpokladu, že výraz vpravo existuje. Ekvivalentně to lze zapsat jako
.Je třeba poznamenat, že použití derivátu Radon-Nikodim slouží jako formální prostředek k psaní těchto výrazů, ale neodhaluje jejich smysluplný význam.
Funkce Kullback-Leibler divergence je bezrozměrná, ale její hodnoty mohou mít různé jednotky. Pokud jsou tedy logaritmy v těchto vzorcích brány v základu 2, pak je divergence (z hlediska teorie informace také informace) měřena v bitech ; pokud je založeno na e (s přirozenou bází), pak se divergence (informace) měří v nats . Většina vzorců obsahujících RKL si zachovává svůj význam bez ohledu na základ logaritmu.
Arthur Hobson dokázal, že Kullback-Leiblerova vzdálenost je jedinou mírou rozdílu mezi rozděleními pravděpodobnosti, která splňuje některé žádoucí vlastnosti, které jsou kanonickými rozšířeními k těm, které se objevují v běžně používaných charakteristikách entropie . [5] Vzájemná informace je tedy jediným měřítkem vzájemné závislosti, která podléhá některým souvisejícím podmínkám, protože ji lze definovat pomocí RCL .
Existuje také Bayesovská charakterizace vzdálenosti Kullback-Leibler. [6]
V teorii informace Kraft-McMillanův teorém uvádí, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy k identifikaci jediné hodnoty lze považovat za reprezentující implicitní rozdělení pravděpodobnosti přes , kde je délka kódu pro , v bitech. Proto lze RCL interpretovat jako očekávanou délku zprávy navíc od značky nula, která se má přenést, pokud se použije kód, který je optimální pro dané (nesprávné) rozdělení Q, ve srovnání s použitím kódu založeného na skutečném rozdělení P. .
, kde je křížová entropie P a Q, je entropie P.
Všimněte si také, že existuje spojení mezi RKL a "rychlostní funkcí" v teorii velkých odchylek . [7] [8]
,
kde a . Navzdory předpokladu, že transformace byla kontinuální, to v tomto případě není nutné. To také ukazuje, že RKL určuje hodnotu konzistentní s rozměrem , protože pokud x je rozměrová proměnná, pak P(x) a Q(x) mají také rozměr, protože jde o bezrozměrnou veličinu. Výraz pod logaritmem však zůstává bezrozměrný, jak by měl. Proto lze Kullback-Leiblerovu vzdálenost v jistém smyslu považovat za fundamentálnější veličinu než některé jiné vlastnosti v teorii informace [9] (jako je sebeinformace nebo Shannonova entropie ), která se může stát nedefinovanou nebo negativní pro non- diskrétní pravděpodobnosti.
Řekněme, že máme dvě vícerozměrná normální rozdělení , se střední hodnotou a s (reverzibilní) kovarianční maticí . Pokud mají dvě distribuce stejný rozměr k, pak RCL mezi distribucemi je následující [10] :
Logaritmus v posledním členu musí být vzat k základu e, protože všechny kromě posledního členu jsou přirozené logaritmy výrazů, které jsou buď libovolnými faktory funkce hustoty, nebo se jinak přirozeně vyskytují. Proto rovnice dává výsledek měřený v nat . Vydělením tohoto výrazu zcela log e 2 dostaneme rozdělení v bitech.
Dalo by se nazvat RCL " metrikou " v prostoru rozdělení pravděpodobnosti, ale to by bylo nesprávné, protože není symetrické a nesplňuje trojúhelníkovou nerovnost . Přesto, že jde o předběžnou metriku , generuje topologii v prostoru rozdělení pravděpodobnosti . Přesněji, jestliže je posloupnost distribucí taková, že , pak říkáme, že . Z Pinskerovy nerovnosti vyplývá, že — , kde druhé je potřeba pro konvergenci ve variaci .
Podle Alfreda Renyiho (1970, 1961). [11] [12]
Nicméně vzdálenost Kullback-Leibler přímo souvisí s metrikou, konkrétně s Fisherovou informační metrikou . Předpokládejme, že máme rozdělení pravděpodobnosti P a Q, přičemž obě jsou parametrizována stejným (možná vícerozměrným) parametrem . Zvažte nyní dvě blízké hodnoty a , takové, že se parametr liší od parametru pouze o malé číslo . Konkrétně, rozšíření v Taylorově řadě až do prvního řádu, máme (pomocí Einsteinovy konvence )
,
kde je malá změna v j-tém směru a je odpovídající rychlost změny v rozdělení pravděpodobnosti. Vzhledem k tomu, že RCL má absolutní minimum rovné 0 při P=Q, to znamená, že RCL má druhý řád malosti z hlediska parametrů . Formálněji, stejně jako pro jakékoli minimum, první derivace divergence zmizí
a Taylorova expanze začíná od druhého řádu malosti
,
kde Hessian musí být nezáporný. Je-li dovoleno měnit se (a vynechat dílčí index 0), pak Hessian definuje (pravděpodobně degenerovanou) Riemannovu metriku v prostoru parametrů , nazývanou Fisherova informační metrika.
Mnoho dalších veličin teorie informace lze interpretovat jako použití Kullback-Leiblerovy vzdálenosti na konkrétní případy.
Vlastní hodnota je RCL rozdělení pravděpodobnosti z Kroneckerova symbolu , představující jistotu, že — tedy počet extra bitů, které je třeba přenést, aby bylo možné určit , zda je příjemci k dispozici pouze rozdělení pravděpodobnosti , nikoli skutečnost, že .
je RCL součinu dvou mezních rozdělení pravděpodobnosti ze společného rozdělení pravděpodobnosti – to znamená očekávaného počtu bitů navíc, které je třeba odeslat k určení, a pokud jsou zakódovány pomocí pouze jejich mezního rozdělení namísto společného rozdělení. Ekvivalentně, pokud je známá pravděpodobnost spojení , je to očekávaný počet extra bitů, které by měly být v průměru odeslány, aby se určilo , zda není hodnota již známa přijímači.
je počet bitů, které musí být přeneseny, aby bylo možné identifikovat ze stejně pravděpodobných výsledků, je menší než jednotné rozdělení RCL ze skutečného rozdělení - to znamená méně než očekávaný počet uložených bitů, které musí být odeslány, pokud je hodnota zakódována podle k rovnoměrnému rozdělení a ne ke skutečnému rozdělení .
je počet bitů, které musí být odeslány k identifikaci ze stejně pravděpodobných výsledků, je menší než RCL součinu distribucí ze skutečné společné distribuce – tedy menší než očekávaný počet uložených bitů, které musí být odeslány, pokud hodnota je zakódována podle jednotného rozdělení a nikoli s podmíněným rozdělením dat a .
Křížová entropie mezi dvěma distribucemi pravděpodobnosti měří průměrný počet bitů potřebných k identifikaci události ze souboru možných událostí, pokud se použije schéma kódování založené na daném rozložení pravděpodobnosti spíše než „skutečné“ rozložení . Křížová entropie pro dvě distribuce a ve stejném pravděpodobnostním prostoru je definována takto:
V Bayesian statistice , Kullback-Leibler vzdálenost může být používána jako míra zisku informace když jde od předchozí k aposteriori rozdělení pravděpodobnosti. Pokud se objeví nějaká nová skutečnost , lze ji použít k úpravě (apriorního) rozdělení pravděpodobnosti pro na nové (posteriorní) rozdělení pravděpodobnosti pomocí Bayesovy věty :
Tato distribuce má novou entropii
která může být menší nebo větší než původní entropie . Z hlediska nového rozdělení pravděpodobnosti však lze odhadnout, že použití původního kódu založeného na namísto nového kódu založeného na by přidalo očekávaný počet bitů k délce zprávy. Jedná se tedy o množství užitečných informací nebo informačních zisků týkajících se , které byly získány zjištěním, že .
Pokud následně dorazí další část dat , pak rozdělení pravděpodobnosti pro x může být dále aktualizováno, aby poskytlo nový nejlepší odhad , . Pokud znovu prozkoumáme informační zisk pro použití , a ne , ukáže se, že může být více nebo méně, než se dříve myslelo: , může být nebo , než , a proto celkový informační zisk nesplňuje trojúhelníkovou nerovnost:
, může být větší než, menší nebo roven
Vše, co lze říci, je, že v průměru, když vezmeme průměr pomocí , obě strany dají průměr.
Společným cílem v experimentálním bayesovském modelu je maximalizovat očekávanou RCL mezi předchozí a zadní distribucí. [13] Když se posterior přiblíží Gaussově distribuci, model, který maximalizuje očekávanou RCL, se nazývá Bayesovské d-optimální .
Kullback-Leiblerovu vzdálenost lze také interpretovat jako očekávanou diskriminační informaci pro více než : průměrnou informaci na vzorek pro rozdíl ve prospěch hypotézy oproti hypotéze, kdy je hypotéza pravdivá [14] . Jiný název pro toto množství, daný Irvingem Johnem Goodem , je očekávaná důkazní hmotnost pro překročení očekávané od každého vzorku.
Očekávaná váha důkazů pro over není stejná jako informační zisk očekávaný například pro pravděpodobnostní rozdělení p(H) hypotézy, .
Kteroukoli z těchto dvou veličin lze použít jako užitkovou funkci v Bayesovské experimentální formě k výběru optimální další otázky pro zkoumání, ale obecně povedou spíše k odlišným experimentálním strategiím.
Na stupnici entropie informačního zisku je velmi malý rozdíl mezi téměř jistotou a plnou jistotou – téměř jisté kódování pravděpodobně nebude vyžadovat více bitů než kódování s plnou jistotou. Na druhou stranu je váha důkazů implikována v logitové škále a rozdíl mezi nimi je obrovský, téměř nekonečný. To může odrážet rozdíl mezi tím, být si téměř jistý (na pravděpodobnostní úrovni), řekněme, že Riemannova hypotéza je pravdivá, a být si zcela jistý, že je pravdivá, protože existuje matematický důkaz. Užitečné jsou dvě různé škály ztrátových funkcí pro nejistotu, podle toho, jak dobře každá odráží konkrétní okolnosti daného problému v daném problému.
Myšlenka RKL jako diskriminující informace vedla Kullbacka k návrhu principu minimálních diskriminačních informací (MDI ) : vzhledem k novým skutečnostem by měla být vybrána nová distribuce z těch, které je obtížné odlišit od původní distribuce ; protože nová data generují co nejmenší informační zisk .
Například, pokud máme předchozí rozdělení přes a , a pak studujeme skutečné rozdělení a . RCL mezi novou společnou distribucí pro a , a starou předchozí distribucí bude:
tj. součet RKL předchozí distribuce z aktualizované distribuce plus očekávaná hodnota (použité rozdělení pravděpodobnosti ) RKL předchozí podmíněné distribuce z nové distribuce . (Všimněte si, že často později očekávaná hodnota se nazývá podmíněná RKL (nebo podmíněná relativní entropie) a označuje se [15] . To minimalizuje if nad celkovým obsahem . A všimneme si, že tento výsledek sjednocuje Bayesův teorém, pokud je nové rozdělení ve skutečnosti funkce, která s jistotou reprezentuje , která má jednu konkrétní hodnotu.
Minimální rozlišovací informace lze chápat jako rozšíření Laplaceova principu lhostejnosti (také známého jako princip nedostatečného důvodu) a Jaynesova principu maximální entropie . Zejména se jedná o přirozené rozšíření principu maximální entropie z diskrétní distribuce na spojitou, pro kterou se Shannonova entropie stává nepříliš vhodnou (viz diferenciální entropie ), ale RCL je nadále stejně relevantní.
V technické literatuře je MDI někdy označován jako princip minimální křížové entropie . Minimalizace RCL od s ohledem na je ekvivalentní minimalizaci křížové entropie a , což je vhodné, pokud se pokusíme zvolit přesnou přibližnou hodnotu až .
Nechť je na základě vzorku z rozdělení nějaké náhodné veličiny potřeba obnovit hustotu jejího rozdělení, danou ve tvaru parametrické rodiny , kde argument funkce je neznámý parametr. Odhad parametru lze nalézt jako řešení problému minimalizace Kullback-Leiblerovy vzdálenosti mezi hustotou a empirickou distribuční hustotou, která je považována za "pravdivou".
,kde je funkce Dirac :
.Je snadné vidět, že řešení tohoto problému vede k odhadu maximální pravděpodobnosti pro parametr . Pokud skutečná hustota rozdělení náhodné veličiny nepatří do rodiny , nalezený odhad parametru se nazývá kvazipravděpodobnost a poskytuje nejlepší aproximaci skutečného rozdělení reprezentovaného vzorkem mezi rozděleními s hustotami ve smyslu Kullback-Leiblerovy vzdálenosti. .