Kullback-Leibler vzdálenost

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. prosince 2021; kontroly vyžadují 2 úpravy .

Vzdálenost (divergence, divergence) Kullback-Leibler ( anglicky  Kullback-Leibler divergence ), RKL , informační nesoulad , rozlišovací informace , informační zisk , relativní entropie ( anglicky  relativní entropie ) [1]  - nezáporný funkcionál , což je asymetrická míra vzdálenost od sebe přítel dvou pravděpodobnostních rozdělení [2] definovaných na společném prostoru elementárních událostí . Často se používá v teorii informace a matematické statistice .

Definice a interpretace

Kullback-Leiblerova divergence distribuce s ohledem na (nebo relativně vzato "vzdálenost od do ") je označena . První argument funkcionálu (distribuce ) je obvykle interpretován jako pravdivé nebo a priori postulované rozdělení , druhý (distribuce ) jako předpokládané (ověřitelné). Rozdělení často slouží jako aproximace rozdělení . Hodnotu funkcionálu lze chápat jako množství ignorované distribuční informace , pokud byla použita k aproximaci . Tato míra vzdálenosti v teorii informace je také interpretována jako množství ztráty informace při nahrazení skutečné distribuce distribucí .

V obecném případě, pokud  je nějaká míra , pro kterou existují funkce absolutně spojité vzhledem k a , pak Kullback-Leibler divergence rozdělení vzhledem k je definována jako

.

Základ logaritmu v tomto vzorci nehraje významnou roli. Jeho volba umožňuje stanovit konkrétní typ funkcionálu z rodiny ekvivalentních funkcionálů a rovná se volbě měrné jednotky pro nesrovnalost Kullback-Leibler (podobně jako u výpočtu entropie ), takže je možné použít logaritmus s libovolným základ větší než jedna. Jinými slovy, funkcionál je definován až do kladného konstantního faktoru. Nejběžnější jsou přirozený logaritmus (z důvodů pohodlí), stejně jako binární logaritmus  - pro měření nesrovnalostí v bitech (obvykle používaný v teorii informace ). Kullback-Leiblerova divergence je bezrozměrná veličina , bez ohledu na rozměr původních náhodných proměnných.

Ačkoli Kullback-Leiblerova vzdálenost (RKL) je často považována za způsob měření vzdálenosti mezi rozděleními pravděpodobnosti, tento funkcionál není metrikou v prostoru rozdělení, protože nesplňuje trojúhelníkovou nerovnost a nesplňuje axiom symetrie: . Jeho infinitezimální forma, zejména jeho Hessian , však dává metrický tenzor , který je známý jako Fisherova informační metrika .

Kullback-Leiblerova vzdálenost je speciálním případem obecnější třídy nesrovnalostí nazývaných f - nesrovnalosti , stejně jako speciálním případem Bregmanovy třídy nesrovnalostí . RKL je jediná divergence pravděpodobností, která patří do obou tříd.

RKL byl původně představen Solomonem Kullbackem a Richardem Leiblerem v roce 1951 jako směrová divergence mezi dvěma distribucemi. O tom pojednává Kullbackův text Teorie a statistika informací. [jeden]

Vzdálenost Kullback-Leibler je někdy také interpretována jako informační zisk dosažený při použití namísto . Někdy se pro RKL relativní entropie relativní (označené ) nebo křížová entropie používají matoucí názvy .

Existují různé konvence, jak číst notaci . Často označovaný jednoduše jako nesoulad nebo vzdálenost mezi a , to však nevyjadřuje základní asymetrii ve vztahu. Někdy říkají "odchylka od (relativní k) " nebo, relativně vzato, "vzdálenost od " (obvykle v kontextu relativní entropie nebo informačního zisku). V tomto případě je rozdělení interpretováno jako pravdivé.

Konkrétní definice a definice z hlediska derivátu Radon – Nikodim

Pro diskrétní rozdělení pravděpodobnosti a s řadou elementárních událostí je Kullback-Leiblerova divergence rozdělení s ohledem na rozdělení (nebo "vzdálenost od do ") definována [3] jako:

.

Jinými slovy, je to střední hodnota logaritmického rozdílu mezi pravděpodobnostmi a , kde střední hodnota je vzata z rozdělení . RKL je definováno pouze tehdy, pokud , pro všechny ( absolutní spojitost ). Kdykoli je příspěvek -tého členu interpretován jako nula, protože .

Pro -rozměrná absolutně spojitá rozdělení a Kullback-Leiblerova vzdálenost je dána výrazem [4]

,

kde a  jsou funkce hustoty distribuce a , v tomto pořadí, definované na intervalu .

Obecněji, jestliže a  jsou míry pravděpodobnosti na množině a jsou absolutně spojité vzhledem k , pak RKL od do je definován jako:

,

kde  je derivát Radon-Nikodym vzhledem k , a za předpokladu, že výraz vpravo existuje. Ekvivalentně to lze zapsat jako

.

Je třeba poznamenat, že použití derivátu Radon-Nikodim slouží jako formální prostředek k psaní těchto výrazů, ale neodhaluje jejich smysluplný význam.

Funkce Kullback-Leibler divergence je bezrozměrná, ale její hodnoty mohou mít různé jednotky. Pokud jsou tedy logaritmy v těchto vzorcích brány v základu 2, pak je divergence (z hlediska teorie informace také informace) měřena v bitech ; pokud je založeno na e (s přirozenou bází), pak se divergence (informace) měří v nats . Většina vzorců obsahujících RKL si zachovává svůj význam bez ohledu na základ logaritmu.

Charakterizace

Arthur Hobson dokázal, že Kullback-Leiblerova vzdálenost je jedinou mírou rozdílu mezi rozděleními pravděpodobnosti, která splňuje některé žádoucí vlastnosti, které jsou kanonickými rozšířeními k těm, které se objevují v běžně používaných charakteristikách entropie . [5] Vzájemná informace je tedy  jediným měřítkem vzájemné závislosti, která podléhá některým souvisejícím podmínkám, protože ji lze definovat pomocí RCL .

Existuje také Bayesovská charakterizace vzdálenosti Kullback-Leibler. [6]

Motivace

V teorii informace Kraft-McMillanův teorém uvádí, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy k identifikaci jediné hodnoty lze považovat za reprezentující implicitní rozdělení pravděpodobnosti přes , kde  je délka kódu pro , v bitech. Proto lze RCL interpretovat jako očekávanou délku zprávy navíc od značky nula, která se má přenést, pokud se použije kód, který je optimální pro dané (nesprávné) rozdělení Q, ve srovnání s použitím kódu založeného na skutečném rozdělení P. .

, kde  je křížová entropie P a Q,  je entropie P.

Všimněte si také, že existuje spojení mezi RKL a "rychlostní funkcí" v teorii velkých odchylek . [7] [8]

Vlastnosti

,

kde a . Navzdory předpokladu, že transformace byla kontinuální, to v tomto případě není nutné. To také ukazuje, že RKL určuje hodnotu konzistentní s rozměrem , protože pokud x je rozměrová proměnná, pak P(x) a Q(x) mají také rozměr, protože jde o bezrozměrnou veličinu. Výraz pod logaritmem však zůstává bezrozměrný, jak by měl. Proto lze Kullback-Leiblerovu vzdálenost v jistém smyslu považovat za fundamentálnější veličinu než některé jiné vlastnosti v teorii informace [9] (jako je sebeinformace nebo Shannonova entropie ), která se může stát nedefinovanou nebo negativní pro non- diskrétní pravděpodobnosti.

Kullback-Leiblerova vzdálenost pro vícerozměrné normální rozdělení

Řekněme, že máme dvě vícerozměrná normální rozdělení , se střední hodnotou a s (reverzibilní) kovarianční maticí . Pokud mají dvě distribuce stejný rozměr k, pak RCL mezi distribucemi je následující [10] :

Logaritmus v posledním členu musí být vzat k základu e, protože všechny kromě posledního členu jsou přirozené logaritmy výrazů, které jsou buď libovolnými faktory funkce hustoty, nebo se jinak přirozeně vyskytují. Proto rovnice dává výsledek měřený v nat . Vydělením tohoto výrazu zcela log e 2 dostaneme rozdělení v bitech.

Vztah k metrikám

Dalo by se nazvat RCL " metrikou " v prostoru rozdělení pravděpodobnosti, ale to by bylo nesprávné, protože není symetrické a nesplňuje trojúhelníkovou nerovnost . Přesto, že jde o předběžnou metriku , generuje topologii v prostoru rozdělení pravděpodobnosti . Přesněji, jestliže je posloupnost distribucí taková, že , pak říkáme, že . Z Pinskerovy nerovnosti vyplývá, že — , kde druhé je potřeba pro konvergenci ve variaci .

Podle Alfreda Renyiho (1970, 1961). [11] [12]

Fisherova informační metrika

Nicméně vzdálenost Kullback-Leibler přímo souvisí s metrikou, konkrétně s Fisherovou informační metrikou . Předpokládejme, že máme rozdělení pravděpodobnosti P a Q, přičemž obě jsou parametrizována stejným (možná vícerozměrným) parametrem . Zvažte nyní dvě blízké hodnoty a , takové, že se parametr liší od parametru pouze o malé číslo . Konkrétně, rozšíření v Taylorově řadě až do prvního řádu, máme (pomocí Einsteinovy ​​konvence )

,

kde  je malá změna v j-tém směru a je odpovídající rychlost změny v rozdělení pravděpodobnosti. Vzhledem k tomu, že RCL má absolutní minimum rovné 0 při P=Q, to znamená, že RCL má druhý řád malosti z hlediska parametrů . Formálněji, stejně jako pro jakékoli minimum, první derivace divergence zmizí

a Taylorova expanze začíná od druhého řádu malosti

,

kde Hessian musí být nezáporný. Je-li dovoleno měnit se (a vynechat dílčí index 0), pak Hessian definuje (pravděpodobně degenerovanou) Riemannovu metriku v prostoru parametrů , nazývanou Fisherova informační metrika.

Vztah k dalším dimenzím teorie informace

Mnoho dalších veličin teorie informace lze interpretovat jako použití Kullback-Leiblerovy vzdálenosti na konkrétní případy.

Vlastní hodnota je RCL rozdělení pravděpodobnosti z Kroneckerova symbolu , představující jistotu, že  — tedy počet extra bitů, které je třeba přenést, aby bylo možné určit , zda je příjemci k dispozici pouze rozdělení pravděpodobnosti , nikoli skutečnost, že .

Vzájemné informace -

je RCL součinu dvou mezních rozdělení pravděpodobnosti ze společného rozdělení pravděpodobnosti  – to znamená očekávaného počtu bitů navíc, které je třeba odeslat k určení, a pokud jsou zakódovány pomocí pouze jejich mezního rozdělení namísto společného rozdělení. Ekvivalentně, pokud je známá pravděpodobnost spojení , je to očekávaný počet extra bitů, které by měly být v průměru odeslány, aby se určilo , zda není hodnota již známa přijímači.

Shannonova entropie -

je počet bitů, které musí být přeneseny, aby bylo možné identifikovat ze stejně pravděpodobných výsledků, je menší než jednotné rozdělení RCL ze skutečného rozdělení  - to znamená méně než očekávaný počet uložených bitů, které musí být odeslány, pokud je hodnota zakódována podle k rovnoměrnému rozdělení a ne ke skutečnému rozdělení .

Podmíněná entropie -

je počet bitů, které musí být odeslány k identifikaci ze stejně pravděpodobných výsledků, je menší než RCL součinu distribucí ze skutečné společné distribuce  – tedy menší než očekávaný počet uložených bitů, které musí být odeslány, pokud hodnota je zakódována podle jednotného rozdělení a nikoli s podmíněným rozdělením dat a .

Křížová entropie mezi dvěma distribucemi pravděpodobnosti měří průměrný počet bitů potřebných k identifikaci události ze souboru možných událostí, pokud se použije schéma kódování založené na daném rozložení pravděpodobnosti spíše než „skutečné“ rozložení . Křížová entropie pro dvě distribuce a ve stejném pravděpodobnostním prostoru je definována takto:

Kullback-Leiblerova vzdálenost a Bayesovská modifikace

V Bayesian statistice , Kullback-Leibler vzdálenost může být používána jako míra zisku informace když jde od předchozí k aposteriori rozdělení pravděpodobnosti. Pokud se objeví nějaká nová skutečnost , lze ji použít k úpravě (apriorního) rozdělení pravděpodobnosti pro na nové (posteriorní) rozdělení pravděpodobnosti pomocí Bayesovy věty :

Tato distribuce má novou entropii

která může být menší nebo větší než původní entropie . Z hlediska nového rozdělení pravděpodobnosti však lze odhadnout, že použití původního kódu založeného na namísto nového kódu založeného na by přidalo očekávaný počet bitů k délce zprávy. Jedná se tedy o množství užitečných informací nebo informačních zisků týkajících se , které byly získány zjištěním, že .

Pokud následně dorazí další část dat , pak rozdělení pravděpodobnosti pro x může být dále aktualizováno, aby poskytlo nový nejlepší odhad , . Pokud znovu prozkoumáme informační zisk pro použití , a ne , ukáže se, že může být více nebo méně, než se dříve myslelo: , může být nebo , než , a proto celkový informační zisk nesplňuje trojúhelníkovou nerovnost:

, může být větší než, menší nebo roven

Vše, co lze říci, je, že v průměru, když vezmeme průměr pomocí , obě strany dají průměr.

Bayesův experimentální model

Společným cílem v experimentálním bayesovském modelu  je maximalizovat očekávanou RCL mezi předchozí a zadní distribucí. [13] Když se posterior přiblíží Gaussově distribuci, model, který maximalizuje očekávanou RCL, se nazývá Bayesovské d-optimální .

Rozlišovací informace

Kullback-Leiblerovu vzdálenost lze také interpretovat jako očekávanou diskriminační informaci pro více než : průměrnou informaci na vzorek pro rozdíl ve prospěch hypotézy oproti hypotéze, kdy je hypotéza pravdivá [14] . Jiný název pro toto množství, daný Irvingem Johnem Goodem , je očekávaná důkazní hmotnost pro překročení očekávané od každého vzorku.

Očekávaná váha důkazů pro over není stejná jako informační zisk očekávaný například pro pravděpodobnostní rozdělení p(H) hypotézy, .

Kteroukoli z těchto dvou veličin lze použít jako užitkovou funkci v Bayesovské experimentální formě k výběru optimální další otázky pro zkoumání, ale obecně povedou spíše k odlišným experimentálním strategiím.

Na stupnici entropie informačního zisku je velmi malý rozdíl mezi téměř jistotou a plnou jistotou – téměř jisté kódování pravděpodobně nebude vyžadovat více bitů než kódování s plnou jistotou. Na druhou stranu je váha důkazů implikována v logitové škále a rozdíl mezi nimi je obrovský, téměř nekonečný. To může odrážet rozdíl mezi tím, být si téměř jistý (na pravděpodobnostní úrovni), řekněme, že Riemannova hypotéza je pravdivá, a být si zcela jistý, že je pravdivá, protože existuje matematický důkaz. Užitečné jsou dvě různé škály ztrátových funkcí pro nejistotu, podle toho, jak dobře každá odráží konkrétní okolnosti daného problému v daném problému.

Princip minimální rozlišovací informace

Myšlenka RKL jako diskriminující informace vedla Kullbacka k návrhu principu minimálních  diskriminačních informací (MDI ) : vzhledem k novým skutečnostem by měla být vybrána nová distribuce z těch, které je obtížné odlišit od původní distribuce ; protože nová data generují co nejmenší informační zisk .

Například, pokud máme předchozí rozdělení přes a , a pak studujeme skutečné rozdělení a . RCL mezi novou společnou distribucí pro a , a starou předchozí distribucí bude:

tj. součet RKL předchozí distribuce z aktualizované distribuce plus očekávaná hodnota (použité rozdělení pravděpodobnosti ) RKL předchozí podmíněné distribuce z nové distribuce . (Všimněte si, že často později očekávaná hodnota se nazývá podmíněná RKL (nebo podmíněná relativní entropie) a označuje se [15] . To minimalizuje if nad celkovým obsahem . A všimneme si, že tento výsledek sjednocuje Bayesův teorém, pokud je nové rozdělení ve skutečnosti funkce, která s jistotou reprezentuje , která má jednu konkrétní hodnotu.

Minimální rozlišovací informace lze chápat jako rozšíření Laplaceova principu lhostejnosti (také známého jako princip nedostatečného důvodu) a Jaynesova principu maximální entropie . Zejména se jedná o přirozené rozšíření principu maximální entropie z diskrétní distribuce na spojitou, pro kterou se Shannonova entropie stává nepříliš vhodnou (viz diferenciální entropie ), ale RCL je nadále stejně relevantní.

V technické literatuře je MDI někdy označován jako princip minimální křížové entropie . Minimalizace RCL od s ohledem na je ekvivalentní minimalizaci křížové entropie a , což je vhodné, pokud se pokusíme zvolit přesnou přibližnou hodnotu až .

Příklad použití

Nechť je na základě vzorku z rozdělení nějaké náhodné veličiny potřeba obnovit hustotu jejího rozdělení, danou ve tvaru parametrické rodiny , kde  argument funkce  je neznámý parametr. Odhad parametru lze nalézt jako řešení problému minimalizace Kullback-Leiblerovy vzdálenosti mezi hustotou a empirickou distribuční hustotou, která je považována za "pravdivou".

,

kde  je funkce Dirac :

.

Je snadné vidět, že řešení tohoto problému vede k odhadu maximální pravděpodobnosti pro parametr . Pokud skutečná hustota rozdělení náhodné veličiny nepatří do rodiny , nalezený odhad parametru se nazývá kvazipravděpodobnost a poskytuje nejlepší aproximaci skutečného rozdělení reprezentovaného vzorkem mezi rozděleními s hustotami ve smyslu Kullback-Leiblerovy vzdálenosti. .

Poznámky

  1. ↑ 1 2 Kullback S. Informační teorie a statistika. — John Wiley & Sons, 1959.
  2. Kullback S., Leibler R. A. O informacích a dostatečnosti // The Annals of Mathematical Statistics. 1951.V.22. č. 1. S. 79-86.
  3. MacKay, David JC Information Theory, Inference, and Learning Algorithms. - První vydání - Cambridge University Press, 2003. - C. p. 34.
  4. Bishop C. Rozpoznávání vzorů a strojové učení. - 2006. - S. p. 55.
  5. Hobson, Arthur. Pojmy ve statistické mechanice. Gordon a Breach. - New York, 1971. - ISBN 0677032404 .
  6. Baez, John; Fritz, Tobias. Teorie a aplikace kategorií 29.—C. "Bayesovská charakterizace relativní entropie", str. 421–456..
  7. I.N. Sanov. O pravděpodobnosti velkých odchylek náhodných veličin. - 1957. - S. 11-44.
  8. Metody extrémní hodnoty Novak SY s aplikacemi pro finance kap. 14.5. — Chapman & Hall. - 2011. - ISBN 978-1-4398-3574-6 .
  9. Relativní entropie . videolekce.net. Získáno 14. června 2016. Archivováno z originálu 25. prosince 2018.
  10. Duchi J. "Derivace pro lineární algebru a optimalizaci". - S. 13 .
  11. Rényi A. Teorie pravděpodobnosti. - 1970. - ISBN 0-486-45867-9 ..
  12. Rényi, A. „O opatřeních entropie a informace“. - 4. Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. - s. 547–561.
  13. Chaloner, K.; Verdinelli, I. "Bayesovský experimentální design: recenze". — Statistická věda 10, 1995. — 273–304 s.
  14. Press, W.H.; Teukolsky, SA; Vetterling, WT; Flannery, B. P. (2007). "Oddíl 14.7.2. Kullback–Leibler Distance". Numerické recepty: Umění vědecké práce na počítači (3. vydání). Cambridge University Press. ISBN 978-0-521-88068-8 . .
  15. Thomas M. Cover, Joy A. Thomas. Základy teorie informace . — John Wiley & Sons. - 1991. - S. p.22.