Bragmanova divergence

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 20. listopadu 2021; kontroly vyžadují 2 úpravy .

Bragmanova divergence nebo Bragmanova vzdálenost je míra vzdálenosti mezi dvěma body , definovaná v podmínkách přísně konvexní funkce . Tvoří důležitou třídu divergencí . Pokud jsou body interpretovány jako rozdělení pravděpodobnosti , buď jako hodnoty parametrického modelu , nebo jako soubor pozorovaných hodnot, pak výsledná vzdálenost je statistická vzdálenost . Nejzákladnější Bragmanova divergence je kvadratická euklidovská vzdálenost .

Bragmanovy divergence jsou podobné metrikám , ale nesplňují ani trojúhelníkovou nerovnost , ani symetrii (v obecném případě), ale splňují zobecněnou Pythagorovu větu . V informační geometrii je odpovídající statistická varieta interpretována jako plochá varieta (nebo duální). To umožňuje mnoho optimalizačních technik zobecnit na Bragmanovu divergenci, která geometricky odpovídá zobecnění metody nejmenších čtverců .

Bragmanova divergence je pojmenována po Levu Meeroviči Bragmanovi , který tento koncept navrhl v roce 1967.

Definice

Dovolit je spojitě diferencovatelná přísně konvexní funkce definovaná na uzavřené konvexní množině .

Bragmanova vzdálenost spojená s funkcí F pro body je rozdíl mezi hodnotou funkce F v bodě p a hodnotou Taylorova rozvoje prvního řádu funkce F v bodě q , vypočtené v bodě p :

Vlastnosti

Zde jsou duální body odpovídající p a q.

Příklady

je tvořena funkcí negativní entropie zobecněno konvexní funkcí

Zobecnění projektivní duality

Klíčovým nástrojem ve výpočetní geometrii je myšlenka projektivní duality , která mapuje body do nadroviny a naopak, přičemž stále zachovává vztahy incidence a nad/pod. Existuje mnoho typů projektivní duality – obvyklá forma mapuje bod do nadroviny . Toto zobrazení lze chápat (pokud nadrovinu ztotožníme s normálou) jako konvexní sdružené zobrazení, které vezme bod p do duálního bodu , kde F definuje d - rozměrný paraboloid .

Pokud nyní nahradíme paraboloid jakoukoli konvexní funkcí, získáme další duální zobrazení, které zachová incidenci a vlastnosti nad/pod standardní projektivní dualitou. Z toho vyplývá, že přirozené duální koncepty výpočetní geometrie, jako Voronoiův diagram a Delaunayovy triangulace , si zachovávají svou hodnotu v prostorech se vzdáleností definovanou libovolnou Bragmanovou divergenci. Algoritmy "normální" geometrie se přirozeně rozšiřují i ​​do těchto prostorů [4] .

Zobecnění Bragmanovy divergence

Bragmanovy divergence lze interpretovat jako limitující případy Jensenových skew divergencí [5] (viz článek Nielsena a Bolze [6] ). Jensenovy divergence lze zobecnit pomocí komparativní konvexity a zobecnění limitních případů těchto zkreslených Jensenových divergencí vede ke zobecněným Bragmanovým divergencím (viz článek Nielsena a Nocka [7] ). Tetivová divergence Bragmana [8] se získá tak, že místo tečny vezmeme akord.

Bragmanova divergence na jiných objektech

Bragmanovu divergenci lze definovat pro matice, funkce a míry (rozdělení). Bragmanova divergence pro matice zahrnuje Steinovou ztrátovou funkci [9] a Neumannovu entropii . Bragmanovy divergence pro funkce zahrnují úplnou druhou mocninu chyby, relativní entropii a druhou mocninu (viz Frigik et al . [3] níže pro definice a vlastnosti). Podobně je Bragmanova divergence definována také pro množiny pomocí submodulární množinové funkce , známé jako diskrétní analogie konvexní funkce . Submodulární Bragmanova divergence zahrnuje řadu diskrétních měření, jako je Hammingova vzdálenost , přesnost a vyvolání , vzájemná informace a některé další míry vzdálenosti na množinách ( podrobnosti a vlastnosti submodulární Bragmanovy divergence viz Ayer a Bilmes [10] ).

Seznam běžných divergenci Bragmanovy matice lze nalézt v tabulce 15.1 v článku Nocka, Magdalow, Bryce, Nielsena [11] .

Aplikace

Ve strojovém učení se Bragmanova divergence používá k výpočtu modifikované logistické chybové funkce, která funguje lépe než softmax na zašuměných datech [12] .

Poznámky

  1. Bauschke, Borwein, 2001 .
  2. Banerjee, Merugu, Dhillon, Ghosh, 2005 .
  3. 1 2 Frigyik, Srivastava, Gupta, 2008 .
  4. Boissonnat, Nielsen, Nock, 2010 .
  5. ↑ Název Jensen-Shannon Divergence zakořenil v ruskojazyčné literatuře , ačkoli Jensen je Dán a měl by se číst v dánštině, nikoli v angličtině. Wikipedia má článek o Jensenovi .
  6. Nielsen, Boltz, 2011 .
  7. Nielsen, Nock, 2017 .
  8. Nielsen, Frank & Nock, Richard (2018), The Bregman akord divergence, arΧiv : 1810.09113 [cs.LG]. 
  9. Termín Steinova ztráta viz https://www.jstor.org/stable/2241373?seq=1 Archivováno 17. listopadu 2020 na Wayback Machine
  10. Iyer, Bilmes, 2012 .
  11. Nock, Magdalou, Briys, Nielsen, 2012 , str. 373-402.
  12. Amid, Warmuth, Anil, Koren, 2019 , str. 14987-14996.

Literatura