Empirická minimalizace rizika

Empirická minimalizace rizik ( ERM) je  princip statistické teorie učení , který definuje rodinu algoritmů učení a nastavuje teoretické hranice výkonu.

Základy

Zvažte následující situaci, která je základním nastavením mnoha řízených učebních úloh . Máme dva prostory objektů a rádi bychom trénovali funkci (často nazývanou hypotéza ), která mapuje objekt na objekt . K tomu máme k dispozici trénovací sadu instancí , kde je vstup a odpovídající odpověď, kterou od .

Formálněji předpokládejme, že existuje společné rozdělení přes a , a že trénovací množina se skládá z instancí , vybraných z nezávislých náhodných proměnných z . Všimněte si, že předpoklad společného rozdělení nám umožňuje simulovat nejistotu v predikci (například kvůli šumu v datech), protože nejde o deterministickou funkci , ale spíše o náhodnou veličinu s podmíněným rozdělením pro pevnou .

Předpokládejme také, že je nám dána nezáporná funkce reálných ztrát , která měří, jak odlišná je předpověď hypotézy od skutečného výstupu . Riziko spojené s hypotézou je pak definováno jako očekávaná hodnota ztrátová funkce:

Ztrátová funkce 0-1 se teoreticky často používá jako ztrátová funkce : , kde znamená indikátor .

Nejvyšším cílem algoritmu učení je najít hypotézu v pevné třídě funkcí, pro kterou je riziko minimální:

Empirická minimalizace rizika

Obecně nelze riziko vypočítat, protože algoritmus učení nezná distribuci (tato situace se nazývá agnostické učení ). Můžeme však vypočítat aproximaci nazývanou empirické riziko zprůměrováním ztrátové funkce přes trénovací množinu:

Princip empirické minimalizace rizika (ERM) [1] uvádí, že algoritmus učení by měl zvolit hypotézu , která riziko minimalizuje:

Potom algoritmus učení definovaný na principu MED spočívá v řešení výše uvedeného optimalizačního problému .

Vlastnosti

Výpočetní složitost

Je známo, že empirická minimalizace rizika pro klasifikační problém se ztrátovou funkcí 0-1 je NP-obtížná i pro tak relativně jednoduchou třídu problémových funkcí, jako jsou lineární klasifikátory [2] . I když to lze efektivně vyřešit, když je minimální empirické riziko nulové, tj. data jsou lineárně oddělitelná .

V praxi se s tím algoritmy automatického učení vypořádávají buď konvexní aproximací k 0-1 ztrátové funkce (podobně jako po částech lineární ztrátová funkce pro stroje s podpůrnými prvky ), což je snazší optimalizovat, nebo vytvořením předpokladu o distribuci (a pak algoritmus učení přestane být agnostický).

Viz také

Poznámky

  1. Vapnik, 1992 , str. 831–838.
  2. Feldman, Guruswami, Raghavendra, Wu, 2012 , pp. 1558-1590.

Literatura

Čtení pro další čtení