Empirická minimalizace rizik ( ERM) je princip statistické teorie učení , který definuje rodinu algoritmů učení a nastavuje teoretické hranice výkonu.
Zvažte následující situaci, která je základním nastavením mnoha řízených učebních úloh . Máme dva prostory objektů a rádi bychom trénovali funkci (často nazývanou hypotéza ), která mapuje objekt na objekt . K tomu máme k dispozici trénovací sadu instancí , kde je vstup a odpovídající odpověď, kterou od .
Formálněji předpokládejme, že existuje společné rozdělení přes a , a že trénovací množina se skládá z instancí , vybraných z nezávislých náhodných proměnných z . Všimněte si, že předpoklad společného rozdělení nám umožňuje simulovat nejistotu v predikci (například kvůli šumu v datech), protože nejde o deterministickou funkci , ale spíše o náhodnou veličinu s podmíněným rozdělením pro pevnou .
Předpokládejme také, že je nám dána nezáporná funkce reálných ztrát , která měří, jak odlišná je předpověď hypotézy od skutečného výstupu . Riziko spojené s hypotézou je pak definováno jako očekávaná hodnota ztrátová funkce:
Ztrátová funkce 0-1 se teoreticky často používá jako ztrátová funkce : , kde znamená indikátor .
Nejvyšším cílem algoritmu učení je najít hypotézu v pevné třídě funkcí, pro kterou je riziko minimální:
Obecně nelze riziko vypočítat, protože algoritmus učení nezná distribuci (tato situace se nazývá agnostické učení ). Můžeme však vypočítat aproximaci nazývanou empirické riziko zprůměrováním ztrátové funkce přes trénovací množinu:
Princip empirické minimalizace rizika (ERM) [1] uvádí, že algoritmus učení by měl zvolit hypotézu , která riziko minimalizuje:
Potom algoritmus učení definovaný na principu MED spočívá v řešení výše uvedeného optimalizačního problému .
Je známo, že empirická minimalizace rizika pro klasifikační problém se ztrátovou funkcí 0-1 je NP-obtížná i pro tak relativně jednoduchou třídu problémových funkcí, jako jsou lineární klasifikátory [2] . I když to lze efektivně vyřešit, když je minimální empirické riziko nulové, tj. data jsou lineárně oddělitelná .
V praxi se s tím algoritmy automatického učení vypořádávají buď konvexní aproximací k 0-1 ztrátové funkce (podobně jako po částech lineární ztrátová funkce pro stroje s podpůrnými prvky ), což je snazší optimalizovat, nebo vytvořením předpokladu o distribuci (a pak algoritmus učení přestane být agnostický).
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|