Pravděpodobně Approximately Correct Learning ( PAC learning ) je schéma strojového učení , které využívá koncepty asymptotické spolehlivosti a výpočetní složitosti . Navrhl v roce 1984 Leslie Valiant [1] .
V tomto schématu učitel obdrží vzorky a musí si vybrat zobecňující funkci (nazývanou hypotéza ) z určité třídy možných funkcí. Cílem je funkce, která s vysokou pravděpodobností (proto to "pravděpodobně" v názvu) bude mít nízkou chybu zobecnění (proto to "přibližně správné" v názvu). Učitel by měl být schopen naučit koncept [2] udávající libovolný aproximační faktor, pravděpodobnost úspěchu nebo rozdělení vzorku .
Model byl později rozšířen o zpracování šumu (nesprávně klasifikované vzorky).
Důležitou novinkou schématu MIC je využití konceptu výpočetní složitosti strojového učení. Zejména se od učitele očekává, že najde efektivní funkce (které jsou omezeny na běh a prostor vyžadovaný polynomem velikosti vzorku) a učitel musí implementovat efektivní postup (poptáním o velikosti příkladu omezeného polynomem velikosti vzorku). velikost konceptu, upravená aproximací a hranicemi pravděpodobnosti ).
Pro formální definici se používá nějaká daná množina , nazývaná prostor funkcí nebo kódování všech vzorků. Například v problému optického rozpoznávání znaků je prostor příznaků , a v problému nalezení intervalu (správná klasifikace bodů uvnitř intervalu jako kladných a mimo interval jako záporných) je prostor příznaků množinou všech ohraničených intervaly v .
Dalším konceptem použitým ve schématu je koncept - podmnožina . Například sada všech bitových sekvencí v kódování vzoru písmene "P" je jedním z konceptů v problému OCR. Příkladem konceptu pro problém hledání intervalu je množina otevřených intervalů , z nichž každý obsahuje pouze kladné body. Třída pojmů je soubor pojmů nad . To může být množina všech podmnožin rámce 4-connected pole bitů (šířka písma je 1).
Dovolit být procedura, která generuje příklad pomocí rozdělení pravděpodobnosti a dává správné označení , což je 1, pokud a 0 jinak. Nyní, za předpokladu, předpokládejme, že existuje algoritmus a polynom z (a další relevantní parametry třídy ) takový, že daný vzorek velikosti , nakreslený podle , pak s pravděpodobností alespoň výstupem algoritmu je hypotéza , která má střední hodnotu chyba, menší nebo rovna pro stejné rozdělení . Dále, pokud výše uvedené tvrzení pro algoritmus platí pro jakýkoli koncept a pro jakoukoli distribuci přes a pro všechny , pak je (efektivně) možno se naučit VPK (nebo se naučit VPK bez distribuce ). V tomto případě se má za to, že jde o algoritmus učení VPK pro .
Za určitých podmínek pravidelnosti jsou tyto tři podmínky ekvivalentní:
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|