Jaderné metody ve strojovém učení jsou třídou algoritmů pro rozpoznávání vzorů , jejichž nejznámějším představitelem je stroj podporující vektor (SVM, angl. SVM ). Obecným úkolem rozpoznávání vzorů je najít a naučit se běžné typy vztahů (např. shluky , hodnocení , hlavní komponenty , korelace , klasifikace ) v souborech dat. U mnoha algoritmů, které řeší tyto problémy, jsou nezpracovaná data explicitně převedena na vektorovou reprezentaci příznaků pomocí specifického schématu distribuce příznaků.metody jádra však vyžadují pouze specifikaci konkrétního jádra , tzn. podobnostní funkce dvojic datových bodů v surové reprezentaci.
Metody jádra dostaly svůj název podle použití funkcí jádra , které jim umožňují pracovat ve vysokorozměrném prostoru implicitních prvků bez výpočtu souřadnic dat v prostoru, jednoduše výpočtem bodových součinů mezi obrázky všech dat. párů v prostoru prvků. Tato operace je často výpočetně levnější než explicitní souřadnicové výpočty. Tento přístup se nazývá „ nukleární trik “ [1] . Byly zavedeny funkce jádra pro sériová data, grafy , texty, obrázky a také pro vektory.
Mezi algoritmy schopné pracovat s jádry patří jaderný perceptron , podpůrné vektorové stroje, Gaussovy procesy , analýza hlavních komponent ( PCA ), kanonická korelační analýza , hřebenová regrese , spektrální shlukování , lineární adaptivní filtry a mnoho dalších . Libovolný lineární model lze převést na nelineární model aplikací triku jádra na model, který nahradí jeho vlastnosti (prediktory) funkcí jádra.
Většina algoritmů jádra je založena na konvexní optimalizaci nebo hledání vlastních vektorů a jsou statisticky dobře podložené. Obvykle jsou jejich statistické vlastnosti analyzovány pomocí statistické teorie učení (například pomocí Rademacherovy složitosti ).
Metody jádra lze chápat jako učení na příkladu — místo toho, aby se učily nějakou pevnou sadu parametrů odpovídajících vstupním vlastnostem, si „pamatují“ trénovací příklad a trénují podle jeho vah . Predikce pro neoznačený vstup, tzn. není zahrnuto v trénovací sadě se učí pomocí funkce podobnosti (nazývané jádro ) mezi neoznačeným vstupem a každým z trénovacích vstupů . Například binární klasifikátor jádra obvykle počítá vážený součet podobnosti pomocí vzorce
,kde
Jaderné klasifikátory byly popsány na počátku 60. let s vynálezem jaderného perceptronu [2] . Získaly široké přijetí spolu s popularitou podpůrných vektorových strojů v 90. letech, kdy bylo zjištěno, že SVM je konkurenceschopný s neuronovými sítěmi v úkolech, jako je rozpoznávání rukopisu .
Trik s jádrem se vyhýbá explicitnímu mapování, které je potřeba k získání lineárního algoritmu učení pro nelineární funkci nebo hranici rozhodování . Pro všechny a ve vstupním prostoru mohou být některé funkce reprezentovány jako bodový součin v jiném prostoru . Funkce je často označována jako kernel nebo kernel function . Slovo „kernel“ se v matematice používá k označení váhové funkce nebo integrálu .
Některé problémy se strojovým učením mají spíše další strukturu než jen funkci váhy . Výpočty budou mnohem snazší, pokud bude možné jádro zapsat jako „mapování funkcí“ , které splňuje rovnost
Hlavním omezením je zde to, co musí být vhodný bodový produkt. Na druhou stranu, explicitní reprezentace pro není nutná, protože se jedná o tečkový produktový prostor . Alternativa vyplývá z Mercerovy věty — implicitně definovaná funkce existuje, pokud lze prostor vybavit vhodnou mírou zajišťující, že funkce splňuje Mercerovu podmínku .
Mercerova věta je jako zobecnění výsledku z lineární algebry, která spojuje bodový součin s nějakou kladně definitní maticí . Ve skutečnosti lze Mercerův stav zredukovat na tento jednoduchý případ. Pokud jako míru zvolíme počítací míru pro všechny , která počítá počet bodů uvnitř množiny , pak integrál v Mercerově větě redukuje na součet
Pokud tato nerovnost platí pro všechny konečné posloupnosti bodů v a všechny množiny reálných koeficientů (srov . Positive definite kernel ), pak funkce splňuje Mercerovu podmínku.
Některé algoritmy, které závisejí na libovolných vazbách v původním prostoru , budou mít ve skutečnosti lineární reprezentaci v jiných podmínkách - v rozsahu . Lineární interpretace nám dává představu o algoritmu. Navíc často není nutné počítat přímo v okamžiku výpočtu, jako je tomu u stroje podporující vektor . Někteří považují snížení času v důsledku toho za hlavní výhodu algoritmu. Výzkumníci jej používají k upřesnění významu a vlastností existujících algoritmů.
Teoreticky by Gramova matice s ohledem na (někdy nazývaná "kernel matice" [3] ), kde , měla být kladně semidefinitní [4] . Empiricky, pro heuristiku strojového učení může být výběr funkce , která nesplňuje Mercerovu podmínku, stále oprávněný, pokud se alespoň přibližuje intuitivní myšlence podobnosti [5] . Ať už je jádrem Mercer nebo ne, o může být nadále označováno jako „jádro“.
Pokud je funkce jádra také kovarianční funkcí , která se používá v Gaussově procesu , pak lze Gramovu matici nazvat kovarianční maticí [6] .
Aplikace jaderných metod jsou rozmanité a zahrnují geostatistiku [7] , kriging , vážení vzdálenosti , 3D rekonstrukci , bioinformatiku , chemoinformatiku , extrakci informací a rozpoznávání rukopisu .
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|