Jaderná metoda

Jaderné metody ve strojovém učení jsou třídou algoritmů pro rozpoznávání vzorů , jejichž nejznámějším představitelem je stroj podporující vektor (SVM, angl. SVM ). Obecným úkolem rozpoznávání vzorů je najít a naučit se běžné typy vztahů (např. shluky , hodnocení , hlavní komponenty , korelace , klasifikace ) v souborech dat. U mnoha algoritmů, které řeší tyto problémy, jsou nezpracovaná data explicitně převedena na vektorovou reprezentaci příznaků pomocí specifického schématu distribuce příznaků.metody jádra však vyžadují pouze specifikaci konkrétního jádra , tzn. podobnostní funkce dvojic datových bodů v surové reprezentaci.

Metody jádra dostaly svůj název podle použití funkcí jádra , které jim umožňují pracovat ve vysokorozměrném prostoru implicitních prvků bez výpočtu souřadnic dat v prostoru, jednoduše výpočtem bodových součinů mezi obrázky všech dat. párů v prostoru prvků. Tato operace je často výpočetně levnější než explicitní souřadnicové výpočty. Tento přístup se nazývá „ nukleární trik “ [1] . Byly zavedeny funkce jádra pro sériová data, grafy , texty, obrázky a také pro vektory.

Mezi algoritmy schopné pracovat s jádry patří jaderný perceptron , podpůrné vektorové stroje, Gaussovy procesy , analýza hlavních komponent ( PCA ), kanonická korelační analýza , hřebenová regrese , spektrální shlukování , lineární adaptivní filtry a mnoho dalších . Libovolný lineární model lze převést na nelineární model aplikací triku jádra na model, který nahradí jeho vlastnosti (prediktory) funkcí jádra.

Většina algoritmů jádra je založena na konvexní optimalizaci nebo hledání vlastních vektorů a jsou statisticky dobře podložené. Obvykle jsou jejich statistické vlastnosti analyzovány pomocí statistické teorie učení (například pomocí Rademacherovy složitosti ).

Příčiny a neformální vysvětlení

Metody jádra lze chápat jako učení na příkladu — místo toho, aby se učily nějakou pevnou sadu parametrů odpovídajících vstupním vlastnostem, si „pamatují“ trénovací příklad a trénují podle jeho vah . Predikce pro neoznačený vstup, tzn. není zahrnuto v trénovací sadě se učí pomocí funkce podobnosti (nazývané jádro ) mezi neoznačeným vstupem a každým z trénovacích vstupů . Například binární klasifikátor jádra obvykle počítá vážený součet podobnosti pomocí vzorce $i$ $(\mathbf {x} _{i},y_{i})$ $w_{i}$ $k$ ${\mathbf {x'))$ ${\displaystyle \mathbf {x} _{i))$

{\hat {y}}=\jméno operátora {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {X'} )

kde

${\klobouček {y}}\in \{-1,+1\}$ je binární klasifikátor jádra předpokládaného označení pro neoznačený vstup , jehož skryté správné označení je potřeba; ${\mathbf {x'))$ $y$
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ je funkce jádra, která měří podobnost páru vstupů ; $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X))$
součet běží přes všech n označených příkladů v trénovací sadě klasifikátoru s ; ${\displaystyle \{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n))$ $y_{i}\in \{-1,+1\}$
$w_{i}\in \mathbb {R}$ jsou váhy tréninkových příkladů, jak je určeno algoritmem učení;
Funkce sgn určuje, zda bude predikovaná klasifikace pozitivní nebo negativní.

Jaderné klasifikátory byly popsány na počátku 60. let s vynálezem jaderného perceptronu [2] . Získaly široké přijetí spolu s popularitou podpůrných vektorových strojů v 90. letech, kdy bylo zjištěno, že SVM je konkurenceschopný s neuronovými sítěmi v úkolech, jako je rozpoznávání rukopisu .

Matematika: Nukleární trik

Trik s jádrem se vyhýbá explicitnímu mapování, které je potřeba k získání lineárního algoritmu učení pro nelineární funkci nebo hranici rozhodování . Pro všechny a ve vstupním prostoru mohou být některé funkce reprezentovány jako bodový součin v jiném prostoru . Funkce je často označována jako kernel nebo kernel function . Slovo „kernel“ se v matematice používá k označení váhové funkce nebo integrálu . $\mathbf {x}$ ${\mathbf {x'))$ ${\mathcal {X}}$ $k(\mathbf {x} ,\mathbf {x'} )$ ${\mathcal {V))$ $k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$

Některé problémy se strojovým učením mají spíše další strukturu než jen funkci váhy . Výpočty budou mnohem snazší, pokud bude možné jádro zapsat jako „mapování funkcí“ , které splňuje rovnost $k$ $\varphi \colon {\mathcal {X}}\to {\mathcal {V}}$

k(\mathbf {x} ,\mathbf {x'} )=\langle \varphi (\mathbf {x} ),\varphi (\mathbf {x'} )\rangle _{\mathcal {V} }.

Hlavním omezením je zde to, co musí být vhodný bodový produkt. Na druhou stranu, explicitní reprezentace pro není nutná, protože se jedná o tečkový produktový prostor . Alternativa vyplývá z Mercerovy věty — implicitně definovaná funkce existuje, pokud lze prostor vybavit vhodnou mírou zajišťující, že funkce splňuje Mercerovu podmínku . $\langle \cdot ,\cdot \rangle _{\mathcal {V}}$ $\varphi$ ${\mathcal {V))$ $\varphi$ ${\mathcal {X}}$ $k$

Mercerova věta je jako zobecnění výsledku z lineární algebry, která spojuje bodový součin s nějakou kladně definitní maticí . Ve skutečnosti lze Mercerův stav zredukovat na tento jednoduchý případ. Pokud jako míru zvolíme počítací míru pro všechny , která počítá počet bodů uvnitř množiny , pak integrál v Mercerově větě redukuje na součet $\mu (T)=|T|$ $T\subset X$ $T$

\sum _{i=1}^{n}\sum _{j=1}^{n}k(\mathbf {x} _{i},\mathbf {x} _{j})c_ {i}c_{j}\geq 0.

Pokud tato nerovnost platí pro všechny konečné posloupnosti bodů v a všechny množiny reálných koeficientů (srov . Positive definite kernel ), pak funkce splňuje Mercerovu podmínku. $(\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n})$ ${\mathcal {X}}$ $n$ $(c_{1},\dots ,c_{n})$ $k$

Některé algoritmy, které závisejí na libovolných vazbách v původním prostoru , budou mít ve skutečnosti lineární reprezentaci v jiných podmínkách - v rozsahu . Lineární interpretace nám dává představu o algoritmu. Navíc často není nutné počítat přímo v okamžiku výpočtu, jako je tomu u stroje podporující vektor . Někteří považují snížení času v důsledku toho za hlavní výhodu algoritmu. Výzkumníci jej používají k upřesnění významu a vlastností existujících algoritmů. ${\mathcal {X}}$ $\varphi$ $\varphi$

Teoreticky by Gramova matice s ohledem na (někdy nazývaná "kernel matice" [3] ), kde , měla být kladně semidefinitní [4] . Empiricky, pro heuristiku strojového učení může být výběr funkce , která nesplňuje Mercerovu podmínku, stále oprávněný, pokud se alespoň přibližuje intuitivní myšlence podobnosti [5] . Ať už je jádrem Mercer nebo ne, o může být nadále označováno jako „jádro“. ${\displaystyle \mathbf {K} \in \mathbb {R} ^{n\times n))$ ${\displaystyle \{\mathbf {x} _{1},\dotsc ,\mathbf {x} _{n}\))$ $K_{ij}=k(\mathbf {x} _{i},\mathbf {x} _{j})$ $k$ $k$ $k$ $k$

Pokud je funkce jádra také kovarianční funkcí , která se používá v Gaussově procesu , pak lze Gramovu matici nazvat kovarianční maticí [6] . $k$ ${\mathbf {K}}$

Aplikace

Aplikace jaderných metod jsou rozmanité a zahrnují geostatistiku [7] , kriging , vážení vzdálenosti , 3D rekonstrukci , bioinformatiku , chemoinformatiku , extrakci informací a rozpoznávání rukopisu .

Populární jádra

Fisher kernel
Graph kernel
Nuclear Smoother
Polynomiální jádro
Jádro funkce radiální báze
Řetězcová jádra

Poznámky

↑ Theodoridis, 2008 , str. 203.
↑ Aizerman, Braverman, Rozoner, 1964 , str. 821–837.
↑ Hofmann, Scholkopf, Smola, 2007 .
↑ Mohri, Rostamizadeh, Talwalkar, 2012 .
↑ Sewell, Martin Support Vector Machines: Mercer's Condition . www.svms.org . (neurčitý)
↑ Rasmussen, Williams, 2006 .
↑ Honarkhah, Caers, 2010 , str. 487–517.

Literatura

Aizerman MA, Emmanuel M. Braverman, Rozoner LI Teoretické základy metody potenciálních funkcí ve výuce rozpoznávání vzorů // Automation and Remote Control. - 1964. - T. 25 . — S. 821–837 . Citováno v článku
- Isabelle Guyon, B. Boser, Vladimír Vapnik. Automatické ladění kapacity velmi velkých klasifikátorů dimenzí VC // Pokroky v systémech zpracování neuronových informací. — 1993.
Sergios. rozpoznávání vzorů. - Elsevier BV, 2008. - ISBN 9780080949123 .
Mehryar Mohri, Afshin Rostamizadeh a Ameet Talwalkar. . - Cambridge, Londýn: MIT press, 2012. - (Adaptivní výpočty a strojové učení). - ISBN 978-0-262-01825-8 .
Thomas Hofmann, Bernhard Scholkopf, Alexander J. Smola. Metody jádra ve strojovém učení // The Annals of Statistics. - 2007. - Leden ( díl 36 , číslo 3 ).
Rasmussen CE, Williams CKI Gaussovské procesy pro strojové učení. - Cambridge, Londýn: MIT Press, 2006. - (Adaptivní výpočty a strojové učení). — ISBN 0-262-18253-X .
Honarkhah M., Caers J. Stochastická simulace vzorů pomocí modelování vzorů na základě vzdálenosti // Mathematical Geosciences . - 2010. - T. 42 . - doi : 10.1007/s11004-010-9276-7 .

Literatura

John Shawe-Taylor, Nello Cristianini. Metody jádra pro analýzu vzorů. — Cambridge University Press, 2004.
Liu W., Principe J., Haykin S. Kernel Adaptive Filtering: A Comprehensive Introduction. Wiley, 2010.

Odkaz

Webová stránka komunity Kernel-Machines Org
www.support-vector-machines.org (literatura, recenze, software, odkazy související s podporou vektorových strojů – akademický web)
onlineprediction.net Článek o metodách jádra

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-Net Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG