Online strojové učení

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 9. listopadu 2021; kontroly vyžadují 2 úpravy .

Online strojové učení je technika strojového učení , kde jsou data zpřístupňována v sekvenčním pořadí a používána k aktualizaci nejlepší predikce pro následná data, prováděná v každém tréninkovém kroku. Metoda je opačná k technice dávkového tréninku, ve které je nejlepší předpověď generována najednou z úplného souboru dat tréninku. Online učení je běžná technika používaná v oblastech strojového učení, když není možné trénovat na celé datové sadě, například když jsou potřeba algoritmy, které pracují s externí pamětí. Metoda se také používá v situacích, kdy algoritmus musí dynamicky přizpůsobovat nové vzory v datech nebo když se samotná data tvoří jako funkce času, např.předpověď ceny akciového trhu . Algoritmy online učení mohou být náchylné ke katastrofické interferenci , což je problém, který lze vyřešit postupným učením [1] .

Úvod

Za podmínek supervizovaného učení se trénuje funkce , kde je považován za prostor vstupních dat a je prostorem výstupních dat, který dobře predikuje na prvcích společného rozdělení pravděpodobnosti na . Ve skutečnosti při tréninku není skutečné rozdělení nikdy známo. Obvykle je naopak přístup k tréninkové sadě příkladů . Za těchto podmínek je ztrátová funkce dána jako , takže měří rozdíl mezi předpokládanou hodnotou a skutečnou hodnotou . Ideálním cílem je vybrat funkci , kde je prostor funkcí, nazývaný prostor hypotéz, tak, aby celková ztráta byla v určitém smyslu minimální. V závislosti na typu modelu (statistický nebo kontradiktorní) lze vyvinout různé koncepty ztráty, které vedou k různým algoritmům učení. $f:X\to Y$ $X$ $Y$ $p(x,y)$ $X \krát Y$ $p(x,y)$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})$ $V:Y\krát Y\to \mathbb {R}$ $V(f(x),y)$ $f(x)$ $y$ $f\in {\mathcal {H}}$ ${\mathcal {H}}$

Statistický pohled na online vzdělávání

Ve statistických modelech učení se předpokládá, že testovací vzorek pochází ze skutečného rozdělení a cílem učení je minimalizovat očekávané „riziko“ $(x_{i},y_{i})$ $p(x,y)$

I[f]=\mathbb {E} [V(f(x),y)]=\int V(f(x),y)\,dp(x,y)\ .

Obecným paradigmatem v této situaci je vyhodnotit funkci minimalizací empirického rizika nebo minimalizací regularizovaného empirického rizika (typicky pomocí Tichonovovy regularizace ). Volba ztrátové funkce zde poskytuje několik dobře známých algoritmů učení, jako jsou regularizované nejmenší čtverce a podpůrné vektorové stroje . Čistě online model v této kategorii by trénoval pouze na nových vstupech , aktuálním nejlepším prediktoru a některých dalších uložených informacích (které obvykle mají paměťové nároky nezávislé na velikosti dat). Pro mnoho nastavení problémů, jako jsou nelineární metody jádra , není skutečné online učení možné, ačkoli lze použít hybridní formy online učení s rekurzivními algoritmy, kde hodnota může záviset na všech předchozích datových bodech a na všech předchozích datových bodech . V tomto případě již nelze omezovat požadavky na paměť, protože je třeba zachovat všechny předchozí body, ale výpočet řešení s novými přidanými datovými body může trvat méně času než techniky dávkového učení. ${\hat {f))$ $(x_{t+1},y_{t+1})$ ${\displaystyle f_{t))$ $f_{t+1}$ $f_t$ $(x_{1},y_{1}),\ldots ,(x_{t},y_{t})$

Běžnou strategií pro řešení tohoto problému je minidávkové učení, kde jsou malé dávky datových bodů zpracovány v určitém časovém okamžiku, což lze považovat za pseudo-online učení pro mnohem menší celkový počet školicích bodů. Technika minibatch se používá s iterací přes trénovací data k získání optimalizované verze algoritmů strojového učení externí paměti, jako je stochastický gradient sestup . V kombinaci se zpětnou propagací jde v současnosti o de facto trénovací metodu pro umělé neuronové sítě . $b\geq 1$ $b$

Příklad: lineární nejmenší čtverce

Lineární metoda nejmenších čtverců se zde používá k vysvětlení různých nápadů na online učení. Myšlenky jsou dostatečně obecné na to, aby byly použitelné pro jiná nastavení, jako jsou jiné konvexní ztrátové funkce .

Dávkové učení

V kontrolovaném prostředí s funkcí kvadratické ztráty je cílem minimalizovat empirickou ztrátu

I_{n}[w]=\sum _{j=1}^{n}V(\langle w,x_{j}\rangle ,y_{j})=\sum _{j=1} ^{n}(x_{j}^{T}w-y_{j})^{2}

, kde

x_{j}\in \mathbb {R} ^{d},w\in \mathbb {R} ^{d},y_{j}\in \mathbb {R}

Nechť je matice dat a je maticí cílových hodnot po příchodu prvních datových bodů. Za předpokladu, že kovarianční matice je invertibilní (jinak by měl být proveden postup podobný Tichonovově regularizaci), nejlepší řešení metody nejmenších čtverců je dáno rovností $X$ $i\times d$ $Y$ $i\times 1$ $i$ $\Sigma _{i}=X^{T}X$ $f^{*}(x)=\langle w^{*},x\rangle$

w^{*}=(X^{T}X)^{-1}X^{T}Y=\Sigma _{i}^{-1}\sum _{j=1}^{ i}x_{j}y_{j}

Nyní bude výpočet kovarianční matice nějakou dobu trvat , inverze matice bude nějakou dobu trvat a násobení matice bude nějakou dobu trvat , což dává celkový čas . Pokud je v datové sadě celkem bodů a potřebujete přepočítat řešení poté, co každý datový bod dorazí , přirozený přístup bude zcela složitý . Všimněte si, že pokud je matice uložena, aktualizace v každém kroku vyžaduje pouze přidání , což vyžaduje čas, což snižuje celkový čas na , ale vyžaduje další úložný prostor [ 2] . ${\displaystyle \Sigma _{i}=\sum _{j=1}^{i}x_{j}x_{j}^{T))$ $O(id^{2})$ $d\times d$ $O(d^{3})$ $O(d^{2})$ $O(id^{2}+d^{3})$ $n$ $i=1,\ldots ,n$ $O(n^{2}d^{2}+nd^{3})$ ${\displaystyle \Sigma _{i))$ ${\displaystyle x_{i+1}x_{i+1}^{T))$ $O(d^{2})$ $O(nd^{2}+nd^{3})=O(nd^{3})$ $O(d^{2})$ ${\displaystyle \Sigma _{i))$

Online učení: rekurzivní nejmenší čtverce

Rekurzivní nejmenší čtverce zvažují online přístup k nejmenším čtvercům. Lze ukázat, že s inicializací a řešením lineární metody nejmenších čtverců lze vypočítat následovně: ${\displaystyle \textstyle w_{0}=0\in \mathbb {R} ^{d))$ ${\displaystyle \textstyle \Gamma _{0}=I\in \mathbb {R} ^{d\times d))$

\Gamma _{i}=\Gamma _{i-1}-{\frac {\Gamma _{i-1}x_{i}x_{i}^{T}\Gamma _{i-1 }}{1+x_{i}^{T}\Gamma _{i-1}x_{i}}}

w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Výše uvedený iterační algoritmus lze dokázat indukcí na [3] . Důkaz to také ukazuje . Lze uvažovat o rekurzivních nejmenších čtvercích v kontextu adaptivních filtrů (viz Rekurzivní nejmenší čtverce ). $i$ ${\displaystyle \Gamma _{i}=\Sigma _{i}^{-1))$

Složitost kroků tohoto algoritmu je , což je rychlejší než odpovídající složitost dávkového učení. Paměť potřebná pro každý krok pro uložení matice je zde konstanta . Pro případ, kdy to není reverzibilní, se uvažuje o regulované verzi ztrátové funkce . Pak je snadné ukázat, že stejný algoritmus pracuje s , a pokračující iterace dává [2] . $n$ $O(nd^{2})$ $i$ $\Gamma _{i}$ $O(d^{2})$ ${\displaystyle \Sigma _{i))$ $\sum _{j=1}^{n}(x_{j}^{T}w-y_{j})^{2}+\lambda ||w||_{2}^{2 }$ ${\displaystyle \Gamma _{0}=(I+\lambda I)^{-1))$ ${\displaystyle \Gamma _{i}=(\Sigma _{i}+\lambda I)^{-1))$

Metoda stochastického gradientu

Pokud rovnost

\textstyle w_{i}=w_{i-1}-\Gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})

Nahrazen

\textstyle w_{i}=w_{i-1}-\gamma _{i}x_{i}(x_{i}^{T}w_{i-1}-y_{i})=w_ {i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{i}\rangle ,y_{i})

nebo na , stane se z toho algoritmus sestupu stochastickým gradientem. V tomto případě je složitost kroků tohoto algoritmu snížena na . Požadavky na paměť v každém kroku jsou konstantní . ${\displaystyle \Gamma _{i}\in \mathbb {R} ^{d\times d))$ $\gamma _{i}\in \mathbb {R}$ $n$ $O(nd)$ $i$ $O(d)$

Velikost kroku pro řešení očekávaného problému minimalizace rizika by však měla být zvolena pečlivě, jak je vysvětleno výše. Volbou velikosti kroku tlumení lze dokázat konvergenci průměrné iterace . Tato nastavení jsou speciálním případem stochastické optimalizace , což je dobře známý optimalizační problém [2] . ${\displaystyle \gamma _{i))$ ${\displaystyle \gamma _{i}\cca {\frac {1}{\sqrt {i))))$ ${\overline {w}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}w_{i}$

Přírůstkový stochastický gradient sestup

V praxi je možné provést několik stochastických přechodů gradientu přes data. Výsledný algoritmus se nazývá metoda inkrementálního gradientu a odpovídá iteraci

\textstyle w_{i}=w_{i-1}-\gamma _{i}\nabla V(\langle w_{i-1},x_{t_{i}}\rangle ,y_{t_{ i)))

Hlavní rozdíl oproti metodě stochastického gradientu spočívá v tom, že se zde rozhoduje o tom, který tréninkový bod se v kroku navštíví . Taková sekvence může být náhodná nebo deterministická. Počet iterací je tak oddělen od počtu bodů (každý bod lze zobrazit vícekrát). Lze prokázat, že metoda inkrementálního gradientu poskytuje empirickou minimalizaci rizika [4] . Inkrementální techniky mohou mít výhody při zvažování účelové funkce jako součtu mnoha prvků, například jako empirické chyby velmi rozsáhlého souboru dat [2] . $t_{i}$ $i$

Jaderné metody

Jádra lze použít k rozšíření výše uvedených algoritmů na neparametrické modely (nebo modely, ve kterých parametry tvoří nekonečně-dimenzionální prostor). Odpovídající procedura již nebude skutečně online a místo toho bude ukládat všechny datové body, ale metoda zůstává rychlejší než hrubá síla. Tato diskuse je omezena na případ kvadratické ztráty, i když ji lze rozšířit na jakoukoli konvexní ztrátovou funkci. Přímou indukcí [2] lze ukázat, že když a je datová matice, a je výstupem po krocích algoritmu náhodného sestupu gradientu, pak $X_{i}$ $w_{i}$ $i$

{\displaystyle w_{i}=X_{i}^{T}c_{i))

kde a posloupnost splňuje opakující se vztahy $\textstyle c_{i}=((c_{i})_{1},(c_{i})_{2},...,(c_{i})_{i})\in \mathbb {R} ^{i}$ ${\displaystyle c_{i))$

c_{0}=0

(c_{i})_{j}=(c_{i-1})_{j},j=1,2,...,i-1

{\displaystyle (c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1 })_{j}\langle x_{j},x_{i}\rangle {\Big )))

Všimněte si, že zde je standardní jádro v , a prediktivní funkce má tvar $\langle x_{j},x_{i}\rangle$ ${\displaystyle \mathbb {R} ^{d))$

f_{i}(x)=\langle w_{i-1},x\rangle =\sum _{j=1}^{i-1}(c_{i-1})_{j} \langle x_{j},x\rangle

Nyní, když zavedeme společné jádro a reprezentujeme predikční funkci jako $K$

f_{i}(x)=\sum _{j=1}^{i-1}(c_{i-1})_{j}K(x_{j},x)

pak stejný důkaz ukazuje, že minimalizace ztrátové funkce pomocí nejmenších čtverců se získá nahrazením výše uvedené rekurze za

{\displaystyle (c_{i})_{i}=\gamma _{i}{\Big (}y_{i}-\sum _{j=1}^{i-1}(c_{i-1 })_{j}K(x_{j},x_{i}){\Velký )))

Výše uvedený výraz vyžaduje zapamatování všech dat k aktualizaci . Celková časová složitost pro rekurzi, je-li vypočtena pro -tý datový bod, je , kde jsou náklady na výpočet jádra na jednom páru bodů [2] . Pak použití jádra umožňuje pohyb z konečně-dimenzionálního prostoru parametrů do potenciálně nekonečně-dimenzionálního prostoru reprezentovaného jádrem , namísto opakování přes parametr space , jehož rozměr je stejný jako velikost trénovací datové sady. Obecně je tento přístup důsledkem věty o reprezentaci [2] . ${\displaystyle c_{i))$ $n$ $O(n^{2}dk)$ $k$ ${\displaystyle \textstyle w_{i}\in \mathbb {R} ^{d))$ $K$ $\textstyle c_{i}\in \mathbb {R} ^{i}$

Progresivní učení

Progresivní učení je efektivní model učení, který se projevuje procesem učení lidí. Tento proces učení je nepřetržitý, vychází z přímé zkušenosti. Technika progresivního učení ve strojovém učení se může učit nové třídy nebo štítky dynamicky za běhu [5] . Ačkoli online školení může trénovat nové vzorky dat , které přicházejí postupně, nemohou trénovat nové třídy dat . Paradigma progresivního učení je nezávislé na počtu třídních omezení a může vyučovat nové třídy při zachování znalostí z předchozích tříd. Pokud však narazíte na novou třídu (nepřirozeně se vyskytující), klasifikátor se automaticky přestaví a parametry se vypočítají tak, aby byly zachovány předchozí znalosti. Tato technika je vhodná pro aplikace v reálném světě, kde je počet tříd často neznámý a je vyžadováno online učení z dat v reálném čase.

Online konvexní optimalizace

Online konvexní optimalizace [6] je obecné rozhodovací schéma, které využívá konvexní optimalizaci k získání účinných algoritmů. Schéma je vícenásobné opakování následujících akcí:

Pro $t=1,2,...,T$

Student obdrží vstup ${\displaystyle x_{t))$
Žák tvoří výstup z pevné konvexní množiny ${\displaystyle w_{t))$ $S$
Nature vrací hodnotu konvexní ztrátové funkce . $v_{t}:S\rightarrow \mathbb {R}$
Student zaúčtuje ztrátu a aktualizuje model $v_{t}(w_{t})$

Cílem je minimalizovat „litování“ neboli rozdíl mezi celkovou ztrátou a ztrátou v nejlepším pevném bodě zpětně. Jako příklad zvažte případ online lineární regrese nejmenších čtverců. Zde váha vektorů pochází z konvexní množiny a příroda vrací funkci konvexní ztráty . Všimněte si, že implicitně odesláno s . $u\in S$ ${\displaystyle S=\mathbb {R} ^{d))$ ${\displaystyle v_{t}(w)=(\langle w,x_{t}\rangle -y_{t})^{2))$ ${\displaystyle y_{t))$ ${\displaystyle v_{t))$

Některé problémy s online predikcí se však nevejdou do schématu online konvexní optimalizace. Například v online klasifikaci nejsou funkce oblasti predikce a ztráty konvexní. V takových scénářích se používají dvě jednoduché techniky redukce konvexních případů – randomizace a funkce náhradní ztráty.

Některé jednoduché online konvexní optimalizační algoritmy:

Následuj vůdce

Nejjednodušším pravidlem učení pro pokus je vybrat (v aktuálním kroku) hypotézu, která má nejmenší ztrátu ze všech předchozích kol. Tento algoritmus se nazývá „ Následuj vůdce “ a jednoduše dává kolo : $t$

w_{t}=\operatorname {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)

Tuto metodu pak lze považovat za chamtivý algoritmus . Pro případ online kvadratické optimalizace (kde ztrátová funkce je ) lze ukázat, že hranice „litování“ roste jako . Podobné meze však nelze získat pro algoritmus follow-the-leader pro jiné důležité rodiny modelů jako pro online lineární optimalizaci. K jejich získání je do algoritmu přidána regularizace. ${\displaystyle v_{t}(w)=||w-x_{t}||_{2}^{2))$ $\log(T)$

Sledování regulovaného vůdce

Jedná se o přirozenou modifikaci algoritmu sledování vůdce, který se používá ke stabilizaci rozhodnutí následování vůdce a získání lepších hranic lítosti. Je vybrána funkce regularizace a školení se provádí v kole t takto: $R:S\rightarrow \mathbb {R}$

w_{t}=\jméno operátora {arg\,min} _{w\in S}\sum _{i=1}^{t-1}v_{i}(w)+R(w)

Jako speciální případ zvažte případ online lineární optimalizace, tedy když příroda vrací ztrátové funkce formuláře . Také nechte . Předpokládejme, že regularizační funkce je vybrána pro nějaké kladné číslo . Pak lze ukázat, že se iterace minimalizace „lítosti“ mění v $v_{t}(w)=\langle w,z_{t}\rangle$ ${\displaystyle S=\mathbb {R} ^{d))$ $R(w)={\frac {1}{2\eta }}||w||_{2}^{2}$ $\eta$

{\displaystyle w_{t+1}=-\eta \sum _{i=1}^{t}z_{i}=w_{t}-\eta z_{t))

Všimněte si, že to lze přepsat jako , což vypadá přesně jako online metoda sestupu gradientu. $w_{t+1}=w_{t}-\eta \nabla v_{t}(w_{t})$

Pokud je S konvexní podprostor , S musí být promítnut, což má za následek upravené pravidlo aktualizace ${\displaystyle \mathbb {R} ^{d))$

w_{t+1}=\Pi _{S}(-\eta \sum _{i=1}^{t}z_{i})=\Pi _{S}(\eta \theta _ {t+1})

Algoritmus je známý jako líná projekce, protože vektor akumuluje gradienty. Toto je také známé jako Nesterovův algoritmus dvojitého průměrování (nebo subgradientní metoda dvojitého průměrování [7] ). V tomto scénáři jsou lineární ztrátové funkce a kvadratická regularizace „litování“ omezeny na , a pak má průměrná „litování“ tendenci k 0 . $\theta _{t+1}$ $O({\sqrt {T)))$

Online subgradientní sestup

"Litová" hranice pro lineární ztrátové funkce byla prokázána výše . Pro zobecnění algoritmu na jakoukoli konvexní ztrátovou funkci se používá funkce subgradient jako lineární aproximace kolem , což vede k online algoritmu sestupu subgradientu: $v_{t}(w)=\langle w,z_{t}\rangle$ $\partial v_{t}(w_{t})$ ${\displaystyle v_{t))$ ${\displaystyle v_{t))$ ${\displaystyle w_{t))$

Spuštění parametru $\eta ,w_{1}=0$

Pro $t=1,2,...,T$

Vytváříme předpověď pomocí , získáváme z přírody . ${\displaystyle w_{t))$ $f_t$
Vybrat $z_{t}\in \partial v_{t}(w_{t})$
Pokud , proveďte aktualizaci ${\displaystyle S=\mathbb {R} ^{d))$ ${\displaystyle w_{t+1}=w_{t}-\eta z_{t))$
Pokud , promítněte kumulativní gradienty na ie ${\displaystyle S\subset \mathbb {R} ^{d))$ $S$ ${\displaystyle w_{t+1}=\Pi _{S}(\eta \theta _{t+1}),\theta _{t+1}=\theta _{t}+z_{t))$

Můžete použít online algoritmus subgradientního sestupu k získání hranic „litování“ pro online verzi podpůrného vektorového stroje pro klasifikaci, který používá po částech lineární ztrátovou funkci $O({\sqrt {T)))$ $v_{t}(š)=\max\{0,1-y_{t}(w\cdot x_{t})\}$

Jiné algoritmy

Čtvercově regulované algoritmy sledující vedoucí vedou k líně projektovaným gradientovým algoritmům, jak je popsáno výše. Chcete-li použít výše uvedený přístup pro jakékoli konvexní funkce a regularizéry, lze použít online zrcadlový sestup. Optimální regularizaci v po částech lineární funkce lze získat pro lineární ztrátové funkce, což vede k algoritmu AdaGrad . Pro euklidovskou regularizaci lze ukázat, že hranice „litování“ je stejná a lze ji zlepšit na přísně konvexní a exp-konkávní ztrátové funkce. $O({\sqrt {T)))$ $O(\log T)$

Výklady online učení

Paradigma online učení má různé interpretace v závislosti na volbě modelu učení, přičemž každý má jinou kvalitu předpovědí sekvence funkcí . Pro diskusi používáme stochastický gradientní algoritmus sestupu. Jak bylo uvedeno výše, rekurze algoritmu je dána rovností ${\displaystyle f_{1},f_{2},\ldots ,f_{n))$

\textstyle w_{t}=w_{t-1}-\gamma _{t}\nabla V(\langle w_{t-1},x_{t}\rangle ,y_{t})

První interpretace považuje metodu stochastického sestupu gradientu za aplikaci na výše definovaný problém minimalizace očekávaného rizika [8] . Navíc v případě nekonečného datového toku, protože se předpokládá, že instance jsou vzorkovány z nezávislé a rovnoměrně distribuované distribuce , jsou gradientové sekvence ve výše uvedené iteraci nezávislé a rovnoměrně rozložené vzorky očekávaného odhadu stochastického gradientu rizika , a proto lze použít výsledky složitosti pro metodu sestupu stochastického gradientu k omezení odchylky , kde je minimalizátor [9] . Tento výklad platí také pro konečné trénovací množiny. Přestože přechody již nebudou při iteraci dat nezávislé, lze ve speciálních případech získat výsledky složitosti. $I[w]$ $(x_{1},y_{1}),(x_{2},y_{2}),\ldots$ $p(x,y)$ $V(\cdot ,\cdot )$ $I[w]$ $I[w_{t}]-I[w^{\ast }]$ ${\displaystyle w^{\ast ))$ $I[w]$

Druhá interpretace je aplikována na případ konečné trénovací množiny a považuje algoritmus stochastického sestupu gradientu za zástupce inkrementálního sestupu gradientu [4] . V tomto případě se lze podívat na empirické riziko:

I_{n}[w]={\frac {1}{n}}\sum _{i=1}^{n}V(\langle w,x_{i}\rangle ,y_{i} )\ .

Protože gradienty v iteracích přírůstkového klesání gradientu jsou stochastickými odhady gradientu , tato interpretace souvisí s metodou stochastického klesání gradientu, ale je aplikována na empirickou minimalizaci rizika na rozdíl od očekávaného rizika. Protože se tato interpretace týká spíše empirického rizika než očekávaného rizika, vícenásobné průchody dat jsou dokonale platné a ve skutečnosti vedou k úzkým hranicím rozptylu , kde . $V(\cdot ,\cdot )$ $I_{n}[w]$ $I_{n}[w_{t}]-I_{n}[w_{n}^{\ast }]$ ${\displaystyle w_{n}^{\ast ))$ $I_{n}[w]$

Implementace

Vowpal Wabbit : Rychlý online výukový systém s otevřeným zdrojovým kódem a externí pamětí se sadou podporovaných technik strojového učení s vážením důležitosti a výběrem různých ztrátových funkcí a optimalizačních algoritmů. Systém používá hash trick k omezení velikosti sady funkcí bez ohledu na velikost trénovacích dat.
scikit-learn : Poskytuje implementaci algoritmů s nedostatkem paměti pro
- klasifikátory: perceptron , statistický gradientní klasifikátor sestupu , naivní bayesův klasifikátor .
- regrese: stochastická gradientová sestupná regrese, pasivní agresivní regresor.
- shlukování: metoda k-means .
- extrakce funkcí: minidávkové učení slovní zásoby , přírůstková analýza hlavních komponent .

Viz také

Hierarchická dočasná paměť
metoda k-nejbližšího souseda
Líné učení
Vektorové kvantování během tréninku
Offline učení , opačný model
Online algoritmus
Algoritmus streamování
perceptron
Stochastický gradientní sestup
Učení s učitelem
Online optimalizace

Poznámky

↑ Katastrofické rušení je tendence umělých neuronových sítí náhle úplně zapomenout na vše, k čemu byla síť dříve naučená.
↑ 1 2 3 4 5 6 7 Rosasco, Poggio, 2015 .
↑ Yin, Kushner, 2003 , str. 8–12.
↑ 12. Bertsekas , 2011 .
↑ Venkatesan, Meng Joo, 2016 , str. 310–321.
↑ Hazan, 2015 .
↑ Dolgopolik, 2016 .
↑ Bottou, 1998 .
↑ Kushner, Yin, 1997 .

Literatura

Leon Bottou. Online algoritmy a stochastické aproximace // Online učení a neuronové sítě . - Cambridge University Press, 1998. - ISBN 978-0-521-65263-6 .
Rosasco L., Poggio T. Kapitola 7 – Online učení // Strojové učení: Regularizační přístup . Poznámky k přednášce MIT-9.520. - 2015. - (Rukopis).
Harold J. Kushner, G. George Yin. Stochastické aproximační algoritmy a aplikace. - New York: Springer-Verlag, 1997. - ISBN 0-387-94916-X .
- Harold J. Kushner, G. George Yin. Stochastická aproximace a rekurzivní algoritmy a aplikace. - 2. vyd. - New York: Springer-Verlag, 2003. - ISBN 0-387-00894-2 .
Elad Hazan. Úvod do online konvexní optimalizace . — Základy a trendy v optimalizaci, 2015.
Rajasekar Venkatesan, Er Meng Joo. Nová progresivní učební technika pro klasifikaci více tříd // Neurocomputing. - 2016. - T. 207 . - doi : 10.1016/j.neucom.2016.05.006 . - arXiv : 1609.00085 .
Dolgopolik MV Nesterovova metoda minimalizace konvexních funkcí. — 2016.
Harold J. Yin, G. George Kushner. Stochastická aproximace a rekurzivní algoritmy a aplikace. - Druhý. - New York: Springer, 2003. - ISBN 978-0-387-21769-7 .
Bertsekas DP Metody inkrementálního gradientu, subgradientu a proximální optimalizace pro konvexní optimalizaci: průzkum // Optimalizace pro strojové učení. - 2011. - Vydání. 85 .

Odkazy

http://onlineprediction.net/ Archivováno 31. října 2018 na Wayback Machine , Wiki pro online předpověď.

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-Net Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG