Dlouhodobá krátkodobá paměť

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 16. března 2021; kontroly vyžadují 20 úprav .

Dlouhý řetězec prvků krátkodobé paměti ( angl. Long short-term memory ; LSTM ) je typ architektury rekurentní neuronové sítě navržený v roce 1997 Seppem Hochreiterem a Jurgenem Schmidhuberem [2] . Stejně jako většina rekurentních neuronových sítí je síť LSTM univerzální v tom smyslu, že s dostatečným počtem síťových prvků může provádět jakýkoli výpočet, kterého je schopen běžný počítač, což vyžaduje vhodnou váhovou matici , kterou lze považovat za program. Na rozdíl od tradičních rekurentních neuronových sítí je síť LSTM dobře přizpůsobena k učení o úkolech klasifikace , zpracování a predikce časových řad v případech, kdy jsou důležité události odděleny časovými prodlevami s neurčitým trváním a hranicemi. Relativní imunita vůči trvání časových mezer dává LSTM výhodu oproti alternativním rekurentním neuronovým sítím, skrytým Markovovým modelům a dalším tréninkovým metodám pro sekvence v různých aplikacích. Z mnoha úspěchů sítí LSTM lze vyzdvihnout nejlepší výsledky v rozpoznávání nesegmentovaného souvislého rukopisu [3] a vítězství v roce 2009 v soutěži v rozpoznávání rukopisu ( ICDAR ). Sítě LSTM se také používají v úlohách rozpoznávání řeči , například síť LSTM byla hlavní součástí sítě, která v roce 2013 dosáhla rekordní hranice chyb 17,7 % v úloze rozpoznávání fonémů na klasickém korpusu přirozené řeči TIMIT [4] . Od roku 2016 přední technologické společnosti včetně Google , Apple , Microsoft a Baidu používají sítě LSTM jako základní součást nových produktů [5] [6] .

Architektura

Síť LSTM je umělá neuronová síť, která obsahuje moduly LSTM namísto jiných síťových modulů nebo navíc k nim. Modul LSTM je rekurentní síťový modul schopný ukládat hodnoty po krátkou i dlouhou dobu. Klíčem k této schopnosti je, že modul LSTM nepoužívá aktivační funkci v rámci svých opakujících se komponent. Uložená hodnota tak není v čase rozmazaná a gradient ani penalizace nezmizí při použití metody backpropagation through time při trénování umělé neuronové sítě .

LSTM jsou často seskupeny do „bloků“ obsahujících různé LSTM. Takové zařízení je typické pro „hluboké“ vícevrstvé neuronové sítě a přispívá k implementaci paralelních výpočtů pomocí vhodného vybavení. V níže uvedených vzorcích každá proměnná, psaná malou kurzívou, označuje vektor rozměrů rovný počtu modulů LSTM v bloku.

Bloky LSTM obsahují tři nebo čtyři "brány", které se používají k řízení toku informací na vstupech a výstupech paměti těchto bloků. Tato hradla jsou implementována jako logistická funkce pro výpočet hodnoty v rozsahu [0; jeden]. Násobení touto hodnotou se používá k částečnému povolení nebo zakázání toku informací do paměti az paměti. Například „vstupní brána“ řídí rozsah, v jakém nová hodnota vstoupí do paměti, a „brána zapomenutí“ řídí rozsah, v jakém je hodnota uchována v paměti. "Výstupní brána" řídí rozsah, ve kterém je hodnota v paměti použita při výpočtu funkce aktivace výstupu pro blok. (V některých implementacích jsou vstupní brána a brána zapomenutí implementována jako jediná brána. Myšlenka je taková, že stará hodnota by měla být zapomenuta, když existuje nová hodnota, kterou stojí za to si zapamatovat).

Závaží v bloku LSTM ( a ) slouží k nastavení směru chodu vrat. Tyto váhy jsou definovány pro hodnoty přiváděné do bloku (včetně výstupu z předchozího časového kroku ) pro každou z bran. Blok LSTM tedy v závislosti na těchto hodnotách určuje, jak spravovat svou paměť, a posilování umožňuje bloku LSTM naučit se funkci, která minimalizuje ztrátu. Bloky LSTM jsou obvykle trénovány pomocí zpětného šíření v průběhu času. $W$ $U$ $x_t$ $h_{t-1}$

Tradiční LSTM

Tradiční LSTM se zapomenutými branami [2] [7] a ( znamená produkt Hadamard ): $c_{0}=0$ $h_{0}=0$ $\circ$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}h_{t-1}+b_{f})\\i_ {t}&=\sigma _{g}(W_{i}x_{t}+U_{i}h_{t-1}+b_{i})\\o_{t}&=\sigma _{g }(W_{o}x_{t}+U_{o}h_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{ t}\circ \sigma _{c}(W_{c}x_{t}+U_{c}h_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t})\end{aligned}}

Proměnné:

$x_t$ je vstupní vektor,
$h_{t}$ je výstupní vektor,
$c_{t}$ je stavový vektor,
$W$ a jsou matice parametrů a vektor, $U$ $b$
$f_t$ a jsou hradlové vektory, ${\displaystyle i_{t))$ ${\displaystyle o_{t))$
- $f_t$ je vektor brány zapomínání, váha zapamatování si starých informací,
- ${\displaystyle i_{t))$ je vektor vstupní brány, váha získávání nových informací,
- ${\displaystyle o_{t))$ je vektor výstupní brány, kandidát na výstup.

Aktivační funkce :

$\sigma _{g}$ : na základě sigmatu .
$\sigma _{c}$ : na základě hyperbolické tečny .
$\sigma _{h}$ : Na základě hyperbolické tečny, ale papír kukátka LSTM předpokládá, že . [8] [9] $\sigma _{h}(x)=x$

LSTM s očima

Eye LSTM se zapomenutými branami [8] [9] se nepoužívá, používá se jako náhrada na většině míst: $h_{t-1}$ $c_{t-1}$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}x_{t}+U_{f}c_{t-1}+b_{f})\\i_ {t}&=\sigma _{g}(W_{i}x_{t}+U_{i}c_{t-1}+b_{i})\\o_{t}&=\sigma _{g }(W_{o}x_{t}+U_{o}c_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{ t}\circ \sigma _{c}(W_{c}x_{t}+b_{c})\\h_{t}&=o_{t}\circ \sigma _{h}(c_{t} )\end{aligned}}

Konvoluční LSTM

Konvoluční LSTM [10] ( znamená konvoluční operátor ): $*$

{\begin{aligned}f_{t}&=\sigma _{g}(W_{f}*x_{t}+U_{f}*h_{t-1}+V_{f}\circ c_{t-1}+b_{f})\\i_{t}&=\sigma _{g}(W_{i}*x_{t}+U_{i}*h_{t-1}+V_ {i}\circ c_{t-1}+b_{i})\\o_{t}&=\sigma _{g}(W_{o}*x_{t}+U_{o}*h_{t -1}+V_{o}\circ c_{t-1}+b_{o})\\c_{t}&=f_{t}\circ c_{t-1}+i_{t}\circ \ sigma _{c}(W_{c}*x_{t}+U_{c}*h_{t-1}+b_{c})\\h_{t}&=o_{t}\circ \sigma _ {h}(c_{t})\end{aligned}}

Cvičení

Aby se minimalizovala celková chyba LSTM v celé sadě cvičných sekvencí, lze použít iterativní sestup gradientu , jako je časově rozvinuté zpětné šíření, ke změně každé z vah v poměru k její derivaci v závislosti na velikosti chyby. Hlavním problémem sestupu gradientu pro standardní rekurentní neuronové sítě je to, že gradienty chyb klesají exponenciální rychlostí, jak se zvyšuje časové zpoždění mezi důležitými událostmi, což bylo identifikováno v roce 1991 [11] [12] . U bloků LSTM však platí, že když se chybové hodnoty šíří zpět z výstupní vrstvy, chyba se uzamkne v paměti bloku. Tomu se říká „kolotoč chyb“, který neustále „přivádí“ chybu zpět do každé z bran, dokud nejsou naučeny vyřadit hodnotu. Pravidelné zpětné šíření chyb je tedy efektivní pro trénování bloku LSTM, aby si pamatoval hodnoty po velmi dlouhá časová období.

LSTM lze také trénovat pomocí kombinace evolučního algoritmu pro váhy ve skrytých vrstvách a pseudoinverzních matic nebo pomocí podpůrného vektorového stroje pro váhy ve výstupní vrstvě. [13] V posilovacím učení lze LSTM trénovat přímým hledáním prostoru pro strategie, evoluční strategie nebo genetické algoritmy .

Aplikace

Příklady použití LSTM jsou popsány: v robotice [14] , pro analýzu časových řad [15] , pro rozpoznávání řeči [4] [16] [17] , v rytmickém učení [9] , pro generování hudebních skladeb [18] , v učení gramatiky ( anglicky umělé gramatické učení ) [8] [19] [20] , v úlohách rozpoznávání rukopisu [21] [22] , pro rozpoznávání lidské činnosti [23] , v úloze identifikace homologních proteinů [24] .

Poznámky

↑ Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink & Jürgen Schmidhuber (2015), LSTM: A Search Space Odyssey, arΧiv : 1503.04069 .
↑ 12 Sepp Hochreiter ; Jürgen Schmidhuber . Dlouhá krátkodobá paměť // Neural Computation : deník. - 1997. - Sv. 9 , č. 8 . - S. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 . — PMID 9377276 . Archivováno z originálu 26. května 2015. Archivovaná kopie (nedostupný odkaz) . Získáno 4. února 2017. Archivováno z originálu 26. května 2015. (neurčitý)
↑ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. Nový konekcionistický systém pro vylepšené neomezené rozpoznávání rukopisu. IEEE Transactions on Pattern Analysis and Machine Intelligence, sv. 31, č. 5, 2009.
↑ 1 2 Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey. Rozpoznávání řeči pomocí hlubokých rekurentních neuronových sítí // Akustika, zpracování řeči a signálů (ICASSP), Mezinárodní konference IEEE 2013 na: časopis. - 2013. - S. 6645-6649 .
↑ S QuickType chce Apple udělat víc, než jen hádat váš další text. Chce vám to dát AI. (anglicky) . WIRED . Datum přístupu: 16. června 2016. Archivováno z originálu 24. března 2017.
↑ Opakující se neuronové sítě - Sítě se zpětnou vazbou - Lstm Rekurentní síť - Zpětná vazba Neuronová síť - Opakované sítě - Síť zpětné vazby - Opakovaná síť - - Síť zpětné vazby . people.idsia.ch _ Získáno 16. června 2016. Archivováno z originálu 5. května 2021. (neurčitý)
↑ Felix A. Gers; Jürgen Schmidhuber; Fred Cummins. Learning to Forget: Continual Prediction with LSTM // Neural Computation : deník. - 2000. - Sv. 12 , č. 10 . - S. 2451-2471 . - doi : 10.1162/089976600300015015 .
↑ 1 2 3 Gers, F.A.; Schmidhuber, J. LSTM Recurrent Networks Naučte se jednoduché kontextové a kontextově citlivé jazyky // Transakce IEEE v neuronových sítích : deník. - 2001. - Sv. 12 , č. 6 . - S. 1333-1340 . - doi : 10.1109/72.963769 .
↑ 1 2 3 Gers, F.; Schraudolph, N.; Schmidhuber, J. Učení přesného načasování s rekurentními sítěmi LSTM // Journal of Machine Learning Research : journal. - 2002. - Sv. 3 . - str. 115-143 .
↑ Xingjian Shi; Zhurong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting // Proceedings of the 28th International Conference on Neural Information Processing Systems : journal. - 2015. - S. 802-810 .
↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diplomová práce, Institut f. Informatik, Technische Univ. Mnichov, 1991.
↑ S. Hochreiter, Y. Bengio, P. Frasconi a J. Schmidhuber. Gradientní tok v rekurentních sítích: obtížnost učení se dlouhodobým závislostem. V SC Kremer a JF Kolen, editoři, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
↑ Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. Training Recurrent Networks by Evolino // Neural Computation. - 2007. - Sv. 19 , č. 3 . - str. 757-779 . - doi : 10.1162/neco.2007.19.3.757 .
↑ H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll a J. Schmidhuber. Systém pro robotickou srdeční chirurgii, který se učí vázat uzly pomocí rekurentních neuronových sítí. Advanced Robotics, 22/13-14, pp. 1521-1537, 2008.
↑ J. Schmidhuber a D. Wierstra a F. J. Gomez. Evolino: Hybridní neuroevoluce / Optimální lineární vyhledávání pro sekvenční učení. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853-858, 2005.
↑ Graves, A.; Schmidhuber, J. Rámcová klasifikace fonémů s obousměrným LSTM a dalšími architekturami neuronových sítí // Neural Networks: journal. - 2005. - Sv. 18 , č. 5-6 . - S. 602-610 . - doi : 10.1016/j.neunet.2005.06.042 .
↑ S. Fernandez, A. Graves, J. Schmidhuber. Aplikace rekurentních neuronových sítí na rozlišování klíčových slov. Intl. Conf. o umělých neuronových sítích ICANN'07, 2007.
↑ D. Eck a J. Schmidhuber. Naučte se dlouhodobou strukturu blues. V J. Dorronsoro, ed., Proceedings of Int. Conf. o umělých neuronových sítích ICANN'02, Madrid, strany 284-289, Springer, Berlín, 2002.
↑ Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. Learning nonregular languages: Srovnání jednoduchých rekurentních sítí a LSTM // Neural Computation : deník. - 2002. - Sv. 14 , č. 9 . - str. 2039-2041 . doi : 10.1162 / 089976602320263980 .
↑ Perez-Ortiz, JA; Gers, F. A.; Eck, D.; Schmidhuber, J. Kalman filtry zlepšují výkon sítě LSTM v problémech neřešitelných tradičními rekurentními sítěmi // Neural Networks: journal. - 2003. - Sv. 16 , č. 2 . - str. 241-250 . - doi : 10.1016/s0893-6080(02)00219-8 .
↑ A. Graves, J. Schmidhuber. Offline rozpoznávání rukopisu s multidimenzionálními rekurentními neuronovými sítěmi. Advances in Neural Information Processing Systems 22, NIPS'22, str. 545-552, Vancouver, MIT Press, 2009.
↑ A. Graves, S. Fernandez, M. Liwicki, H. Bunke, J. Schmidhuber. Neomezené online rozpoznávání rukopisu pomocí opakujících se neuronových sítí. Advances in Neural Information Processing Systems 21, NIPS'21, str. 577-584, 2008, MIT Press, Cambridge, MA, 2008.
↑ M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sekvenční hluboké učení pro rozpoznávání lidského jednání. 2nd International Workshop on Human Behavior Understanding (HBU), AA Salah, B. Lepri ed. Amsterdam, Nizozemsko. str. 29-39. Poznámky k přednáškám z informatiky 7065. Springer. 2011
↑ Hochreiter, S.; Heusel, M.; Obermayer, K. Rychlá detekce homologie proteinů založená na modelu bez zarovnání // Bioinformatics: journal. - 2007. - Sv. 23 , č. 14 . - S. 1728-1736 . - doi : 10.1093/bioinformatics/btm247 . — PMID 17488755 .

Odkazy

Opakující se neuronové sítě - Více než 30 článků o LSTM od skupiny Jürgena Schmidhubera na IDSIA
Disertační práce o sítích LSTM.
Článek o detekci podvodů se dvěma kapitolami věnovanými vysvětlení rekurentních neuronových sítí, konkrétně LSTM.
Článek o vysoce výkonném rozšíření LSTM, zjednodušeném na jeden typ uzlu, který je schopen učit se libovolné architektury.
Tutoriál: Jak implementovat LSTM síť v Pythonu s Theano

Slovníky a encyklopedie	velká čínština

Typy umělých neuronových sítí

Dopředná síť ( Network of Radial Base Functions )
Jednovrstvý perceptron
Vícevrstvý perceptron ( Rosenblatt • Rumelhart )
Hopfieldova síť
Markovský řetěz
Boltzmannův stroj
Limitovaný Boltzmannův stroj
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variační autoencoder )
Hluboká síť důvěry
Konvoluční neuronová síť
Hluboká konvoluční neuronová síť
Nasazení neuronové sítě
Hluboká konvoluční inverzní grafická síť
Generative Adversarial Network
Rekurentní neuronová síť
Rekurzivní neuronové sítě
dlouhodobá krátkodobá paměť
Řízený rekurentní blok
Neural Turing Machines
Obousměrná síť ( Obousměrná rekurentní neuronová síť • Obousměrná síť s dlouhodobou krátkodobou pamětí • Obousměrně řízené rekurentní neurony )
Hluboká zbytková síť
Neuronová echo síť
Metoda extrémního učení
Metoda nestabilních stavů
Podpora vektorového stroje
Kohonen síť
Samoorganizující se mapa Kohonenu
Neuronová síť kapsle
Asociativní paměť na neuronových sítích

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-Net Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG