Dlouhodobá krátkodobá paměť

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 16. března 2021; kontroly vyžadují 20 úprav .

Dlouhý řetězec prvků krátkodobé paměti ( angl.  Long short-term memory ; LSTM ) je typ architektury rekurentní neuronové sítě navržený v roce 1997 Seppem Hochreiterem a Jurgenem Schmidhuberem [2] . Stejně jako většina rekurentních neuronových sítí je síť LSTM univerzální v tom smyslu, že s dostatečným počtem síťových prvků může provádět jakýkoli výpočet, kterého je schopen běžný počítač, což vyžaduje vhodnou váhovou matici , kterou lze považovat za program. Na rozdíl od tradičních rekurentních neuronových sítí je síť LSTM dobře přizpůsobena k učení o úkolech klasifikace , zpracování a predikce časových řad v případech, kdy jsou důležité události odděleny časovými prodlevami s neurčitým trváním a hranicemi. Relativní imunita vůči trvání časových mezer dává LSTM výhodu oproti alternativním rekurentním neuronovým sítím, skrytým Markovovým modelům a dalším tréninkovým metodám pro sekvence v různých aplikacích. Z mnoha úspěchů sítí LSTM lze vyzdvihnout nejlepší výsledky v rozpoznávání nesegmentovaného souvislého rukopisu [3] a vítězství v roce 2009 v soutěži v rozpoznávání rukopisu ( ICDAR ). Sítě LSTM se také používají v úlohách rozpoznávání řeči , například síť LSTM byla hlavní součástí sítě, která v roce 2013 dosáhla rekordní hranice chyb 17,7 % v úloze rozpoznávání fonémů na klasickém korpusu přirozené řeči TIMIT [4] . Od roku 2016 přední technologické společnosti včetně Google , Apple , Microsoft a Baidu používají sítě LSTM jako základní součást nových produktů [5] [6] .

Architektura

Síť LSTM je umělá neuronová síť, která obsahuje moduly LSTM namísto jiných síťových modulů nebo navíc k nim. Modul LSTM je rekurentní síťový modul schopný ukládat hodnoty po krátkou i dlouhou dobu. Klíčem k této schopnosti je, že modul LSTM nepoužívá aktivační funkci v rámci svých opakujících se komponent. Uložená hodnota tak není v čase rozmazaná a gradient ani penalizace nezmizí při použití metody backpropagation through time při trénování umělé neuronové sítě . 

LSTM jsou často seskupeny do „bloků“ obsahujících různé LSTM. Takové zařízení je typické pro „hluboké“ vícevrstvé neuronové sítě a přispívá k implementaci paralelních výpočtů pomocí vhodného vybavení. V níže uvedených vzorcích každá proměnná, psaná malou kurzívou, označuje vektor rozměrů rovný počtu modulů LSTM v bloku.

Bloky LSTM obsahují tři nebo čtyři "brány", které se používají k řízení toku informací na vstupech a výstupech paměti těchto bloků. Tato hradla jsou implementována jako logistická funkce pro výpočet hodnoty v rozsahu [0; jeden]. Násobení touto hodnotou se používá k částečnému povolení nebo zakázání toku informací do paměti az paměti. Například „vstupní brána“ řídí rozsah, v jakém nová hodnota vstoupí do paměti, a „brána zapomenutí“ řídí rozsah, v jakém je hodnota uchována v paměti. "Výstupní brána" řídí rozsah, ve kterém je hodnota v paměti použita při výpočtu funkce aktivace výstupu pro blok. (V některých implementacích jsou vstupní brána a brána zapomenutí implementována jako jediná brána. Myšlenka je taková, že stará hodnota by měla být zapomenuta, když existuje nová hodnota, kterou stojí za to si zapamatovat).

Závaží v bloku LSTM ( a ) slouží k nastavení směru chodu vrat. Tyto váhy jsou definovány pro hodnoty přiváděné do bloku (včetně výstupu z předchozího časového kroku ) pro každou z bran. Blok LSTM tedy v závislosti na těchto hodnotách určuje, jak spravovat svou paměť, a posilování umožňuje bloku LSTM naučit se funkci, která minimalizuje ztrátu. Bloky LSTM jsou obvykle trénovány pomocí zpětného šíření v průběhu času.

Tradiční LSTM

Tradiční LSTM se zapomenutými branami [2] [7] a ( znamená produkt Hadamard ):

Proměnné:

Aktivační funkce :

LSTM s očima

Eye LSTM se zapomenutými branami [8] [9] se nepoužívá, používá se jako náhrada na většině míst:

Konvoluční LSTM

Konvoluční LSTM [10] ( znamená konvoluční operátor ):

Cvičení

Aby se minimalizovala celková chyba LSTM v celé sadě cvičných sekvencí, lze použít iterativní sestup gradientu , jako je časově rozvinuté zpětné šíření, ke změně každé z vah v poměru k její derivaci v závislosti na velikosti chyby. Hlavním problémem sestupu gradientu pro standardní rekurentní neuronové sítě je to, že gradienty chyb klesají exponenciální rychlostí, jak se zvyšuje časové zpoždění mezi důležitými událostmi, což bylo identifikováno v roce 1991 [11] [12] . U bloků LSTM však platí, že když se chybové hodnoty šíří zpět z výstupní vrstvy, chyba se uzamkne v paměti bloku. Tomu se říká „kolotoč chyb“, který neustále „přivádí“ chybu zpět do každé z bran, dokud nejsou naučeny vyřadit hodnotu. Pravidelné zpětné šíření chyb je tedy efektivní pro trénování bloku LSTM, aby si pamatoval hodnoty po velmi dlouhá časová období.

LSTM lze také trénovat pomocí kombinace evolučního algoritmu pro váhy ve skrytých vrstvách a pseudoinverzních matic nebo pomocí podpůrného vektorového stroje pro váhy ve výstupní vrstvě. [13] V posilovacím učení lze LSTM trénovat přímým hledáním prostoru pro strategie, evoluční strategie nebo genetické algoritmy .

Aplikace

Příklady použití LSTM jsou popsány: v robotice [14] , pro analýzu časových řad [15] , pro rozpoznávání řeči [4] [16] [17] , v rytmickém učení [9] , pro generování hudebních skladeb [18] , v učení gramatiky ( anglicky  umělé gramatické učení ) [8] [19] [20] , v úlohách rozpoznávání rukopisu [21] [22] , pro rozpoznávání lidské činnosti [23] , v úloze identifikace homologních proteinů [24] .

Poznámky

  1. Klaus Greff; Rupesh Kumar Srivastava; Jan Koutník; Bas R. Steunebrink & Jürgen Schmidhuber (2015), LSTM: A Search Space Odyssey, arΧiv : 1503.04069 . 
  2. 12 Sepp Hochreiter ; Jürgen Schmidhuber . Dlouhá krátkodobá paměť //  Neural Computation   : deník. - 1997. - Sv. 9 , č. 8 . - S. 1735-1780 . - doi : 10.1162/neco.1997.9.8.1735 . — PMID 9377276 . Archivováno z originálu 26. května 2015. Archivovaná kopie (nedostupný odkaz) . Získáno 4. února 2017. Archivováno z originálu 26. května 2015. 
  3. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. Nový konekcionistický systém pro vylepšené neomezené rozpoznávání rukopisu. IEEE Transactions on Pattern Analysis and Machine Intelligence, sv. 31, č. 5, 2009.
  4. 1 2 Graves, Alex; Mohamed, Abdel-rahman; Hinton, Geoffrey. Rozpoznávání řeči pomocí hlubokých rekurentních neuronových sítí  //  Akustika, zpracování řeči a signálů (ICASSP), Mezinárodní konference IEEE 2013 na: časopis. - 2013. - S. 6645-6649 .
  5. S QuickType chce Apple udělat víc, než jen hádat váš další text. Chce vám to dát AI.  (anglicky) . WIRED . Datum přístupu: 16. června 2016. Archivováno z originálu 24. března 2017.
  6. Opakující se neuronové sítě - Sítě se zpětnou vazbou - Lstm Rekurentní síť - Zpětná vazba Neuronová síť - Opakované sítě - Síť zpětné vazby - Opakovaná síť - - Síť zpětné vazby . people.idsia.ch _ Získáno 16. června 2016. Archivováno z originálu 5. května 2021.
  7. Felix A. Gers; Jürgen Schmidhuber; Fred Cummins. Learning to Forget: Continual Prediction with LSTM  //  Neural Computation : deník. - 2000. - Sv. 12 , č. 10 . - S. 2451-2471 . - doi : 10.1162/089976600300015015 .
  8. 1 2 3 Gers, F.A.; Schmidhuber, J. LSTM Recurrent Networks Naučte se jednoduché kontextové a kontextově citlivé jazyky  ​​// Transakce IEEE v neuronových  sítích : deník. - 2001. - Sv. 12 , č. 6 . - S. 1333-1340 . - doi : 10.1109/72.963769 .
  9. 1 2 3 Gers, F.; Schraudolph, N.; Schmidhuber, J. Učení přesného načasování s rekurentními sítěmi LSTM  //  Journal of Machine Learning Research  : journal. - 2002. - Sv. 3 . - str. 115-143 .
  10. Xingjian Shi; Zhurong Chen; Hao Wang; Dit-Yan Yeung; Wai-kin Wong; Wang-chun Woo. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting  //  Proceedings of the 28th International Conference on Neural Information Processing Systems : journal. - 2015. - S. 802-810 .
  11. S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diplomová práce, Institut f. Informatik, Technische Univ. Mnichov, 1991.
  12. S. Hochreiter, Y. Bengio, P. Frasconi a J. Schmidhuber. Gradientní tok v rekurentních sítích: obtížnost učení se dlouhodobým závislostem. V SC Kremer a JF Kolen, editoři, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  13. Schmidhuber, J.; Wierstra, D.; Gagliolo, M.; Gomez, F. Training Recurrent Networks by Evolino   // Neural Computation. - 2007. - Sv. 19 , č. 3 . - str. 757-779 . - doi : 10.1162/neco.2007.19.3.757 .
  14. H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll a J. Schmidhuber. Systém pro robotickou srdeční chirurgii, který se učí vázat uzly pomocí rekurentních neuronových sítí. Advanced Robotics, 22/13-14, pp. 1521-1537, 2008.
  15. J. Schmidhuber a D. Wierstra a F. J. Gomez. Evolino: Hybridní neuroevoluce / Optimální lineární vyhledávání pro sekvenční učení. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853-858, 2005.
  16. Graves, A.; Schmidhuber, J. Rámcová klasifikace fonémů s obousměrným LSTM a dalšími architekturami  neuronových sítí //  Neural Networks: journal. - 2005. - Sv. 18 , č. 5-6 . - S. 602-610 . - doi : 10.1016/j.neunet.2005.06.042 .
  17. S. Fernandez, A. Graves, J. Schmidhuber. Aplikace rekurentních neuronových sítí na rozlišování klíčových slov. Intl. Conf. o umělých neuronových sítích ICANN'07, 2007.
  18. D. Eck a J. Schmidhuber. Naučte se dlouhodobou strukturu blues. V J. Dorronsoro, ed., Proceedings of Int. Conf. o umělých neuronových sítích ICANN'02, Madrid, strany 284-289, Springer, Berlín, 2002.
  19. Schmidhuber, J.; Gers, F.; Eck, D.; Schmidhuber, J.; Gers, F. Learning nonregular languages: Srovnání jednoduchých rekurentních sítí a LSTM   // Neural Computation : deník. - 2002. - Sv. 14 , č. 9 . - str. 2039-2041 . doi : 10.1162 / 089976602320263980 .
  20. Perez-Ortiz, JA; Gers, F. A.; Eck, D.; Schmidhuber, J. Kalman filtry zlepšují výkon sítě LSTM v problémech neřešitelných tradičními rekurentními sítěmi  //  Neural Networks: journal. - 2003. - Sv. 16 , č. 2 . - str. 241-250 . - doi : 10.1016/s0893-6080(02)00219-8 .
  21. A. Graves, J. Schmidhuber. Offline rozpoznávání rukopisu s multidimenzionálními rekurentními neuronovými sítěmi. Advances in Neural Information Processing Systems 22, NIPS'22, str. 545-552, Vancouver, MIT Press, 2009.
  22. A. Graves, S. Fernandez, M. Liwicki, H. Bunke, J. Schmidhuber. Neomezené online rozpoznávání rukopisu pomocí opakujících se neuronových sítí. Advances in Neural Information Processing Systems 21, NIPS'21, str. 577-584, 2008, MIT Press, Cambridge, MA, 2008.
  23. M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sekvenční hluboké učení pro rozpoznávání lidského jednání. 2nd International Workshop on Human Behavior Understanding (HBU), AA Salah, B. Lepri ed. Amsterdam, Nizozemsko. str. 29-39. Poznámky k přednáškám z informatiky 7065. Springer. 2011
  24. Hochreiter, S.; Heusel, M.; Obermayer, K. Rychlá detekce homologie proteinů založená na modelu bez zarovnání  //  Bioinformatics: journal. - 2007. - Sv. 23 , č. 14 . - S. 1728-1736 . - doi : 10.1093/bioinformatics/btm247 . — PMID 17488755 .

Odkazy