Verbalizace neuronových sítí

Verbalizace je minimalizovaný popis práce syntetizované a již trénované neuronové sítě ve formě několika vzájemně závislých algebraických nebo logických funkcí.

Cíle verbalizace

Jednou z hlavních nevýhod trénovaných neuronových sítí z pohledu mnoha uživatelů je, že je obtížné extrahovat explicitní a uživatelsky přívětivý algoritmus pro řešení problému z trénované neuronové sítě - samotná neuronová síť je tento algoritmus a pokud je struktura sítě složitá, pak je tento algoritmus nesrozumitelný. Speciálně konstruovaný postup zjednodušení a verbalizace však často umožňuje extrahovat explicitní metodu řešení.

Verbalizace se provádí zejména za účelem přípravy natrénované a zjednodušené neuronové sítě pro implementaci v programovém kódu nebo ve formě specializovaného elektronického (optoelektronického) zařízení a také pro využití výsledků ve formě explicitních znalostí . [1] V tomto případě jsou symptomy vstupní hodnoty neuronové sítě a syndromy  jsou hodnoty na výstupech neuronů . End syndrom je výstupní hodnota neuronové sítě. Verbalizace se obvykle provádí pomocí specializovaných balíčků.

Zvláštní problémy zjednodušování a verbalizace

  1. Zjednodušení architektury neuronové sítě
  2. Snížení počtu vstupních signálů
  3. Redukce parametrů neuronové sítě na malý počet vybraných hodnot
  4. Snížené požadavky na přesnost vstupního signálu
  5. Formulace explicitních znalostí ve formě symptom-syndromové struktury a explicitních vzorců pro tvorbu syndromů ze symptomů.

Algoritmy ztenčování

Před verbalizací sítě, obvykle pomocí produkčních pravidel, pro některé typy sítí, bylo navrženo strukturu sítí zjednodušit - ztenčit. Hlavní myšlenkou prořezávání je, že ty prvky modelu nebo ty neurony sítě, které mají malý vliv na chybu aproximace , lze z modelu vyloučit bez výrazného zhoršení kvality aproximace [2] . Ale zároveň je třeba mít na paměti, že to platí pouze pro řešený problém. Pokud budou nové statistiky pro trénování, tak řídká síť ztratí schopnost generalizace, kterou by měla, kdyby se neztratila spojení (alespoň opak nebyl prokázán). Hovoříme tedy o ztrátových algoritmech, které lze použít pro konkrétní problémy, ale nelze je použít bez ohledu na problém. Zvyšováním specializace ztrácejí flexibilitu.

Pro Rumelhartův vícevrstvý perceptron a ty na něm založené

Metodu druhého řádu (využívající analýzu citlivosti založenou na výpočtu druhých derivací) navrhl LeCun v roce 1990 [3] a nazýval se „optimální poškození mozku“. Poté jej vyvinul Hussibey [4] a dostal název „optimální operace mozku“.

O něco dříve byly navrženy metody ztenčování [5] a skeletonizace [6] neuronových sítí, založené na pouhém odstranění prvků s nejmenšími váhami ( metody nulového řádu ).

Konečně v témže roce 1990 A. N. Gorban navrhl účinnou metodu založenou na analýze prvních derivací v průběhu učení gradientovými metodami a nevyžadující samostatnou diferenciaci. [7] Kromě úkolu odstraňovat prvky byly řešeny i další zjednodušující problémy: zmenšování délky slov vah a signálů (hrubost), zjednodušení aktivačních funkcí neuronů, získávání interpretovatelných znalostí atd. Celý soubor přístupů byl také nazývané " kontrastní neuronové sítě ". Popis hlavních indikátorů citlivosti je uveden v přehledu. [osm]

E. M. Mirkes v projektu „Ideal neurocomputer “, založeném na Gorbanově přístupu a zkušenostech s vývojem aplikovaného softwaru, zavedl prvek „Contrast“, vybudoval knihovnu jeho hlavních funkcí a vyvinul popisný jazyk. [9]

Pro přípravu neuronové sítě pro zjednodušení se ukazuje jako užitečné zavést do hodnocení její práce, která je při nácviku minimalizována, penalizační termíny (anglicky penalty), penalizující za složitost. Tyto algoritmy jsou představeny v knize A. N. Gorbana [7] . Tento přístup byl následně znovu objeven a položil základy pro teorii strukturálního učení Ishikawou a Zuradou. [10] [11]

Pro perceptron Rosenblatt a ty, které jsou na něm založené

Decimační algoritmus pro Rosenblattův perceptron není vyžadován. To je způsobeno skutečností, že na rozdíl od Rumelhartova vícevrstvého perceptronu není perceptron plně propojenou sítí, to znamená, že počet připojení od středního prvku ke vstupu může být přímo řízen experimentátorem v závislosti na složitosti úlohy. . Není tedy vyžadováno školení s dalšími připojeními a můžete okamžitě vybrat počet připojení, který je pro daný úkol zapotřebí. Takový výběr se provádí experimentálně, pokud bylo během tréninku dosaženo konvergence, lze ji dále snížit. Jakmile konvergence začala vyžadovat výrazně větší počet iterací, pak je to známka toho, že bylo dosaženo požadovaného počtu spojení.

Dalším řízeným parametrem, který má významnější vliv na počet spojení, je počet středních prvků. Čím více lze perceptron trénovat s menším počtem středních prvků, tím optimálnější strukturu získáme.

Řízením těchto dvou parametrů je proto ztenčování dosaženo automaticky, bez dalších algoritmů.

Poznámky

  1. Mirkes E. M. , Logicky transparentní neuronové sítě a produkce explicitních znalostí z dat Archivní kopie ze dne 25. února 2008 na Wayback Machine , V knize: Neuroinformatics / A. N. Gorban, V. L. Dunin-Barkovsky, A. N Kirdin a další - Novosibirsk : Věda. Sibiřský podnik Ruské akademie věd, 1998. - 296 s. ISBN 5-02-031410-2
  2. Optimální ztenčení neuronových sítí . Získáno 30. srpna 2008. Archivováno z originálu 18. května 2011.
  3. LeCun Y., Denker J. S., Solla S. A. Optimální poškození mozku Archivováno 20. května 2008 na Wayback Machine  / Touretzky D. S. ed., Advances in Neural Information Processing Systems 2. Morgan Kaufmann, San Mateo, CA. 1990. S. 598-605.
  4. Hassibi B., Stork D. G. Deriváty druhého řádu pro prořezávání sítě: Optimální mozkový chirurg Archivováno 7. května 2008 na Wayback Machine  / NIPS 5. 1993.
  5. Sietsma J., Dow RJF, Prořezávání neuronové sítě - proč a jak. In: Proc. IJCNN'88, San Diego, CA, IEEE, sv.1. - str. 325-333.
  6. Mozer MC, Smolensky P. Skeletonizace: technika pro ořezávání tuku ze sítě prostřednictvím hodnocení relevance. In: Advances in Neural Network Information Processing Systems, Morgan Kaufmann, 1989. Vol.1, pp.107-115.
  7. 1 2 Gorban A.N., Učící se neuronové sítě Archivováno 9. srpna 2010 na Wayback Machine . M.: ed. Společný podnik SSSR-USA "Paragraph", 1990. 160 s.
  8. Gorban AN, Mirkes Eu. M., Tsaregorodtsev VG Generation of Explicit Knowledge from Empirical Data through Pruning of Trainable Neuron Networks Archivováno 17. února 2016 na Wayback Machine In: Proc. IJCNN'99, Washington DC, červenec 1999, IEEE, sv. 6, str. 4393-4398.
  9. Mirkes E.M., Neurocomputer. Návrh normy. Archivní kopie ze dne 15. června 2009 ve Wayback Machine - Novosibirsk: Nauka, Siberian Publishing Company RAS, 1999 .- 337 s. ISBN 5-02-031409-9 (kapitola 9: "Kontrast") Další kopie online: Archivovaná kopie (odkaz není k dispozici) . Získáno 15. října 2008. Archivováno z originálu 3. července 2009.   .
  10. Ishikawa S., Strukturální učení se zapomínáním, Neural Networks, 1996, svazek 9, 3, 509-521.
  11. Miller DA, Zurada, JM, Dynamický systémový pohled na strukturální učení se zapomínáním, IEEE Transactions on Neural Networks, sv. 9, 3, 1998, 508-515.