Verbalizace je minimalizovaný popis práce syntetizované a již trénované neuronové sítě ve formě několika vzájemně závislých algebraických nebo logických funkcí.
Jednou z hlavních nevýhod trénovaných neuronových sítí z pohledu mnoha uživatelů je, že je obtížné extrahovat explicitní a uživatelsky přívětivý algoritmus pro řešení problému z trénované neuronové sítě - samotná neuronová síť je tento algoritmus a pokud je struktura sítě složitá, pak je tento algoritmus nesrozumitelný. Speciálně konstruovaný postup zjednodušení a verbalizace však často umožňuje extrahovat explicitní metodu řešení.
Verbalizace se provádí zejména za účelem přípravy natrénované a zjednodušené neuronové sítě pro implementaci v programovém kódu nebo ve formě specializovaného elektronického (optoelektronického) zařízení a také pro využití výsledků ve formě explicitních znalostí . [1] V tomto případě jsou symptomy vstupní hodnoty neuronové sítě a syndromy jsou hodnoty na výstupech neuronů . End syndrom je výstupní hodnota neuronové sítě. Verbalizace se obvykle provádí pomocí specializovaných balíčků.
Před verbalizací sítě, obvykle pomocí produkčních pravidel, pro některé typy sítí, bylo navrženo strukturu sítí zjednodušit - ztenčit. Hlavní myšlenkou prořezávání je, že ty prvky modelu nebo ty neurony sítě, které mají malý vliv na chybu aproximace , lze z modelu vyloučit bez výrazného zhoršení kvality aproximace [2] . Ale zároveň je třeba mít na paměti, že to platí pouze pro řešený problém. Pokud budou nové statistiky pro trénování, tak řídká síť ztratí schopnost generalizace, kterou by měla, kdyby se neztratila spojení (alespoň opak nebyl prokázán). Hovoříme tedy o ztrátových algoritmech, které lze použít pro konkrétní problémy, ale nelze je použít bez ohledu na problém. Zvyšováním specializace ztrácejí flexibilitu.
Metodu druhého řádu (využívající analýzu citlivosti založenou na výpočtu druhých derivací) navrhl LeCun v roce 1990 [3] a nazýval se „optimální poškození mozku“. Poté jej vyvinul Hussibey [4] a dostal název „optimální operace mozku“.
O něco dříve byly navrženy metody ztenčování [5] a skeletonizace [6] neuronových sítí, založené na pouhém odstranění prvků s nejmenšími váhami ( metody nulového řádu ).
Konečně v témže roce 1990 A. N. Gorban navrhl účinnou metodu založenou na analýze prvních derivací v průběhu učení gradientovými metodami a nevyžadující samostatnou diferenciaci. [7] Kromě úkolu odstraňovat prvky byly řešeny i další zjednodušující problémy: zmenšování délky slov vah a signálů (hrubost), zjednodušení aktivačních funkcí neuronů, získávání interpretovatelných znalostí atd. Celý soubor přístupů byl také nazývané " kontrastní neuronové sítě ". Popis hlavních indikátorů citlivosti je uveden v přehledu. [osm]
E. M. Mirkes v projektu „Ideal neurocomputer “, založeném na Gorbanově přístupu a zkušenostech s vývojem aplikovaného softwaru, zavedl prvek „Contrast“, vybudoval knihovnu jeho hlavních funkcí a vyvinul popisný jazyk. [9]
Pro přípravu neuronové sítě pro zjednodušení se ukazuje jako užitečné zavést do hodnocení její práce, která je při nácviku minimalizována, penalizační termíny (anglicky penalty), penalizující za složitost. Tyto algoritmy jsou představeny v knize A. N. Gorbana [7] . Tento přístup byl následně znovu objeven a položil základy pro teorii strukturálního učení Ishikawou a Zuradou. [10] [11]
Decimační algoritmus pro Rosenblattův perceptron není vyžadován. To je způsobeno skutečností, že na rozdíl od Rumelhartova vícevrstvého perceptronu není perceptron plně propojenou sítí, to znamená, že počet připojení od středního prvku ke vstupu může být přímo řízen experimentátorem v závislosti na složitosti úlohy. . Není tedy vyžadováno školení s dalšími připojeními a můžete okamžitě vybrat počet připojení, který je pro daný úkol zapotřebí. Takový výběr se provádí experimentálně, pokud bylo během tréninku dosaženo konvergence, lze ji dále snížit. Jakmile konvergence začala vyžadovat výrazně větší počet iterací, pak je to známka toho, že bylo dosaženo požadovaného počtu spojení.
Dalším řízeným parametrem, který má významnější vliv na počet spojení, je počet středních prvků. Čím více lze perceptron trénovat s menším počtem středních prvků, tím optimálnější strukturu získáme.
Řízením těchto dvou parametrů je proto ztenčování dosaženo automaticky, bez dalších algoritmů.