Delta pravidlo

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 22. září 2018; kontroly vyžadují 11 úprav .

Pravidlo delta je  metoda učení perceptronu založená na principu sestupu gradientu nad chybovou plochou. Jeho další vývoj vedl ke vzniku metody backpropagation .

Delta pravidlo

Ve skutečnosti se pravidlo delta nazývá matematická forma zápisu. Nechť vektor je  vektor vstupních signálů a vektor  je vektor signálů, které by měly být přijaty z perceptronu pod vlivem vstupního vektoru. Zde  je počet neuronů, které tvoří perceptron. Vstupní signály přijaté na vstupech perceptronu byly zváženy a sečteny, což vedlo k vektoru výstupních hodnot perceptronu. Potom je možné určit chybový vektor , jehož rozměr se shoduje s rozměrem vektoru výstupních signálů. Složky chybového vektoru jsou definovány jako rozdíl mezi očekávanou a skutečnou hodnotou výstupního signálu perceptronového neuronu:

S takovými zápisy lze vzorec pro úpravu j-té váhy i-tého neuronu napsat takto:

Číslo signálu se mění od jedné do rozměru vstupního vektoru . Počet neuronů se liší od jedné do počtu neuronů . Hodnota  je číslo aktuální iterace školení. Váha vstupního signálu neuronu se tedy mění ve směru snižování chyby úměrně hodnotě celkové chyby neuronu. Často se zavádí faktor úměrnosti , kterým se násobí velikost chyby. Tento koeficient se nazývá míra nebo míra [1] učení . Konečný vzorec pro úpravu závaží je tedy:

Zobecněné pravidlo delta

Aby se rozšířil rozsah úloh řešených perceptronem, Widrow a Hoff [2] navrhli funkci sigmoidální aktivace pro neurony. To umožnilo perceptronu pracovat se spojitými signály, ale vyžadovalo to úpravu algoritmu učení [3] . Upravený algoritmus je zaměřen na minimalizaci chybové funkce root-mean-square:

Tato funkce je definována váhovou maticí . Zde  je číslo neuronu a  číslo vstupu. Plocha popsaná touto funkcí má tvar pseudo -paraboloidu [4] . Úkolem učení je najít globální minimum tohoto povrchu. Jedním ze způsobů, jak najít minimum, je metoda gradientního klesání . Závaží jsou nastavena ve směru protispádu povrchu:

Zde  je koeficient rychlosti učení.

Chybová funkce je komplexní a závisí především na výstupních signálech perceptronu. Podle pravidel diferenciace komplexních funkcí:

(*)

Výstupní signál každého neuronu je určen vzorcem:

Zde  je počet vstupů perceptronu,  je signál na j-tém vstupu a  je aktivační funkce. Pak dostaneme:

(**)

Odlišením chybové funkce hodnotou výstupního signálu dostaneme:

(***)

Dosazením vzorců (**) a (***) do výrazu (*) získáme výraz pro úpravu váhy j-tého vstupu i-tého neuronu pro libovolnou aktivační funkci [5] :

Z tohoto vzorce je vidět, že jako aktivační funkce při použití zobecněného delta pravidla musí být aktivační funkce neuronů průběžně diferencovatelná podél celé osy x. Výhodu mají aktivační funkce s jednoduchou derivací (například logistická křivka nebo hyperbolická tečna).

Na základě pravidla delta vytvořili Widrow a Hopf jeden z prvních hardwarových neuropočítačů Adalin ( 1960 ).

Poznámky

  1. Nielsen, Michael A. Neuronové sítě a hluboké učení . — 2015-01-01. Archivováno z originálu 6. září 2016.
  2. Widrow B., Hoff ME - Adaptivní spínací obvody. Záznam konference IRE WESTCON z roku 1969. — New York, 1960
  3. L. N. Yasnitsky - Úvod do umělé inteligence. - str. 34-36
  4. L. N. Yasnitsky - Úvod do umělé inteligence. - str. 35
  5. L. N. Yasnitsky - Úvod do umělé inteligence. - str. 36

Viz také

Literatura