Pravidlo delta je metoda učení perceptronu založená na principu sestupu gradientu nad chybovou plochou. Jeho další vývoj vedl ke vzniku metody backpropagation .
Ve skutečnosti se pravidlo delta nazývá matematická forma zápisu. Nechť vektor je vektor vstupních signálů a vektor je vektor signálů, které by měly být přijaty z perceptronu pod vlivem vstupního vektoru. Zde je počet neuronů, které tvoří perceptron. Vstupní signály přijaté na vstupech perceptronu byly zváženy a sečteny, což vedlo k vektoru výstupních hodnot perceptronu. Potom je možné určit chybový vektor , jehož rozměr se shoduje s rozměrem vektoru výstupních signálů. Složky chybového vektoru jsou definovány jako rozdíl mezi očekávanou a skutečnou hodnotou výstupního signálu perceptronového neuronu:
S takovými zápisy lze vzorec pro úpravu j-té váhy i-tého neuronu napsat takto:
Číslo signálu se mění od jedné do rozměru vstupního vektoru . Počet neuronů se liší od jedné do počtu neuronů . Hodnota je číslo aktuální iterace školení. Váha vstupního signálu neuronu se tedy mění ve směru snižování chyby úměrně hodnotě celkové chyby neuronu. Často se zavádí faktor úměrnosti , kterým se násobí velikost chyby. Tento koeficient se nazývá míra nebo míra [1] učení . Konečný vzorec pro úpravu závaží je tedy:
Aby se rozšířil rozsah úloh řešených perceptronem, Widrow a Hoff [2] navrhli funkci sigmoidální aktivace pro neurony. To umožnilo perceptronu pracovat se spojitými signály, ale vyžadovalo to úpravu algoritmu učení [3] . Upravený algoritmus je zaměřen na minimalizaci chybové funkce root-mean-square:
Tato funkce je definována váhovou maticí . Zde je číslo neuronu a číslo vstupu. Plocha popsaná touto funkcí má tvar pseudo -paraboloidu [4] . Úkolem učení je najít globální minimum tohoto povrchu. Jedním ze způsobů, jak najít minimum, je metoda gradientního klesání . Závaží jsou nastavena ve směru protispádu povrchu:
Zde je koeficient rychlosti učení.
Chybová funkce je komplexní a závisí především na výstupních signálech perceptronu. Podle pravidel diferenciace komplexních funkcí:
(*)Výstupní signál každého neuronu je určen vzorcem:
Zde je počet vstupů perceptronu, je signál na j-tém vstupu a je aktivační funkce. Pak dostaneme:
(**)Odlišením chybové funkce hodnotou výstupního signálu dostaneme:
(***)Dosazením vzorců (**) a (***) do výrazu (*) získáme výraz pro úpravu váhy j-tého vstupu i-tého neuronu pro libovolnou aktivační funkci [5] :
Z tohoto vzorce je vidět, že jako aktivační funkce při použití zobecněného delta pravidla musí být aktivační funkce neuronů průběžně diferencovatelná podél celé osy x. Výhodu mají aktivační funkce s jednoduchou derivací (například logistická křivka nebo hyperbolická tečna).
Na základě pravidla delta vytvořili Widrow a Hopf jeden z prvních hardwarových neuropočítačů Adalin ( 1960 ).