Dopředná neuronová síť

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 23. dubna 2020; kontroly vyžadují 2 úpravy .

Dopředná neuronová  síť je umělá neuronová síť, ve které spojení mezi uzly netvoří smyčku [1] . Taková síť se liší od rekurentní neuronové sítě .

Dopředná neuronová síť byla prvním a nejjednodušším typem umělé neuronové sítě [2] . V této síti putují informace pouze jedním směrem dopředu ze vstupních uzlů, přes skryté uzly (pokud existují) a do výstupních uzlů. V síti nejsou žádné cykly ani zpětnovazební smyčky [1] .

Jednovrstvý perceptron

Nejjednodušším druhem neuronové sítě je jednovrstvá perceptronová síť, která se skládá z jediné vrstvy výstupních uzlů; jehož vstupy jdou přímo k výstupům přes řadu vah. V každém uzlu se vypočítá součet součinů vah a vstupů, a pokud hodnota překročí nějaký práh (obvykle 0), neuron vystřelí a převezme aktivovanou hodnotu (obvykle 1); jinak převezme deaktivovanou hodnotu (obvykle −1). Neurony s takovou aktivační funkcí se také nazývají umělé neurony nebo lineární prahové jednotky. V literatuře termín perceptron často označuje sítě skládající se pouze z jedné z těchto jednotek. Podobný neuron popsali Warren McCulloch a Walter Pitts ve 40. letech 20. století.

Perceptron lze vytvořit pomocí libovolných hodnot pro stavy povoleno a zakázáno, pokud mezi nimi leží prahová hodnota.

Perceptrony lze trénovat pomocí jednoduchého algoritmu učení běžně označovaného jako pravidlo delta . Vypočítává chyby mezi počítaným výstupem a výstupy vzorků a používá je k úpravám hmotnosti, čímž implementuje formu sestupu gradientu .

Jednovrstvé perceptrony jsou schopné učit se pouze lineárně separovatelné struktury; v roce 1969 bylo ve slavné monografii nazvané Perceptrony od Marvina Minskyho a Seymoura Paperta ukázáno, že jednovrstvá síť perceptronů se nemůže naučit funkci XOR (přesto bylo známo, že vícevrstvé perceptrony jsou schopny produkovat jakoukoli možnou booleovskou funkci ) .

Ačkoliv je jednotka prahu jednotky ve svém výpočetním výkonu dosti omezená, ukázalo se, že sítě paralelních prahových jednotek mohou aproximovat jakoukoli spojitou funkci od kompaktního intervalu reálných čísel po interval [-1,1]. Tento výsledek lze nalézt v publikaci Peter Auer, Harald Burgsteiner a Wolfgang Maass „Učící se pravidlo pro velmi jednoduché univerzální aproximátory sestávající z jediné vrstvy perceptronů“ [3] .

Jednovrstvá neuronová síť může počítat souvislý výstup namísto stupňovité funkce . Běžnou volbou je takzvaná logistická funkce:

S touto volbou je jednovrstvá síť identická s logistickým regresním modelem široce používaným ve statistickém modelování . Logistická funkce je také známá jako sigmoidní funkce . Má spojitou derivaci, což umožňuje jeho použití při zpětném šíření . Tato funkce je také preferována, protože její derivace se snadno počítá:

(Skutečnost, že f splňuje výše uvedenou diferenciální rovnici, lze snadno ukázat pomocí řetězového pravidla )

Vícevrstvý perceptron

Tato třída sítí se skládá z několika úrovní výpočetních jednotek, obvykle propojených přímým spojením. Každý neuron v jedné vrstvě má ​​přímé spojení s neurony v další vrstvě. V mnoha aplikacích zařízení v těchto sítích používají funkci sigmoid jako aktivační funkci.

Univerzální aproximační teorém pro neuronové sítě říká, že každou spojitou funkci mapující intervaly reálných čísel na nějaký výstupní interval reálných čísel lze libovolně aproximovat vícevrstvým perceptronem pouze s jednou skrytou vrstvou. Tento výsledek je platný pro širokou škálu aktivačních funkcí, například pro sigmoidní funkce.

Vícevrstvé sítě využívají mnoho metod učení, z nichž nejoblíbenější je zpětné šíření. Zde jsou výstupní hodnoty porovnány se správnou odpovědí pro výpočet hodnoty nějaké předdefinované chybové funkce. Chyba je pak vrácena prostřednictvím sítě různými způsoby. Pomocí těchto informací algoritmus upraví váhu každého připojení, aby o nějakou malou hodnotu snížil hodnotu chybové funkce. Po opakování tohoto procesu po dostatečně velký počet tréninkových cyklů síť obvykle konverguje do nějakého stavu, ve kterém je chyba výpočtu malá. V tomto případě můžeme říci, že se síť naučila určitou objektivní funkci . Pro správné vyladění závaží se používá obecná nelineární optimalizační technika zvaná gradientní klesání. K tomu síť vypočítá derivaci chybové funkce vzhledem k vahám sítě a změní váhy tak, aby se chyba zmenšila (tedy po povrchu chybové funkce). Z tohoto důvodu lze zpětné šíření použít pouze v sítích s diferencovatelnými aktivačními funkcemi.

Obecně platí, že problém trénování sítě tak, aby fungovala efektivně i na vzorcích, které nebyly použity jako trénování, je poměrně jemný problém, který vyžaduje další metody. To je důležité zejména pro případy, kdy je k dispozici pouze velmi omezený počet trénovacích vzorků [4] . Nebezpečí spočívá v tom, že síť překryje trénovací data a nedokáže zachytit skutečný statistický proces generující data. Teorie počítačového učení se zabývá trénováním klasifikátorů na omezeném množství dat. V kontextu neuronových sítí jednoduchá heuristika , nazývaná včasné zastavení, často zajišťuje, že síť bude dobře zobecňovat na příklady mimo trénovací sadu.

Dalšími typickými problémy algoritmu backpropagation jsou rychlost konvergence a možnost dosažení lokálního minima chybové funkce. Dnes existují praktické techniky, díky kterým je zpětné šíření ve vícevrstvých perceptronech nástrojem volby pro mnoho problémů strojového učení .

Můžete také použít řadu nezávislých neuronových sítí moderovaných nějakým prostředníkem, podobné chování se vyskytuje v mozku. Tyto neurony mohou pracovat odděleně a vypořádat se s velkým úkolem a výsledky lze nakonec kombinovat [5] .

Poznámky

  1. ↑ 1 2 Zell, Andreas. Simulation Neuronaler Netze // [Simulace neuronových sítí] (v němčině) (1. vydání). Addison Wesleyová. - 1994. - S. 73 . — ISBN 3-89319-554-8 .
  2. Schmidhuber, Jürgen. Hluboké učení v neuronových sítích: přehled // Neuronové sítě. 61:85–117. - 2015. - ISSN 0893-6080 . - doi : 10.1016/j.neunet.2014.09.003 . - arXiv : 1404,7828 .
  3. Auer, Petr; Harald Burgsteiner; Wolfgang Maass. Učební pravidlo pro velmi jednoduché univerzální aproximátory skládající se z jedné vrstvy perceptronů  // Neuronové sítě. - 2008. - č. 21 (5) . — S. 786–795 . - doi : 10.1016/j.neunet.2007.12.036 . — PMID 18249524 .
  4. Roman M. Balabin; Ravilya Z. Safieva; Jekatěrina I. Lomakina. Porovnání lineárních a nelineárních kalibračních modelů založených na datech blízké infračervené (NIR) spektroskopie pro predikci vlastností benzínu // Chemometr Intell Lab. 88(2). - 2007. - S. 183-188 . - doi : 10.1016/j.chemolab.2007.04.006 .
  5. Tahmasebi, Pejman; Hezarkhani, Ardeshir. Aplikace modulární dopředné neuronové sítě pro odhad stupně // Výzkum přírodních zdrojů. 20(1). - 21. ledna 2011. - S. 25-32 . - doi : 10.1007/s11053-011-9135-3 .

Odkazy