Perceptron

Perceptron , neboli perceptron [nb 1] ( angl. perceptron z lat. perceptio - vnímání ; germ . Perzeptron ) - matematický nebo počítačový model vnímání informací mozkem ( kybernetický model mozku ), navržený Frankem Rosenblattem v roce 1958 a poprvé implementován ve formě elektronického stroje "Mark-1" [nb 2] v roce 1960 . Perceptron se stal jedním z prvních modelů neuronových sítí a Mark-1 se stal prvním neuropočítačem na světě .

Perceptron se skládá ze tří typů prvků, a to: signály přicházející ze senzorů jsou přenášeny do asociativních prvků a poté do reagujících prvků. Perceptrony tedy umožňují vytvořit soubor „asociací“ mezi vstupními podněty a požadovanou výstupní odezvou. Z biologického hlediska to odpovídá transformaci například vizuální informace na fyziologickou odpověď motorických neuronů . Podle moderní terminologie lze perceptrony klasifikovat jako umělé neuronové sítě:

Na pozadí rostoucí popularity neuronových sítí v roce 1969 vyšla kniha Marvina Minského a Seymoura Paperta , která ukázala zásadní omezení perceptronů. To vedlo k posunu zájmu výzkumníků umělé inteligence v oblasti symbolických výpočtů na rozdíl od neuronových sítí [nb 4] . Kromě toho se kvůli složitosti matematického studia perceptronů a nedostatku obecně uznávané terminologie objevily různé nepřesnosti a mylné představy .

Následně se obnovil zájem o neuronové sítě a zejména o práci Rosenblatta. Rychle se tedy rozvíjí například biocomputing , který je ve svém teoretickém základu výpočtů mimo jiné založen na neuronových sítích a perceptron je reprodukován na základě filmů obsahujících bakteriorhodopsin .

Příchod perceptronu

V roce 1943 navrhli Warren McCulloch a Walter Pitts koncept umělé neuronové sítě ve svém článku „Logický počet nápadů týkajících se nervové aktivity“ [1] . Konkrétně navrhli model umělého neuronu . Donald Hebb ve svém článku z roku 1949 „Organizace chování“ [2] popsal základní principy učení neuronů.

Tyto myšlenky o několik let později rozvinul americký neurofyziolog Frank Rosenblatt . Navrhl schéma pro zařízení, které simulovalo proces lidského vnímání , a nazval jej „perceptron“. Perceptron přenášel signály z fotobuněk , které byly smyslovým polem, do bloků elektromechanických paměťových buněk. Tyto buňky byly navzájem náhodně spojeny v souladu s principy konektivismu . V roce 1957 byla v Cornell Aeronautics Laboratory úspěšně dokončena simulace provozu perceptronu na počítači IBM 704 a o dva roky později, 23. června 1960, byl na Cornellově univerzitě předveden první neuropočítač - Mark-1 , který dokázal rozpoznat některá písmena anglické abecedy [3] [4] .

Pro „naučení“ perceptronu klasifikovat obrazy byla vyvinuta speciální iterativní metoda učení pokus-omyl připomínající proces lidského učení – metoda opravy chyb [5] . Navíc při rozpoznávání konkrétního písmene mohl perceptron zvýraznit charakteristické znaky písmene, které byly statisticky častější než nevýznamné rozdíly v jednotlivých případech. Perceptron tedy dokázal zobecnit písmena psaná různými způsoby (rukopisem) do jednoho zobecněného obrazu. Schopnosti perceptronu však byly omezené: stroj nedokázal spolehlivě rozeznat částečně uzavřená písmena, stejně jako písmena jiné velikosti, umístěná s posunem nebo otočením, než která se používala ve fázi jeho výcviku [6] .

Zpráva o prvních výsledcích se objevila již v roce 1958 – tehdy Rosenblatt publikoval článek „Perceptron: Pravděpodobnostní model pro ukládání a organizování informací v mozku“ [7] . Své teorie a předpoklady týkající se procesů vnímání a perceptronů však popisuje podrobněji v roce 1962 v knize „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms“. V knize uvažuje nejen o hotových modelech perceptronů s jednou skrytou vrstvou, ale také o vícevrstvých perceptronech s křížovým (třetí kapitola) a reverzním (čtvrtá kapitola) spojením. Kniha také přináší řadu důležitých myšlenek a teorémů, například je dokázána věta o konvergenci perceptronu [8] .

Popis elementárního perceptronu

Elementární perceptron se skládá ze tří typů prvků: S-prvků, A-prvků a jednoho R-prvku. S-prvky jsou vrstvou senzorů nebo receptorů. Ve fyzickém provedení odpovídají například fotosenzitivním buňkám v sítnici oka nebo fotorezistorům pole kamer. Každý receptor může být v jednom ze dvou stavů - klidový nebo excitační , a pouze ve druhém případě přenáší jeden signál do další vrstvy, do asociativních prvků.

A-prvky se nazývají asociativní, protože každý takový prvek zpravidla odpovídá celé množině (asociaci) S-prvků. A-prvek se aktivuje, jakmile počet signálů z S-prvků na jeho vstupu překročí určitou hodnotu [nb 5] . Pokud se tedy na senzorickém poli nachází sada odpovídajících S-prvků ve tvaru písmene „D“, A-element se aktivuje, pokud dostatečný počet receptorů ohlásil výskyt „bílé světelné skvrny“ v jejich blízkosti, to znamená, že prvek A bude jakoby spojen s přítomností / nepřítomností písmene "D" v nějaké oblasti. $\theta$

Signály z vybuzených A-prvků jsou zase přenášeny do sčítačky R a signál z i-tého asociativního prvku je přenášen s koeficientem [9] . Tento koeficient se nazývá váha vazby A-R. $w_{{i}}$

Stejně jako A-elementy, R-element vypočítává součet hodnot vstupních signálů vynásobený váhami ( lineární tvar ). R-element a s ním i elementární perceptron vydávají "1", pokud lineární tvar překročí práh , jinak bude výstup "-1". Matematicky lze funkci implementovanou prvkem R zapsat následovně: $\theta$

f(x)=\jméno operátora {znak} (\sum _{i=1}^{n}w_{i}x_{i}-\theta )

Trénink elementárního perceptronu spočívá ve změně váhových koeficientů vazeb A–R. Váhy S–A spojů (které mohou nabývat hodnot {−1; 0; +1}) a prahové hodnoty A-prvků se volí náhodně hned na začátku a poté se nemění. ( Popis algoritmu viz níže .) $w_{i}$

Po natrénování je perceptron připraven pracovat v režimu rozpoznávání [10] nebo generalizace [11] . V tomto režimu jsou perceptronu prezentovány dříve neznámé objekty a perceptron musí určit, do které třídy patří. Práce perceptronu je následující: když je objekt prezentován, vybuzené A-prvky vysílají signál R-prvku, rovný součtu odpovídajících koeficientů . Pokud je tento součet kladný, pak se rozhodne, že daný objekt patří do první třídy a pokud je záporný, pak do druhé [12] . $w_{i}$

Základní pojmy teorie perceptronů

Seriózní seznámení s teorií perceptronů vyžaduje znalost základních definic a vět, jejichž souhrn je základem pro všechny následující typy umělých neuronových sítí . Minimálně je ale potřeba chápat alespoň z pohledu teorie signálů , která je originální, tedy popsaná autorem perceptronu F. Rosenblattem.

Popis založený na signálech

Nejprve definujme základní prvky perceptronu, což jsou speciální případy umělého neuronu s prahovou přenosovou funkcí .

Jednoduchý S-element (snímač) je citlivý prvek, který při vystavení jakémukoli druhu energie (například světlo, zvuk, tlak, teplo atd.) generuje signál. Pokud vstupní signál překročí určitou prahovou hodnotu θ, dostaneme na výstupu prvku +1, jinak - 0 [13] .
Jednoduchý A-element (asociativní) je logický rozhodovací prvek, který dává výstupní signál +1, když algebraický součet jeho vstupních signálů překročí určitou prahovou hodnotu θ (prvek je označen jako aktivní ), jinak je výstup nulový [ 13] .
Jednoduchý R-element (reagující, to znamená aktivní) je prvek, který produkuje signál +1, pokud je součet jeho vstupních signálů přísně kladný, a signál -1, je-li součet jeho vstupních signálů přísně záporný. Pokud je součet vstupů nulový, výstup je buď nulový, nebo nedefinovaný [13] .

Pokud na výstupu jakéhokoli prvku dostaneme 1, pak říkáme, že prvek je aktivní nebo vybuzený .

Všechny uvažované prvky se nazývají jednoduché , protože implementují skokové funkce . Rosenblatt také tvrdil, že pro řešení složitějších problémů mohou být vyžadovány jiné typy funkcí, jako je lineární [14] .

V důsledku toho Rosenblatt zavedl následující definice:

Perceptron je síť tvořená S-, A-, R-prvky s proměnnou interakční maticí W (jejíž prvky jsou váhové koeficienty) určenou sekvencí minulých stavů aktivity sítě [14] [15] . $w_{ij}$
Perceptron se sériovými spoji je systém, ve kterém všechny spojnice vycházející z prvků s logickou vzdáleností d od nejbližšího S-prvku končí na prvcích s logickou vzdáleností d+1 od nejbližšího S-prvku [15] .
Jednoduchý perceptron je jakýkoli systém, který splňuje následujících pět podmínek:
1. v systému je pouze jeden R-prvek (přirozeně je spojen všemi A-prvky);
2. systém je perceptron se sériovými spoji jdoucími pouze od S-prvků k A-prvkům a od A-prvků k R-prvkům;
3. váhy všech vazeb od S-prvků k A-prvkům (S-A spojky) se nemění;
4. doba přenosu každého spoje je buď nula, nebo pevná konstanta ; $\tau$
5. všechny aktivační funkce prvků S-, A- , R- mají tvar $U_{i}(t)=f(a_{i}(t))$ $a_{{i}}(t)$ $u_{{i}}$
Elementární perceptron je jednoduchý perceptron, ve kterém jsou všechny prvky jednoduché . Jeho aktivační funkce má v tomto případě tvar [17] . $c_{ij}(t)=U_{i}(t-\tau )w_{ij}(t)$

Kromě toho můžete poukázat na následující koncepty navržené v knize a později vyvinuté v rámci teorie neuronových sítí:

Křížově propojený perceptron je systém, ve kterém existují spojení mezi prvky stejného typu (S, A nebo R) umístěnými ve stejné logické vzdálenosti od S-prvků a všechna ostatní spojení jsou sekvenčního typu [15] .
Zpětnovazební perceptron je systém, ve kterém existuje alespoň jedno spojení od logicky vzdálenějšího prvku k méně vzdálenému [15] . Podle moderní terminologie se takovým sítím říká rekurentní .
Perceptron s variabilními SA spoji je systém, ve kterém je odstraněno omezení pevných spojů z S-prvků na A-prvky. Bylo prokázáno, že optimalizací vazeb S-A je možné dosáhnout výrazného zlepšení charakteristik perceptronu [18] .

Popis na základě predikátů

Marvin Minsky studoval vlastnosti paralelního počítání , jehož speciálním případem byl v té době perceptron. Aby analyzoval jeho vlastnosti, musel znovu uvést teorii perceptronů v jazyce predikátů . Podstata přístupu byla následující: [nb 6] [19]

sada signálů z S-prvků byla spojena s proměnnou X;
každý A-prvek byl spojen s predikátem φ(X) (phi z x) , nazývaným konkrétní predikát ;
každý R-prvek byl spojen s predikátem ψ (psi) , v závislosti na konkrétních predikátech;
konečně zařízení schopné počítat všechny predikáty typu ψ se nazývalo perceptron .

Jak je aplikováno na "vizuální" perceptron, proměnná X symbolizovala obraz nějakého geometrického útvaru ( stimulu ). Soukromý predikát umožňoval každému „rozpoznat“ svou vlastní postavu. Predikát ψ znamenal situaci, kdy lineární kombinace ( — koeficienty přenosu) překročila určitou hranici θ. $a_{{1}}\phi _{{1}}+\ldots +a_{{n}}\phi _{{n}}$ $a_{{i}}$

Vědci identifikovali 5 rodin perceptronů, které mají podle jejich názoru zajímavé vlastnosti: [20]

Perceptrony omezené v průměru - každý obrazec X, rozeznaný konkrétními predikáty, nepřesahuje nějakou pevnou hodnotu v průměru.
Perceptrony s ohraničeným řádem – každý jednotlivý predikát závisí na omezeném počtu bodů z X.
Gamba perceptrony – každý konkrétní predikát musí být lineární prahovou funkcí, tedy miniperceptronem.
Náhodné perceptrony jsou perceptrony omezeného řádu, kde parciální predikáty jsou náhodně vybrané booleovské funkce. Kniha uvádí, že právě tento model byl Rosenblattovou skupinou nejdůkladněji prostudován.
Ohraničené perceptrony - množina dílčích predikátů je nekonečná a množina možných hodnot koeficientů je konečná. $a_{{i}}$

Takový matematický aparát sice umožnil aplikovat analýzu pouze na elementární Rosenblattův perceptron, ale odhalil mnohá zásadní omezení pro paralelní výpočty, kterých se neoprostí žádný typ moderních umělých neuronových sítí.

Historická klasifikace

Pojem perceptron má zajímavou, ale nezáviděníhodnou historii. V důsledku nevyvinuté terminologie neuronových sítí v minulých letech, ostré kritiky a nepochopení úkolů výzkumu perceptronů a někdy i falešného zpravodajství v tisku došlo ke zkreslení původního významu tohoto pojmu. Srovnáním vývoje Rosenblatt a moderních recenzí a článků můžeme rozlišit 4 spíše izolované třídy perceptronů:

Perceptron s jednou skrytou vrstvou Toto je klasický perceptron, jemuž je věnována většina Rosenblattovy knihy a je zvažován v tomto článku: má jednu vrstvu S-, A- a R-prvků. Jednovrstvý perceptron Jedná se o model, ve kterém jsou vstupní prvky přímo spojeny s výstupními prvky pomocí systému závaží. Jde o nejjednodušší dopřednou síť - lineární klasifikátor a speciální případ klasického perceptronu, ve kterém každý S-prvek jednoznačně odpovídá jednomu A-prvku, S-A spojky mají váhu +1 a všechny A-prvky mají práh θ = 1. Jednovrstvé perceptrony jsou ve skutečnosti formální neurony , tj. prahové prvky McCulloch-Pitts. Mají mnohá omezení, zejména nedokážou identifikovat situaci, kdy jsou na jejich vstupy přiváděny různé signály (“úloha XOR”, viz níže ). Vícevrstvý perceptron (podle Rosenblatta) Jedná se o perceptron s dalšími vrstvami A-prvků. Rosenblatt to analyzoval ve třetí části své knihy. Vícevrstvý perceptron (podle Rumelharta) Jedná se o perceptron, ve kterém jsou další vrstvy A-prvků, navíc trénování takové sítě probíhá podle metody zpětného šíření chyb a jsou trénovány všechny vrstvy perceptronu (včetně S-A). Jde o speciální případ Rosenblattova vícevrstvého perceptronu.

V současné době je v literatuře pojem „perceptron“ nejčastěji chápán jako jednovrstvý perceptron ( anglicky Single-layer perceptron ), navíc panuje mylná představa, že se jednalo o tento nejjednodušší typ modelu navržený Rosenblattem. Oproti jednovrstvému dali "vícevrstvý perceptron" ( angl. Multilayer perceptron ), opět nejčastěji myšleno Rumelhartův vícevrstvý perceptron, nikoli Rosenblattův. Klasický perceptron v takové dichotomii je označován jako vícevrstvý.

Učební algoritmy

Důležitou vlastností každé neuronové sítě je schopnost učit se . Proces učení je postup pro úpravu vah a prahů za účelem snížení rozdílu mezi požadovaným (cílovým) a výsledným výstupním vektorem. Rosenblatt se ve své knize pokusil klasifikovat různé algoritmy učení perceptronů a nazval je systémy zesílení.

Systém odměn je jakákoliv sada pravidel, na jejichž základě lze v průběhu času měnit interakční matici (nebo stav paměti) perceptronu [21] .

Rosenblatt při popisu těchto výztužných systémů a upřesnění jejich možných typů vycházel z myšlenek D. Hebba o učení, které navrhl v roce 1949 [2] , které lze přeformulovat do následujícího dvoudílného pravidla:

Pokud dva neurony na obou stranách synapse (spojení) vystřelí současně (tedy synchronně), pak se síla tohoto spojení zvýší.
Jestliže dva neurony na každé straně synapse vystřelí asynchronně, pak tato synapse slábne nebo úplně odumře [22] .

Výuka pod dohledem

Klasickou metodou pro trénování perceptronu je metoda opravy chyb [8] . Jde o typ řízeného učení , při kterém se váha spojení nemění, pokud aktuální reakce perceptronu zůstává správná. Dojde-li k nesprávné reakci, váha se změní o jedničku a znaménko (+/-) se určí opačně než znaménko chyby.

Předpokládejme, že chceme trénovat perceptron k oddělení dvou tříd objektů tak, že když jsou prezentovány objekty první třídy, výstup perceptronu je kladný (+1), a když jsou prezentovány objekty druhé třídy, je záporný ( −1). K tomu provedeme následující algoritmus: [5]

Náhodně vybíráme prahové hodnoty pro A-elementy a navazujeme S-A spojení (nebudou se dále měnit).
Předpokládá se, že počáteční koeficienty jsou rovné nule. $w_{i}$
Představujeme trénovací ukázku : objekty (například kruhy nebo čtverce) označující třídu, do které patří.
- Perceptronu ukážeme předmět první třídy. V tomto případě budou některé A-prvky nadšené. Koeficienty odpovídající těmto excitovaným prvkům se zvýší o 1. $w_{i}$
- Představujeme objekt druhé třídy a koeficienty těch A-prvků, které jsou při tomto zobrazení vybuzeny, jsou sníženy o 1. $w_{i}$
Obě části kroku 3 budou provedeny pro celou tréninkovou sadu. V důsledku tréninku se vytvoří hodnoty hmotností připojení . $w_{i}$

Věta o konvergenci perceptronu [8] , kterou popsal a prokázal F. Rosenblatt (za účasti Blocka, Josepha, Kestena a dalších výzkumníků, kteří s ním pracovali), ukazuje, že elementární perceptron trénovaný podle takového algoritmu, bez ohledu na počáteční stav váhových koeficientů a posloupnost výskytu pobídek povede vždy k dosažení řešení v konečném časovém úseku.

Učení bez učitele

Kromě klasické metody učení perceptronem představil Rosenblatt také koncept učení bez dozoru a navrhl následující metodu učení:

Alfa systém výztuže je systém výztuže, ve kterém se hmotnosti všech aktivních spojů vedoucích k prvku změní o stejnou hodnotu r a hmotnosti neaktivních spojů se během této doby nemění [23] .

c_{ij}

u_{j}

Poté, s vývojem konceptu vícevrstvého perceptronu , byl alfa systém upraven a stal se známým jako delta pravidlo . Úprava byla provedena proto, aby byla funkce učení diferencovatelná (např. sigmoid ), což je zase nutné použít metodu gradientního sestupu , díky které lze trénovat více než jednu vrstvu.

Metoda backpropagation

K trénování vícevrstvých sítí řada vědců, včetně D. Rumelharta , navrhla algoritmus pro učení gradientu pod dohledem , který vede chybový signál vypočítaný z výstupů perceptronu na jeho vstupy , vrstvu po vrstvě. Toto je nyní nejoblíbenější metoda pro trénink vícevrstvých perceptronů. Jeho výhodou je, že dokáže trénovat všechny vrstvy neuronové sítě a je snadné jej lokálně vypočítat. Tato metoda je však časově velmi náročná, navíc pro její aplikaci je nutné, aby přenosová funkce neuronů byla diferencovatelná. Zároveň bylo u perceptronů nutné opustit binární signál a na vstupu použít spojité hodnoty [24] .

Tradiční bludy

V důsledku popularizace umělých neuronových sítí novináři a marketéry došlo k řadě nepřesností, které při nedostatečném studiu původních prací na toto téma byly mladými (v té době) vědci dezinterpretovány. V důsledku toho se dodnes lze setkat s nedostatečně hlubokou interpretací funkčnosti perceptronu ve srovnání s jinými neuronovými sítěmi vyvinutými v následujících letech.[ kdy? ]

Terminologické nepřesnosti

Nejčastější terminologickou chybou je definování perceptronu jako neuronové sítě bez skrytých vrstev (jednovrstvý perceptron, viz výše ). Tato chyba je způsobena nedostatečně vyvinutou terminologií v oblasti neuronových sítí v rané fázi jejich vývoje. F. Wasserman se pokusil určitým způsobem klasifikovat různé typy neuronových sítí:

Jak je vidět z publikací, neexistuje žádný obecně uznávaný způsob, jak spočítat počet vrstev v síti. Vícevrstvá síť se skládá ze střídajících se sad neuronů a vah. Vstupní vrstva neprovádí sčítání. Tyto neurony slouží pouze jako větve pro první sadu vah a neovlivňují výpočetní schopnosti sítě. Z tohoto důvodu se při počítání vrstev nebere v úvahu první vrstva a síť je považována za dvouvrstvou, protože výpočty provádějí pouze dvě vrstvy. Dále jsou hmotnosti vrstvy považovány za spojené s neurony za nimi. Vrstva se tedy skládá ze sady vah následovaných neurony sčítajícími vážené signály [25] .

V důsledku této reprezentace perceptron spadal pod definici „jednovrstvé neuronové sítě“. To je částečně pravda, protože nemá skryté vrstvy učících se neuronů (jejichž váhy se přizpůsobují úkolu). A proto lze celou sadu pevných spojů systému od S-po A-prvky logicky nahradit sadou (upravenou podle přísného pravidla) nových vstupních signálů přicházejících bezprostředně do A-prvků (čímž odpadá první vrstva spojení celkem). Ale tady prostě neberou v úvahu, že taková modifikace změní nelineární reprezentaci problému na lineární.

Pouhé ignorování netrénovatelných vrstev s pevnými spoji (v elementárním perceptronu se jedná o S-A spoje) vám tedy umožňuje vyvodit mylné závěry o schopnostech neuronové sítě. Takže, Minsky jednal velmi správně, přeformuloval A-element jako predikát (tj. funkci); naopak Wasserman už tuto myšlenku ztratil a má A-element - jen vstup (téměř ekvivalentní S-prvku). Při takovém terminologickém zmatku se přehlíží fakt, že perceptron mapuje receptivní pole S-prvků do asociativního pole A-prvků, v důsledku čehož se jakýkoli lineárně neoddělitelný problém transformuje na lineárně separovatelný.

Funkční omyly

Většina funkčních mylných představ se scvrkává na domnělou nemožnost vyřešit lineárně neoddělitelný problém pomocí perceptronu. Ale existuje mnoho variací na toto téma, zvažme ty hlavní.

Problém XOR

Mylná představa: Perceptron není schopen vyřešit " problém XOR ".

Velmi častá mylná představa. Obrázek vpravo ukazuje perceptronové řešení tohoto problému. Tato mylná představa vzniká za prvé kvůli skutečnosti, že Minského definice perceptronu je nesprávně interpretována (viz výše ), konkrétně predikáty okamžitě rovnají vstupy, ačkoli Minského predikát je funkce, která identifikuje celou sadu vstupních hodnot [nb 7 ] . Za druhé kvůli tomu, že klasický Rosenblattův perceptron je zaměňován s jednovrstvým perceptronem (kvůli výše popsané terminologické nepřesnosti).

Zvláštní pozornost by měla být věnována skutečnosti, že "jednovrstvý perceptron" v moderní terminologii a "jednovrstvý perceptron" ve Wassermanově terminologii jsou různé objekty. A objekt zobrazený na obrázku je ve Wassermanově terminologii dvouvrstvý perceptron.

Naučitelnost pro lineárně neoddělitelné problémy

Mylná představa: výběrem náhodných vah lze dosáhnout učení pro lineárně neoddělitelné (obecně jakékoli) úlohy, ale pouze pokud budete mít štěstí a v nových proměnných (výstupy A-neuronů) se úloha ukáže jako lineárně oddělitelná. Ale možná nebudete mít štěstí.

Věta o konvergenci perceptronu [8] dokazuje, že neexistuje a nemůže existovat žádné „nemusí mít štěstí“; když se A-elementy rovnají počtu podnětů a nespeciální G-matici , pravděpodobnost řešení je 100 %. To znamená, že když je receptorové pole mapováno na asociativní pole větší o jeden rozměr náhodným (nelineárním) operátorem, nelineární problém se změní na lineárně separovatelný. A další trénovatelná vrstva již najde lineární řešení v jiném vstupním prostoru. Například trénování perceptronu pro řešení „problému XOR“ (viz obrázek) se provádí v následujících krocích:

Závaží	Iterace
Závaží	jeden			2	3		čtyři		5
w1	0	jeden	jeden	jeden	jeden	2	2	2	2
w2	0	0	jeden	jeden	jeden	jeden	jeden	2	2
w3	−1	0	jeden	0	−1	0	−1	0	−1
Vstupní signály (x, y)	jedenáct	0, 1	deset	jedenáct	jedenáct	0, 1	jedenáct	deset	jedenáct

Naučit se z několika příkladů

Mylná představa: pokud je v problému dimenze vstupů poměrně vysoká a existuje málo příkladů školení, pak v takto „slabě zaplněném“ prostoru nemusí být počet úspěchů malý. To naznačuje pouze konkrétní případ vhodnosti perceptronu, nikoli jeho univerzálnost.

Tento argument lze snadno otestovat na testovacím problému zvaném „šachovnice“ nebo „houba s vodou“ [26] [nb 8] :

Je dán řetězec 2· N jedniček nebo nul, které jsou přiváděny paralelně ke vstupům perceptronu. Pokud je tento řetězec zrcadlově symetrický kolem středu, pak je výstup +1, jinak 0. Tréninkové příklady jsou všechny (to je důležité) řetězce.

2^{{2N}}

Tento úkol může mít různé varianty, například:

Vezměme si černobílý obrázek o velikosti 256×256 prvků ( pixelů ). Vstupními daty pro perceptron budou souřadnice bodu (8 bitů + 8 bitů, celkem je potřeba 16 S-prvků), na výstupu budeme požadovat barvu bodu. Trénujeme perceptron pro všechny body (celý obrázek). Výsledkem je, že máme 65 536 různých párů podnět-odpověď. Učte se bez chyb.

Pokud je tento argument pravdivý, pak se perceptron nikdy nebude moci učit, aniž by udělal jedinou chybu. Jinak perceptron nikdy neudělá chybu. V praxi se ukazuje, že tato úloha je pro perceptron velmi jednoduchá: k jejímu vyřešení potřebuje perceptron 1500 A-prvků (místo plných 65 536 potřebných pro jakoukoli úlohu). V tomto případě je počet iterací asi 1000. S 1000 A-prvky perceptron nekonverguje v 10 000 iteracích. Pokud se však počet A-prvků zvýší na 40 000, lze konvergenci očekávat ve 30-80 iteracích. Takový argument vzniká, protože tento problém je zaměňován s Minského problémem „o predikátu „parita“ [27] . Stabilizace a konvergence hmotnosti

Mylná představa: Rosenblattův perceptron má tolik A-prvků, kolik je vstupů. A konvergence podle Rosenblatta je stabilizace vah.

V Rosenblatt čteme:

Pokud je počet podnětů v prostoru W roven n > N (tedy více než počet A-prvků elementárního perceptronu), pak existuje nějaká klasifikace C(W) , pro kterou neexistuje řešení [28 ] .

Z toho plyne, že:

pro Rosenblatt je počet A-prvků roven počtu podnětů (tréninkové příklady), a nikoli počtu vstupů;
konvergence podle Rosenblatta nejde o stabilizaci vah, ale o přítomnost všech požadovaných klasifikací, tedy ve skutečnosti o absenci chyb.

Exponenciální růst počtu skrytých prvků

Mylná představa: pokud jsou váhové koeficienty pro prvky skryté vrstvy (A-elementy) pevně dané, pak je nutné, aby počet prvků skryté vrstvy (nebo jejich složitost) exponenciálně rostl s nárůstem rozměru problému. (počet receptorů). Tím se ztrácí jejich hlavní výhoda – schopnost řešit problémy libovolné složitosti pomocí jednoduchých prvků.

Rosenblatt ukázal, že počet A-prvků závisí pouze na počtu podnětů, které mají být rozpoznány (viz předchozí odstavec nebo věta o konvergenci perceptronu ). S nárůstem počtu receptorů, pokud je počet A-prvků pevný, tedy schopnost perceptronu řešit problémy libovolné složitosti přímo nezávisí. Tato mylná představa pochází z následující fráze Minsky:

Při zkoumání paritního predikátu jsme viděli, že koeficienty mohou růst s |R| (počet bodů na obrázku) exponenciálně [29] .

Kromě toho Minsky zkoumal další predikáty, jako je „rovnost“. Všechny tyto predikáty však představují spíše specifický úkol pro zobecnění, nikoli pro rozpoznávání nebo predikci. Takže například, aby perceptron splnil predikát „parita“, musí říci, zda je počet černých teček v černobílém obrázku sudý nebo ne; a pro splnění predikátu "rovnost" řekněte, zda se pravá strana obrázku rovná levé straně. Je zřejmé, že takové úlohy přesahují rámec úloh rozpoznávání a predikce a jsou úlohami pro zobecnění nebo jednoduše pro výpočet určitých charakteristik. To přesvědčivě ukázal Minsky a je to omezení nejen perceptronů, ale i všech paralelních algoritmů , které nedokážou takové predikáty vypočítat rychleji než sekvenční algoritmy. Proto takové úlohy omezují schopnosti všech neuronových sítí a perceptronů zvláště, ale to nemá nic společného s pevnými spoji první vrstvy; jelikož zaprvé šlo o hodnotu koeficientů spojů druhé vrstvy a zadruhé je otázka pouze v efektivitě a ne v principu. To znamená, že perceptron může být také trénován pro tento úkol, ale kapacita paměti a rychlost učení potřebná k tomu bude větší než při použití jednoduchého sekvenčního algoritmu. Zavedení trénovatelných vah v první vrstvě situaci jen zhorší, protože bude vyžadovat více tréninkového času, protože vztahové proměnné mezi S a A spíše brzdí než přispívají k procesu učení [30] . Navíc při přípravě perceptronu pro úlohu rozpoznávání podnětů speciálního typu budou pro udržení účinnosti vyžadovány speciální podmínky pro stochastické učení [31] , což ukázal Rosenblatt v experimentech s perceptronem s proměnnými vazbami S-A .

Vlastnosti a omezení modelu

Možnosti modelu

Sám Rosenblatt považoval perceptron především za další důležitý krok ke studiu a využití neuronových sítí, nikoli za hotovou verzi „ stroje schopného myslet “ [nb 9] . Již v předmluvě ke své knize v reakci na kritiku poznamenal, že „výzkumný program perceptronů nesouvisí hlavně s vynálezem zařízení s „umělou inteligencí“, ale se studiem fyzikálních struktur a neurodynamických principů“ [32] .

Rosenblatt navrhl řadu psychologických testů k určení schopností neuronových sítí: experimenty s diskriminací , zobecněním , rozpoznáváním sekvencí , utváření abstraktních pojmů , utváření a vlastnosti „ sebeuvědomění “, kreativní představivost a další [33] . Některé z těchto experimentů jsou vzdáleny současným schopnostem perceptronů, takže jejich vývoj je spíše filozoficky ve směru konektivismu . Přesto se pro perceptrony prokázaly dvě důležité skutečnosti, které nacházejí uplatnění v praktických problémech: možnost klasifikace (objekty) a možnost aproximace (hranice tříd a funkcí) [34] .

Důležitou vlastností perceptronů je jejich schopnost učit se, navíc podle celkem jednoduchého a efektivního algoritmu (viz výše ).

Omezení modelu

Sám Rosenblatt identifikoval dvě zásadní omezení pro třívrstvé perceptrony (skládající se z jedné vrstvy S, jedné vrstvy A a vrstvy R): jejich nedostatečná schopnost zobecnit jejich vlastnosti na nové podněty nebo nové situace a jejich neschopnost analyzovat komplexní situace ve vnějším prostředí.prostředí jejich rozdělením na jednodušší [17] .

V roce 1969 vydali Marvin Minsky a Seymour Papert knihu Perceptrony, kde matematicky ukázali, že perceptrony jako Rosenblatt v zásadě nejsou schopny vykonávat mnoho funkcí, které od perceptronů chtěli. Navíc v té době byla teorie paralelního počítání špatně rozvinutá a perceptron byl plně v souladu s principy takových výpočtů. Celkově Minsky ukázal výhodu sekvenčního počítání oproti paralelnímu v určitých třídách problémů spojených s invariantní reprezentací. Jeho kritiku lze rozdělit do tří témat:

Perceptrony mají omezení v úkolech souvisejících s invariantní reprezentací obrazů, to znamená nezávisle na jejich poloze ve smyslovém poli a ve vztahu k jiným obrazcům. Takové problémy vznikají například tehdy, když potřebujeme postavit stroj na čtení tištěných písmen nebo číslic tak, aby je tento stroj dokázal rozpoznat bez ohledu na jejich pozici na stránce (tedy aby rozhodování stroje nebylo ovlivněno překladem , rotací , roztahování-komprese znaků) [ 6] ; nebo pokud potřebujeme určit, z kolika částí se obrazec skládá [35] ; nebo zda jsou dvě postavy vedle sebe nebo ne [36] . Minsky dokázal, že tento typ problému nelze plně vyřešit pomocí paralelních výpočtů, včetně perceptronu.
Perceptrony nemají funkční výhodu oproti analytickým metodám (například statistickým ) v úlohách souvisejících s prognózováním [37] . V některých případech však představují jednodušší a produktivnější metodu analýzy dat .
Ukázalo se, že některé problémy lze v principu vyřešit perceptronem, ale mohou vyžadovat nerealisticky velký čas [38] nebo nerealisticky velkou paměť [39] .

Kniha Minskyho a Paperta výrazně ovlivnila vývoj vědy o umělé inteligenci, protože posunula vědecký zájem a dotace vládních organizací USA do jiného směru výzkumu - symbolického přístupu k AI .

Aplikace perceptronů

Zde budou ukázány pouze základy praktické aplikace perceptronu na dvou různých úlohách. Problém predikce (a jeho ekvivalentní problém rozpoznávání vzorů ) vyžaduje vysokou přesnost, zatímco problém řízení agenta vyžaduje vysokou rychlost učení. S ohledem na tyto úkoly se tedy lze plně seznámit se schopnostmi perceptronu, ale zdaleka to zdaleka nevyčerpává možnosti jeho využití.

V praktických problémech bude muset mít perceptron možnost vybrat si z více než dvou možností, což znamená, že musí mít na výstupu více než jeden R-prvek. Jak ukazuje Rosenblatt, charakteristiky takových systémů se významně neliší od charakteristik elementárního perceptronu [40] .

Predikce a rozpoznávání vzorů

V těchto úlohách je perceptron povinen určit, zda objekt patří do třídy svými parametry (například vzhledem, tvarem, siluetou). Navíc přesnost rozpoznávání bude do značné míry záviset na reprezentaci výstupních reakcí perceptronu. Jsou zde možné tři typy kódování: konfigurace , poziční a hybridní. Poziční kódování, kdy má každá třída svůj vlastní R-element, poskytuje přesnější výsledky než jiné typy. Tento typ je použit např. v práci E. Kussula a kol., „Rosenblatt Perceptrons for Recognizing Handwritten Digits“. Neplatí to však v případech, kdy je počet tříd významný, například několik stovek. V takových případech lze použít hybridní konfiguračně-poziční kódování, jak bylo provedeno v práci S. Jakovleva „Systém pro rozpoznávání pohybujících se objektů založený na umělých neuronových sítích“.

Správa agentů

U umělé inteligence jsou často zvažováni agenti učící se ( ekologicky se přizpůsobující ) . Zároveň je v podmínkách nejistoty důležité analyzovat nejen aktuální informace, ale i obecný kontext situace, do které se agent dostal, proto se zde používají zpětnovazební perceptrony [41] . V některých úlohách je navíc důležité zvýšit rychlost učení perceptronu, například pomocí modelování refrakternosti [42] .

Po období známém jako „ zima umělé inteligence “ zájem o kybernetické modely v 80. letech ožil , když se zastánci symbolické umělé inteligence nedokázali přiblížit problémům „Porozumění“ a „Významu“, což způsobilo strojový překlad a rozpoznávání technických vzorů. fatální nedostatky. Sám Minsky veřejně vyjádřil lítost nad tím, že jeho projev poškodil koncept perceptronů, ačkoliv kniha ukázala pouze nedostatky jediného zařízení a některé jeho variace. Ale obecně se AI stala synonymem pro symbolický přístup, který se projevuje tvorbou stále složitějších programů pro počítače, které simulují složité činnosti lidského mozku.

Viz také

Poznámky

↑ Možnost „perceptron“ je původní, použitá v překladu Rosenblattovy knihy (1965), také v referenční knize: Explanatory Dictionary of Artificial Intelligence / Compilers A. N. Averkin, M. G. Gaaze-Rapoport , D. A. Pospelov . - M . : Rozhlas a komunikace, 1992. - 256 s. Varianta „perceptron“ je běžnější, vznikla při překladu knihy Minsky a Papert (1971); viz také: Encyklopedie kybernetiky. Svazek 2. Mikh-Yach . - Kyjev: Ch. vyd. USE, 1974. - S. 156-158. Archivovaná kopie (nedostupný odkaz) . Získáno 1. února 2009. Archivováno z originálu 31. března 2009. (neurčitý)
↑ Konkrétně „Mark-1“ byl systém, který napodobuje lidské oko a jeho interakci s mozkem.
↑ "Třívrstvý" podle klasifikace přijaté Rosenblattem a "dvouvrstvý" podle moderní notace - se zvláštností, že první vrstva není trénovatelná.
↑ Symbolický přístup zahrnuje např. tvorbu expertních systémů , organizaci znalostních bází , analýzu textů .
↑ Formálně jsou A-prvky, stejně jako R-prvky, sčítačky s prahem , tedy jednotlivé neurony .
↑ Prezentace v této sekci je poněkud zjednodušená kvůli složitosti predikátové analýzy.
↑ Predikát je ekvivalentní vstupu pouze ve speciálním případě - pouze když závisí na jednom argumentu.
↑ M. M. Bongard považuje tento úkol za nejtěžší pro kreslení nadroviny v prostoru receptorů.
↑ V prvních fázích vývoje vědy o umělé inteligenci se o jejím úkolu uvažovalo v abstraktním smyslu – vytváření systémů, které se podobají lidské mysli (viz umělá obecná inteligence ). Moderní formulace úkolů v AI bývají přesnější.

Zdroje

↑ Warren S. McCulloch a Walter Pitts . Logický kalkul myšlenek imanentních v nervové činnosti // Bulletin of Mathematical Biology . - New York : Springer New York , 1943. - V. 5 , č. 4 . - S. 115-133 .
↑ 12 Donald Olding Hebb . Organizace chování: Neuropsychologická teorie . - Wiley , 1949. - 335 s. Současné vydání: Donald Olding Hebb . Organizace chování: Neuropsychologická teorie . - Lawrence Erlbaum Associates , 2002. - 335 s. - ISBN 0805843000 , ISBN 978-0-8058-4300-2 .
↑ Perceptrony: síť asociativního učení . Získáno 2. května 2008. Archivováno z originálu 19. srpna 2011. (neurčitý)
↑ Vzhled perceptronu (nepřístupný odkaz)
↑ 1 2 Systémy rozpoznávání vzorů (nepřístupný odkaz) . Získáno 4. října 2019. Archivováno z originálu 18. prosince 2017. (neurčitý)
↑ 1 2 Minsky M., Papert S., str. padesáti.
↑ The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain (downlink) . Získáno 2. května 2008. Archivováno z originálu 18. února 2008. (neurčitý)
↑ 1 2 3 4 Rosenblatt F., str. 102.
↑ Fomin, S. V., Berkinblit, M. B. Matematické problémy v biologii Archivováno 21. prosince 2009 na Wayback Machine
↑ Rosenblatt, F., str. 158-162.
↑ Rosenblatt, F., str. 162-163.
↑ Bryukhomitsky Yu. A. Modely neuronových sítí pro systémy informační bezpečnosti, 2005.
↑ 1 2 3 Rosenblatt F., str. 81.
↑ 1 2 3 Rosenblatt, F., str. 200
↑ 1 2 3 4 Rosenblatt F., str. 82.
↑ Rosenblatt F., s. 83.
↑ 1 2 Rosenblatt F., str. 93.
↑ Rosenblatt, F., str. 230.
↑ Minsky, Papert, str. 11-18.
↑ Minsky, Papert, str. osmnáct.
↑ Rosenblatt, F., str. 85-88.
↑ Khaikin S., 2006, s. 96.
↑ Rosenblatt, F., str. 86.
↑ Khaikin S., 2006, s. 225-243, 304-316.
↑ Wasserman, F. Neurocomputer Engineering: Theory and Practice, 1992.
↑ Bongard, M. M., str. 29.
↑ Minsky M., Papert S., str. 59.
↑ Rosenblatt, F., str. 101.
↑ Minsky, Papert, str. 155, 189 (ne doslovně, zjednodušeně pro expresivitu).
↑ Rosenblatt, s. 239
↑ Rosenblatt, s. 242
↑ Rosenblatt, F., str. osmnáct.
↑ Rosenblatt, F., str. 70-77.
↑ viz Ezhov A. A., Shumsky S. A. "Neurocomputing ...", 2006. Přednáška 3: Řízené učení: Rozpoznávání vzorů Archivní kopie z 1. listopadu 2011 na Wayback Machine
↑ Minsky M., Papert S., str. 76-98.
↑ Minsky M., Papert S., str. 113-116.
↑ Minsky M., Papert S., str. 192-214.
↑ Minsky, Papert, str. 163-187
↑ Minsky, Papert, str. 153-162
↑ Rosenblatt, F., str. 219-224.
↑ Yakovlev S. S. Using the Jordan recurrence princip in the Rosenblatt perceptron, Journal "AUTOMATICS AND COMPUTING TECHNIQUE", Riga, 2009 Archived July 1, 2017 at Wayback Machine . Virtuální laboratoř Wiki.
↑ Yakovlev S.S. , Výzkum principu refrakternosti v rekurentních neuronových sítích, Vědecký sborník Technické univerzity v Rize, Číslo 5, Vol.36, RTU, Riga, 2008, S. 41-48. Zkoumání principu refrakternosti v rekurentních neuronových sítích (překlad) Archivováno 7. března 2016 na Wayback Machine .

Literatura

Bongard, M. M. Problém uznání . — M .: Nauka, 1967. — 320 s. Archivováno6. června 2015 naWayback Machine
Bryukhomitsky, Yu.A. Modely neuronových sítí pro systémy informační bezpečnosti: výukový program . - Taganrog: Nakladatelství TRTU, 2005. - 160 s. (nedostupný odkaz)
McCulloch, W. S. , Pitts, V. Logický kalkul myšlenek souvisejících s nervovou činností = Logický kalkul myšlenek imanentních v nervové činnosti // Automata: So .. - M. , 1956. - S. 363 - 384 . Archivováno z originálu 6. června 2015.
Minsky, M. , Papert, S. Perceptrony = Perceptrony. — M .: Mir, 1971. — 261 s. Archivováno6. června 2015 naWayback Machine
Rosenblatt, F. Principy neurodynamiky: perceptrony a teorie mozkových mechanismů. - M .: Mir, 1965. - 480 s. Archivováno21. května 2015 naWayback Machine
Wasserman, F. Neurocomputer Engineering: Theory and Practice = Neural Computing. teorie a praxe. — M .: Mir, 1992. — 240 s. — ISBN 5-03-002115-9 . Archivováno 30. června 2009 na Wayback Machine
Khaikin, S. Neuronové sítě: úplný kurz = neuronové sítě: komplexní základ. - 2. vyd. - M .: "Williams" , 2006. - 1104 s. — ISBN 0-13-273350-1 .
Yakovlev S.S. Systém pro rozpoznávání pohybujících se objektů založený na umělých neuronových sítích ITK NASB. - Minsk, 2004. - S. 230-234 .
Kussul E., Baidyk T., Kasatkina L., Lukovich V. Rosenblatt Perceptrons for Handwritten Digit Recognition // IEEE. - 2001. - S. 1516-1520 . — ISBN 0-7803-7044-9 . Archivováno z originálu 19. srpna 2013. (Angličtina)
Stormo GD, Schneider TD, Gold L., Ehrenfeucht A. Použití algoritmu 'Perceptron' k rozlišení transationálních iniciačních míst v E. coli // Výzkum nukleových kyselin. - 1982. - S. P. 2997-3011 . (Angličtina)

Odkazy

Perceptron . Virtuální laboratoř Wiki. Datum přístupu: 17. ledna 2009. Archivováno z originálu 19. srpna 2011. (neurčitý)
Nástup perceptronu (nepřístupný odkaz) . Získáno 17. ledna 2009. Archivováno z originálu 6. dubna 2011. (neurčitý)
Ezhov A. A., Shumsky S. A. Neurocomputing a jeho aplikace v ekonomii a podnikání . INTUIT (2006). Získáno 17. ledna 2009. Archivováno z originálu 1. listopadu 2011. (neurčitý)
Redko V. G. Umělé neuronové sítě (1999). Datum přístupu: 17. ledna 2009. Archivováno z originálu 23. srpna 2011. (neurčitý)
Jakovlev S.S. Linearita a invariance v umělých neuronových sítích (pdf) (nepřístupný odkaz) (2006). Datum přístupu: 17. ledna 2009. Archivováno z originálu 19. srpna 2011. (neurčitý)
Estebon, M.D.; Tech, V. Perceptrons: An Associative Learning Network ( 1997). Datum přístupu: 17. ledna 2009. Archivováno z originálu 19. srpna 2011.
Berkinblit M. B. Neuronové sítě. Kapitola "Perceptrony a jiné systémy klasifikace učení" (nepřístupný odkaz) (1993). Datum přístupu: 17. ledna 2009. Archivováno z originálu 19. srpna 2011. (neurčitý)

Typy umělých neuronových sítí

Dopředná síť ( Network of Radial Base Functions )
Jednovrstvý perceptron
Vícevrstvý perceptron ( Rosenblatt • Rumelhart )
Hopfieldova síť
Markovský řetěz
Boltzmannův stroj
Limitovaný Boltzmannův stroj
Autoencoder ( Denoise autoencoder • Sparse autoencoder • Variační autoencoder )
Hluboká síť důvěry
Konvoluční neuronová síť
Hluboká konvoluční neuronová síť
Nasazení neuronové sítě
Hluboká konvoluční inverzní grafická síť
Generative Adversarial Network
Rekurentní neuronová síť
Rekurzivní neuronové sítě
dlouhodobá krátkodobá paměť
Řízený rekurentní blok
Neural Turing Machines
Obousměrná síť ( Obousměrná rekurentní neuronová síť • Obousměrná síť s dlouhodobou krátkodobou pamětí • Obousměrně řízené rekurentní neurony )
Hluboká zbytková síť
Neuronová echo síť
Metoda extrémního učení
Metoda nestabilních stavů
Podpora vektorového stroje
Kohonen síť
Samoorganizující se mapa Kohonenu
Neuronová síť kapsle
Asociativní paměť na neuronových sítích

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-síť Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG