Perceptron , neboli perceptron [nb 1] ( angl. perceptron z lat. perceptio - vnímání ; germ . Perzeptron ) - matematický nebo počítačový model vnímání informací mozkem ( kybernetický model mozku ), navržený Frankem Rosenblattem v roce 1958 a poprvé implementován ve formě elektronického stroje "Mark-1" [nb 2] v roce 1960 . Perceptron se stal jedním z prvních modelů neuronových sítí a Mark-1 se stal prvním neuropočítačem na světě .
Perceptron se skládá ze tří typů prvků, a to: signály přicházející ze senzorů jsou přenášeny do asociativních prvků a poté do reagujících prvků. Perceptrony tedy umožňují vytvořit soubor „asociací“ mezi vstupními podněty a požadovanou výstupní odezvou. Z biologického hlediska to odpovídá transformaci například vizuální informace na fyziologickou odpověď motorických neuronů . Podle moderní terminologie lze perceptrony klasifikovat jako umělé neuronové sítě:
Na pozadí rostoucí popularity neuronových sítí v roce 1969 vyšla kniha Marvina Minského a Seymoura Paperta , která ukázala zásadní omezení perceptronů. To vedlo k posunu zájmu výzkumníků umělé inteligence v oblasti symbolických výpočtů na rozdíl od neuronových sítí [nb 4] . Kromě toho se kvůli složitosti matematického studia perceptronů a nedostatku obecně uznávané terminologie objevily různé nepřesnosti a mylné představy .
Následně se obnovil zájem o neuronové sítě a zejména o práci Rosenblatta. Rychle se tedy rozvíjí například biocomputing , který je ve svém teoretickém základu výpočtů mimo jiné založen na neuronových sítích a perceptron je reprodukován na základě filmů obsahujících bakteriorhodopsin .
V roce 1943 navrhli Warren McCulloch a Walter Pitts koncept umělé neuronové sítě ve svém článku „Logický počet nápadů týkajících se nervové aktivity“ [1] . Konkrétně navrhli model umělého neuronu . Donald Hebb ve svém článku z roku 1949 „Organizace chování“ [2] popsal základní principy učení neuronů.
Tyto myšlenky o několik let později rozvinul americký neurofyziolog Frank Rosenblatt . Navrhl schéma pro zařízení, které simulovalo proces lidského vnímání , a nazval jej „perceptron“. Perceptron přenášel signály z fotobuněk , které byly smyslovým polem, do bloků elektromechanických paměťových buněk. Tyto buňky byly navzájem náhodně spojeny v souladu s principy konektivismu . V roce 1957 byla v Cornell Aeronautics Laboratory úspěšně dokončena simulace provozu perceptronu na počítači IBM 704 a o dva roky později, 23. června 1960, byl na Cornellově univerzitě předveden první neuropočítač - Mark-1 , který dokázal rozpoznat některá písmena anglické abecedy [3] [4] .
Pro „naučení“ perceptronu klasifikovat obrazy byla vyvinuta speciální iterativní metoda učení pokus-omyl připomínající proces lidského učení – metoda opravy chyb [5] . Navíc při rozpoznávání konkrétního písmene mohl perceptron zvýraznit charakteristické znaky písmene, které byly statisticky častější než nevýznamné rozdíly v jednotlivých případech. Perceptron tedy dokázal zobecnit písmena psaná různými způsoby (rukopisem) do jednoho zobecněného obrazu. Schopnosti perceptronu však byly omezené: stroj nedokázal spolehlivě rozeznat částečně uzavřená písmena, stejně jako písmena jiné velikosti, umístěná s posunem nebo otočením, než která se používala ve fázi jeho výcviku [6] .
Zpráva o prvních výsledcích se objevila již v roce 1958 – tehdy Rosenblatt publikoval článek „Perceptron: Pravděpodobnostní model pro ukládání a organizování informací v mozku“ [7] . Své teorie a předpoklady týkající se procesů vnímání a perceptronů však popisuje podrobněji v roce 1962 v knize „Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms“. V knize uvažuje nejen o hotových modelech perceptronů s jednou skrytou vrstvou, ale také o vícevrstvých perceptronech s křížovým (třetí kapitola) a reverzním (čtvrtá kapitola) spojením. Kniha také přináší řadu důležitých myšlenek a teorémů, například je dokázána věta o konvergenci perceptronu [8] .
Elementární perceptron se skládá ze tří typů prvků: S-prvků, A-prvků a jednoho R-prvku. S-prvky jsou vrstvou senzorů nebo receptorů. Ve fyzickém provedení odpovídají například fotosenzitivním buňkám v sítnici oka nebo fotorezistorům pole kamer. Každý receptor může být v jednom ze dvou stavů - klidový nebo excitační , a pouze ve druhém případě přenáší jeden signál do další vrstvy, do asociativních prvků.
A-prvky se nazývají asociativní, protože každý takový prvek zpravidla odpovídá celé množině (asociaci) S-prvků. A-prvek se aktivuje, jakmile počet signálů z S-prvků na jeho vstupu překročí určitou hodnotu [nb 5] . Pokud se tedy na senzorickém poli nachází sada odpovídajících S-prvků ve tvaru písmene „D“, A-element se aktivuje, pokud dostatečný počet receptorů ohlásil výskyt „bílé světelné skvrny“ v jejich blízkosti, to znamená, že prvek A bude jakoby spojen s přítomností / nepřítomností písmene "D" v nějaké oblasti.
Signály z vybuzených A-prvků jsou zase přenášeny do sčítačky R a signál z i-tého asociativního prvku je přenášen s koeficientem [9] . Tento koeficient se nazývá váha vazby A-R.
Stejně jako A-elementy, R-element vypočítává součet hodnot vstupních signálů vynásobený váhami ( lineární tvar ). R-element a s ním i elementární perceptron vydávají "1", pokud lineární tvar překročí práh , jinak bude výstup "-1". Matematicky lze funkci implementovanou prvkem R zapsat následovně:
Trénink elementárního perceptronu spočívá ve změně váhových koeficientů vazeb A–R. Váhy S–A spojů (které mohou nabývat hodnot {−1; 0; +1}) a prahové hodnoty A-prvků se volí náhodně hned na začátku a poté se nemění. ( Popis algoritmu viz níže .)
Po natrénování je perceptron připraven pracovat v režimu rozpoznávání [10] nebo generalizace [11] . V tomto režimu jsou perceptronu prezentovány dříve neznámé objekty a perceptron musí určit, do které třídy patří. Práce perceptronu je následující: když je objekt prezentován, vybuzené A-prvky vysílají signál R-prvku, rovný součtu odpovídajících koeficientů . Pokud je tento součet kladný, pak se rozhodne, že daný objekt patří do první třídy a pokud je záporný, pak do druhé [12] .
Seriózní seznámení s teorií perceptronů vyžaduje znalost základních definic a vět, jejichž souhrn je základem pro všechny následující typy umělých neuronových sítí . Minimálně je ale potřeba chápat alespoň z pohledu teorie signálů , která je originální, tedy popsaná autorem perceptronu F. Rosenblattem.
Nejprve definujme základní prvky perceptronu, což jsou speciální případy umělého neuronu s prahovou přenosovou funkcí .
Pokud na výstupu jakéhokoli prvku dostaneme 1, pak říkáme, že prvek je aktivní nebo vybuzený .
Všechny uvažované prvky se nazývají jednoduché , protože implementují skokové funkce . Rosenblatt také tvrdil, že pro řešení složitějších problémů mohou být vyžadovány jiné typy funkcí, jako je lineární [14] .
V důsledku toho Rosenblatt zavedl následující definice:
Kromě toho můžete poukázat na následující koncepty navržené v knize a později vyvinuté v rámci teorie neuronových sítí:
Marvin Minsky studoval vlastnosti paralelního počítání , jehož speciálním případem byl v té době perceptron. Aby analyzoval jeho vlastnosti, musel znovu uvést teorii perceptronů v jazyce predikátů . Podstata přístupu byla následující: [nb 6] [19]
Jak je aplikováno na "vizuální" perceptron, proměnná X symbolizovala obraz nějakého geometrického útvaru ( stimulu ). Soukromý predikát umožňoval každému „rozpoznat“ svou vlastní postavu. Predikát ψ znamenal situaci, kdy lineární kombinace ( — koeficienty přenosu) překročila určitou hranici θ.
Vědci identifikovali 5 rodin perceptronů, které mají podle jejich názoru zajímavé vlastnosti: [20]
Takový matematický aparát sice umožnil aplikovat analýzu pouze na elementární Rosenblattův perceptron, ale odhalil mnohá zásadní omezení pro paralelní výpočty, kterých se neoprostí žádný typ moderních umělých neuronových sítí.
Pojem perceptron má zajímavou, ale nezáviděníhodnou historii. V důsledku nevyvinuté terminologie neuronových sítí v minulých letech, ostré kritiky a nepochopení úkolů výzkumu perceptronů a někdy i falešného zpravodajství v tisku došlo ke zkreslení původního významu tohoto pojmu. Srovnáním vývoje Rosenblatt a moderních recenzí a článků můžeme rozlišit 4 spíše izolované třídy perceptronů:
Perceptron s jednou skrytou vrstvou Toto je klasický perceptron, jemuž je věnována většina Rosenblattovy knihy a je zvažován v tomto článku: má jednu vrstvu S-, A- a R-prvků. Jednovrstvý perceptron Jedná se o model, ve kterém jsou vstupní prvky přímo spojeny s výstupními prvky pomocí systému závaží. Jde o nejjednodušší dopřednou síť - lineární klasifikátor a speciální případ klasického perceptronu, ve kterém každý S-prvek jednoznačně odpovídá jednomu A-prvku, S-A spojky mají váhu +1 a všechny A-prvky mají práh θ = 1. Jednovrstvé perceptrony jsou ve skutečnosti formální neurony , tj. prahové prvky McCulloch-Pitts. Mají mnohá omezení, zejména nedokážou identifikovat situaci, kdy jsou na jejich vstupy přiváděny různé signály (“úloha XOR”, viz níže ). Vícevrstvý perceptron (podle Rosenblatta) Jedná se o perceptron s dalšími vrstvami A-prvků. Rosenblatt to analyzoval ve třetí části své knihy. Vícevrstvý perceptron (podle Rumelharta) Jedná se o perceptron, ve kterém jsou další vrstvy A-prvků, navíc trénování takové sítě probíhá podle metody zpětného šíření chyb a jsou trénovány všechny vrstvy perceptronu (včetně S-A). Jde o speciální případ Rosenblattova vícevrstvého perceptronu.V současné době je v literatuře pojem „perceptron“ nejčastěji chápán jako jednovrstvý perceptron ( anglicky Single-layer perceptron ), navíc panuje mylná představa, že se jednalo o tento nejjednodušší typ modelu navržený Rosenblattem. Oproti jednovrstvému dali "vícevrstvý perceptron" ( angl. Multilayer perceptron ), opět nejčastěji myšleno Rumelhartův vícevrstvý perceptron, nikoli Rosenblattův. Klasický perceptron v takové dichotomii je označován jako vícevrstvý.
Důležitou vlastností každé neuronové sítě je schopnost učit se . Proces učení je postup pro úpravu vah a prahů za účelem snížení rozdílu mezi požadovaným (cílovým) a výsledným výstupním vektorem. Rosenblatt se ve své knize pokusil klasifikovat různé algoritmy učení perceptronů a nazval je systémy zesílení.
Systém odměn je jakákoliv sada pravidel, na jejichž základě lze v průběhu času měnit interakční matici (nebo stav paměti) perceptronu [21] .Rosenblatt při popisu těchto výztužných systémů a upřesnění jejich možných typů vycházel z myšlenek D. Hebba o učení, které navrhl v roce 1949 [2] , které lze přeformulovat do následujícího dvoudílného pravidla:
Klasickou metodou pro trénování perceptronu je metoda opravy chyb [8] . Jde o typ řízeného učení , při kterém se váha spojení nemění, pokud aktuální reakce perceptronu zůstává správná. Dojde-li k nesprávné reakci, váha se změní o jedničku a znaménko (+/-) se určí opačně než znaménko chyby.
Předpokládejme, že chceme trénovat perceptron k oddělení dvou tříd objektů tak, že když jsou prezentovány objekty první třídy, výstup perceptronu je kladný (+1), a když jsou prezentovány objekty druhé třídy, je záporný ( −1). K tomu provedeme následující algoritmus: [5]
Věta o konvergenci perceptronu [8] , kterou popsal a prokázal F. Rosenblatt (za účasti Blocka, Josepha, Kestena a dalších výzkumníků, kteří s ním pracovali), ukazuje, že elementární perceptron trénovaný podle takového algoritmu, bez ohledu na počáteční stav váhových koeficientů a posloupnost výskytu pobídek povede vždy k dosažení řešení v konečném časovém úseku.
Kromě klasické metody učení perceptronem představil Rosenblatt také koncept učení bez dozoru a navrhl následující metodu učení:
Alfa systém výztuže je systém výztuže, ve kterém se hmotnosti všech aktivních spojů vedoucích k prvku změní o stejnou hodnotu r a hmotnosti neaktivních spojů se během této doby nemění [23] .Poté, s vývojem konceptu vícevrstvého perceptronu , byl alfa systém upraven a stal se známým jako delta pravidlo . Úprava byla provedena proto, aby byla funkce učení diferencovatelná (např. sigmoid ), což je zase nutné použít metodu gradientního sestupu , díky které lze trénovat více než jednu vrstvu.
K trénování vícevrstvých sítí řada vědců, včetně D. Rumelharta , navrhla algoritmus pro učení gradientu pod dohledem , který vede chybový signál vypočítaný z výstupů perceptronu na jeho vstupy , vrstvu po vrstvě. Toto je nyní nejoblíbenější metoda pro trénink vícevrstvých perceptronů. Jeho výhodou je, že dokáže trénovat všechny vrstvy neuronové sítě a je snadné jej lokálně vypočítat. Tato metoda je však časově velmi náročná, navíc pro její aplikaci je nutné, aby přenosová funkce neuronů byla diferencovatelná. Zároveň bylo u perceptronů nutné opustit binární signál a na vstupu použít spojité hodnoty [24] .
V důsledku popularizace umělých neuronových sítí novináři a marketéry došlo k řadě nepřesností, které při nedostatečném studiu původních prací na toto téma byly mladými (v té době) vědci dezinterpretovány. V důsledku toho se dodnes lze setkat s nedostatečně hlubokou interpretací funkčnosti perceptronu ve srovnání s jinými neuronovými sítěmi vyvinutými v následujících letech.[ kdy? ]
Nejčastější terminologickou chybou je definování perceptronu jako neuronové sítě bez skrytých vrstev (jednovrstvý perceptron, viz výše ). Tato chyba je způsobena nedostatečně vyvinutou terminologií v oblasti neuronových sítí v rané fázi jejich vývoje. F. Wasserman se pokusil určitým způsobem klasifikovat různé typy neuronových sítí:
Jak je vidět z publikací, neexistuje žádný obecně uznávaný způsob, jak spočítat počet vrstev v síti. Vícevrstvá síť se skládá ze střídajících se sad neuronů a vah. Vstupní vrstva neprovádí sčítání. Tyto neurony slouží pouze jako větve pro první sadu vah a neovlivňují výpočetní schopnosti sítě. Z tohoto důvodu se při počítání vrstev nebere v úvahu první vrstva a síť je považována za dvouvrstvou, protože výpočty provádějí pouze dvě vrstvy. Dále jsou hmotnosti vrstvy považovány za spojené s neurony za nimi. Vrstva se tedy skládá ze sady vah následovaných neurony sčítajícími vážené signály [25] .
V důsledku této reprezentace perceptron spadal pod definici „jednovrstvé neuronové sítě“. To je částečně pravda, protože nemá skryté vrstvy učících se neuronů (jejichž váhy se přizpůsobují úkolu). A proto lze celou sadu pevných spojů systému od S-po A-prvky logicky nahradit sadou (upravenou podle přísného pravidla) nových vstupních signálů přicházejících bezprostředně do A-prvků (čímž odpadá první vrstva spojení celkem). Ale tady prostě neberou v úvahu, že taková modifikace změní nelineární reprezentaci problému na lineární.
Pouhé ignorování netrénovatelných vrstev s pevnými spoji (v elementárním perceptronu se jedná o S-A spoje) vám tedy umožňuje vyvodit mylné závěry o schopnostech neuronové sítě. Takže, Minsky jednal velmi správně, přeformuloval A-element jako predikát (tj. funkci); naopak Wasserman už tuto myšlenku ztratil a má A-element - jen vstup (téměř ekvivalentní S-prvku). Při takovém terminologickém zmatku se přehlíží fakt, že perceptron mapuje receptivní pole S-prvků do asociativního pole A-prvků, v důsledku čehož se jakýkoli lineárně neoddělitelný problém transformuje na lineárně separovatelný.
Většina funkčních mylných představ se scvrkává na domnělou nemožnost vyřešit lineárně neoddělitelný problém pomocí perceptronu. Ale existuje mnoho variací na toto téma, zvažme ty hlavní.
Problém XORMylná představa: Perceptron není schopen vyřešit " problém XOR ".
Velmi častá mylná představa. Obrázek vpravo ukazuje perceptronové řešení tohoto problému. Tato mylná představa vzniká za prvé kvůli skutečnosti, že Minského definice perceptronu je nesprávně interpretována (viz výše ), konkrétně predikáty okamžitě rovnají vstupy, ačkoli Minského predikát je funkce, která identifikuje celou sadu vstupních hodnot [nb 7 ] . Za druhé kvůli tomu, že klasický Rosenblattův perceptron je zaměňován s jednovrstvým perceptronem (kvůli výše popsané terminologické nepřesnosti).Zvláštní pozornost by měla být věnována skutečnosti, že "jednovrstvý perceptron" v moderní terminologii a "jednovrstvý perceptron" ve Wassermanově terminologii jsou různé objekty. A objekt zobrazený na obrázku je ve Wassermanově terminologii dvouvrstvý perceptron.
Naučitelnost pro lineárně neoddělitelné problémyMylná představa: výběrem náhodných vah lze dosáhnout učení pro lineárně neoddělitelné (obecně jakékoli) úlohy, ale pouze pokud budete mít štěstí a v nových proměnných (výstupy A-neuronů) se úloha ukáže jako lineárně oddělitelná. Ale možná nebudete mít štěstí.
Věta o konvergenci perceptronu [8] dokazuje, že neexistuje a nemůže existovat žádné „nemusí mít štěstí“; když se A-elementy rovnají počtu podnětů a nespeciální G-matici , pravděpodobnost řešení je 100 %. To znamená, že když je receptorové pole mapováno na asociativní pole větší o jeden rozměr náhodným (nelineárním) operátorem, nelineární problém se změní na lineárně separovatelný. A další trénovatelná vrstva již najde lineární řešení v jiném vstupním prostoru. Například trénování perceptronu pro řešení „problému XOR“ (viz obrázek) se provádí v následujících krocích:Závaží | Iterace | ||||||||
---|---|---|---|---|---|---|---|---|---|
jeden | 2 | 3 | čtyři | 5 | |||||
w1 | 0 | jeden | jeden | jeden | jeden | 2 | 2 | 2 | 2 |
w2 | 0 | 0 | jeden | jeden | jeden | jeden | jeden | 2 | 2 |
w3 | −1 | 0 | jeden | 0 | −1 | 0 | −1 | 0 | −1 |
Vstupní signály (x, y) | jedenáct | 0, 1 | deset | jedenáct | jedenáct | 0, 1 | jedenáct | deset | jedenáct |
Mylná představa: pokud je v problému dimenze vstupů poměrně vysoká a existuje málo příkladů školení, pak v takto „slabě zaplněném“ prostoru nemusí být počet úspěchů malý. To naznačuje pouze konkrétní případ vhodnosti perceptronu, nikoli jeho univerzálnost.
Tento argument lze snadno otestovat na testovacím problému zvaném „šachovnice“ nebo „houba s vodou“ [26] [nb 8] :Je dán řetězec 2· N jedniček nebo nul, které jsou přiváděny paralelně ke vstupům perceptronu. Pokud je tento řetězec zrcadlově symetrický kolem středu, pak je výstup +1, jinak 0. Tréninkové příklady jsou všechny (to je důležité) řetězce. |
Vezměme si černobílý obrázek o velikosti 256×256 prvků ( pixelů ). Vstupními daty pro perceptron budou souřadnice bodu (8 bitů + 8 bitů, celkem je potřeba 16 S-prvků), na výstupu budeme požadovat barvu bodu. Trénujeme perceptron pro všechny body (celý obrázek). Výsledkem je, že máme 65 536 různých párů podnět-odpověď. Učte se bez chyb. |
Mylná představa: Rosenblattův perceptron má tolik A-prvků, kolik je vstupů. A konvergence podle Rosenblatta je stabilizace vah.
V Rosenblatt čteme:
Pokud je počet podnětů v prostoru W roven n > N (tedy více než počet A-prvků elementárního perceptronu), pak existuje nějaká klasifikace C(W) , pro kterou neexistuje řešení [28 ] .
Z toho plyne, že:Mylná představa: pokud jsou váhové koeficienty pro prvky skryté vrstvy (A-elementy) pevně dané, pak je nutné, aby počet prvků skryté vrstvy (nebo jejich složitost) exponenciálně rostl s nárůstem rozměru problému. (počet receptorů). Tím se ztrácí jejich hlavní výhoda – schopnost řešit problémy libovolné složitosti pomocí jednoduchých prvků.
Rosenblatt ukázal, že počet A-prvků závisí pouze na počtu podnětů, které mají být rozpoznány (viz předchozí odstavec nebo věta o konvergenci perceptronu ). S nárůstem počtu receptorů, pokud je počet A-prvků pevný, tedy schopnost perceptronu řešit problémy libovolné složitosti přímo nezávisí. Tato mylná představa pochází z následující fráze Minsky:
Při zkoumání paritního predikátu jsme viděli, že koeficienty mohou růst s |R| (počet bodů na obrázku) exponenciálně [29] .
Kromě toho Minsky zkoumal další predikáty, jako je „rovnost“. Všechny tyto predikáty však představují spíše specifický úkol pro zobecnění, nikoli pro rozpoznávání nebo predikci. Takže například, aby perceptron splnil predikát „parita“, musí říci, zda je počet černých teček v černobílém obrázku sudý nebo ne; a pro splnění predikátu "rovnost" řekněte, zda se pravá strana obrázku rovná levé straně. Je zřejmé, že takové úlohy přesahují rámec úloh rozpoznávání a predikce a jsou úlohami pro zobecnění nebo jednoduše pro výpočet určitých charakteristik. To přesvědčivě ukázal Minsky a je to omezení nejen perceptronů, ale i všech paralelních algoritmů , které nedokážou takové predikáty vypočítat rychleji než sekvenční algoritmy. Proto takové úlohy omezují schopnosti všech neuronových sítí a perceptronů zvláště, ale to nemá nic společného s pevnými spoji první vrstvy; jelikož zaprvé šlo o hodnotu koeficientů spojů druhé vrstvy a zadruhé je otázka pouze v efektivitě a ne v principu. To znamená, že perceptron může být také trénován pro tento úkol, ale kapacita paměti a rychlost učení potřebná k tomu bude větší než při použití jednoduchého sekvenčního algoritmu. Zavedení trénovatelných vah v první vrstvě situaci jen zhorší, protože bude vyžadovat více tréninkového času, protože vztahové proměnné mezi S a A spíše brzdí než přispívají k procesu učení [30] . Navíc při přípravě perceptronu pro úlohu rozpoznávání podnětů speciálního typu budou pro udržení účinnosti vyžadovány speciální podmínky pro stochastické učení [31] , což ukázal Rosenblatt v experimentech s perceptronem s proměnnými vazbami S-A .Sám Rosenblatt považoval perceptron především za další důležitý krok ke studiu a využití neuronových sítí, nikoli za hotovou verzi „ stroje schopného myslet “ [nb 9] . Již v předmluvě ke své knize v reakci na kritiku poznamenal, že „výzkumný program perceptronů nesouvisí hlavně s vynálezem zařízení s „umělou inteligencí“, ale se studiem fyzikálních struktur a neurodynamických principů“ [32] .
Rosenblatt navrhl řadu psychologických testů k určení schopností neuronových sítí: experimenty s diskriminací , zobecněním , rozpoznáváním sekvencí , utváření abstraktních pojmů , utváření a vlastnosti „ sebeuvědomění “, kreativní představivost a další [33] . Některé z těchto experimentů jsou vzdáleny současným schopnostem perceptronů, takže jejich vývoj je spíše filozoficky ve směru konektivismu . Přesto se pro perceptrony prokázaly dvě důležité skutečnosti, které nacházejí uplatnění v praktických problémech: možnost klasifikace (objekty) a možnost aproximace (hranice tříd a funkcí) [34] .
Důležitou vlastností perceptronů je jejich schopnost učit se, navíc podle celkem jednoduchého a efektivního algoritmu (viz výše ).
Sám Rosenblatt identifikoval dvě zásadní omezení pro třívrstvé perceptrony (skládající se z jedné vrstvy S, jedné vrstvy A a vrstvy R): jejich nedostatečná schopnost zobecnit jejich vlastnosti na nové podněty nebo nové situace a jejich neschopnost analyzovat komplexní situace ve vnějším prostředí.prostředí jejich rozdělením na jednodušší [17] .
V roce 1969 vydali Marvin Minsky a Seymour Papert knihu Perceptrony, kde matematicky ukázali, že perceptrony jako Rosenblatt v zásadě nejsou schopny vykonávat mnoho funkcí, které od perceptronů chtěli. Navíc v té době byla teorie paralelního počítání špatně rozvinutá a perceptron byl plně v souladu s principy takových výpočtů. Celkově Minsky ukázal výhodu sekvenčního počítání oproti paralelnímu v určitých třídách problémů spojených s invariantní reprezentací. Jeho kritiku lze rozdělit do tří témat:
Kniha Minskyho a Paperta výrazně ovlivnila vývoj vědy o umělé inteligenci, protože posunula vědecký zájem a dotace vládních organizací USA do jiného směru výzkumu - symbolického přístupu k AI .
Zde budou ukázány pouze základy praktické aplikace perceptronu na dvou různých úlohách. Problém predikce (a jeho ekvivalentní problém rozpoznávání vzorů ) vyžaduje vysokou přesnost, zatímco problém řízení agenta vyžaduje vysokou rychlost učení. S ohledem na tyto úkoly se tedy lze plně seznámit se schopnostmi perceptronu, ale zdaleka to zdaleka nevyčerpává možnosti jeho využití.
V praktických problémech bude muset mít perceptron možnost vybrat si z více než dvou možností, což znamená, že musí mít na výstupu více než jeden R-prvek. Jak ukazuje Rosenblatt, charakteristiky takových systémů se významně neliší od charakteristik elementárního perceptronu [40] .
Predikce a rozpoznávání vzorůV těchto úlohách je perceptron povinen určit, zda objekt patří do třídy svými parametry (například vzhledem, tvarem, siluetou). Navíc přesnost rozpoznávání bude do značné míry záviset na reprezentaci výstupních reakcí perceptronu. Jsou zde možné tři typy kódování: konfigurace , poziční a hybridní. Poziční kódování, kdy má každá třída svůj vlastní R-element, poskytuje přesnější výsledky než jiné typy. Tento typ je použit např. v práci E. Kussula a kol., „Rosenblatt Perceptrons for Recognizing Handwritten Digits“. Neplatí to však v případech, kdy je počet tříd významný, například několik stovek. V takových případech lze použít hybridní konfiguračně-poziční kódování, jak bylo provedeno v práci S. Jakovleva „Systém pro rozpoznávání pohybujících se objektů založený na umělých neuronových sítích“.
Správa agentůU umělé inteligence jsou často zvažováni agenti učící se ( ekologicky se přizpůsobující ) . Zároveň je v podmínkách nejistoty důležité analyzovat nejen aktuální informace, ale i obecný kontext situace, do které se agent dostal, proto se zde používají zpětnovazební perceptrony [41] . V některých úlohách je navíc důležité zvýšit rychlost učení perceptronu, například pomocí modelování refrakternosti [42] .
Po období známém jako „ zima umělé inteligence “ zájem o kybernetické modely v 80. letech ožil , když se zastánci symbolické umělé inteligence nedokázali přiblížit problémům „Porozumění“ a „Významu“, což způsobilo strojový překlad a rozpoznávání technických vzorů. fatální nedostatky. Sám Minsky veřejně vyjádřil lítost nad tím, že jeho projev poškodil koncept perceptronů, ačkoliv kniha ukázala pouze nedostatky jediného zařízení a některé jeho variace. Ale obecně se AI stala synonymem pro symbolický přístup, který se projevuje tvorbou stále složitějších programů pro počítače, které simulují složité činnosti lidského mozku.
Typy umělých neuronových sítí | |
---|---|
|
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|