Gramatické odvozování

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 27. října 2021; ověření vyžaduje 1 úpravu .

Indukce gramatiky (neboli gramatická inference [1] ) je procedura strojového učení , která obnovuje formální gramatiku jazyka na základě souboru pozorování (příkladů) se známou příslušností k tomuto jazyku. Výsledkem procedury je sestavení modelu pozorovatelných objektů ve formě sady inferenčních pravidel nebo generujících pravidel , konečného automatu nebo automatu jiného typu. Obecněji je gramatické vyvozování jednou z oblastí strojového učení, ve kterém se příkladový prostor skládá z diskrétních kombinatorických objektů, jako jsou řetězce, stromy, grafy.

Hodiny gramatiky

Gramatický závěr se často zaměřuje na problém učení konečných automatů různých typů (viz článek Regular Language Induction pro podrobnosti o těchto přístupech), protože od 80. let existují účinné algoritmy pro řešení tohoto problému.

Od počátku roku 2000 byly tyto přístupy rozšířeny na úkol odvodit bezkontextové gramatiky a bohatší formalismy, jako jsou vícenásobné bezkontextové gramatiky a paralelní vícenásobné bezkontextové gramatiky. Jiné třídy gramatik , pro které byla studována gramatická inference , byly také studovány pro další třídy gramatik -- kontextové gramatiky a vzorové jazyky .

Modely učení

Nejjednodušším druhem učení je, když algoritmus učení přijímá pouze sadu příkladů a někdy i protipříklady slov daného jazyka. Existují i jiné modely učení. Jednou z často zkoumaných alternativ je případ, kdy se žák může ptát na příslušnost slova k jazyku, jako například v exaktním modelu učení nebo minimálně adekvátním modelu učitele, který zavedl Angluin [2] .

Metodiky

Byla vyvinuta široká škála metod pro gramatické vyvozování. Dva klasické zdroje jsou Fuovy práce z roku 1977 [3] a 1982 [4] . Duda, Hart a Stork [5] také věnovali malou část tomuto problému a citují mnoho zdrojů. Základní metoda pokusu a omylu, kterou představili, je diskutována níže. Pro přístupy k podtřídění regulárních jazyků , zejména viz Induction of Regular Languages . Novější knihou je de la Higuera's (2010) [1] , která se zabývá teorií gramatické inference v regulárních jazycích a konečných automatech. D'Ulisia, Ferri a Grifoni [6] zhodnotili výzkum inferenčních metod pro přirozené jazyky.

Gramatické odvozování metodou pokusu a omylu

Metoda navržená v sekci 8.7 Dowd, Hart a Stork [5] navrhuje postupné hádání gramatických pravidel a jejich testování proti pozitivním a negativním pozorováním. Sada pravidel je rozšířena tak, aby bylo možné vygenerovat každý pozitivní příklad, ale pokud daná sada pravidel vygeneruje negativní příklad, musí být zrušena. Tento konkrétní přístup lze popsat jako „testování hypotéz“ a je poněkud podobný Mitchellovu algoritmu . Text článku Dowda, Harta a Storcka [5] uvádí jednoduchý příklad, který proces dobře ilustruje, ale proveditelnost takového neřízeného přístupu pokusů a omylů u větších problémů je sporná.

Gramatické vyvozování pomocí genetických algoritmů

Gramatické vyvozování pomocí evolučních algoritmů je proces evoluce reprezentace gramatiky cílového jazyka prostřednictvím nějakého evolučního procesu. Formální gramatiky lze snadno reprezentovat jako stromy inferenčních pravidel, na které lze aplikovat evoluční operátory. Algoritmy tohoto druhu mají svůj původ v genetickém programování , jehož průkopníkem byl John Koza . Jiné rané práce na jednoduchých formálních jazycích používaly binární řetězcovou reprezentaci genetických algoritmů, ale vnitřní hierarchická struktura gramatik, která je základem jazyka Backus-Naur Augmented Form , činí stromy flexibilnějším přístupem.

Koza představil Lisp programy jako stromy. Podařilo se mu najít analogie mezi genetickými operátory ke standardním operátorům na stromech. Například záměna podstromů je ekvivalentní odpovídajícímu procesu genetického křížení , kde jsou podřetězce genetického kódu převedeny na individualitu další generace. Platnost se měří vyhodnocením výstupního kódu Lisp . Podobné analogie mezi stromovými strukturami Lispových reprezentací a stromovými reprezentacemi gramatik umožňují techniku použití genetického programování pro indukci gramatiky.

V případě indukce gramatiky přenos podstromů odpovídá výměně inferenčních pravidel, což umožňuje analyzovat fráze určitého jazyka. Operátor platnosti pro gramatiku je založen na určité míře toho, jak dobře analyzuje určitou skupinu vět z cílového jazyka. Ve stromové reprezentaci gramatiky odpovídá koncový symbol generujícího pravidla listu stromu. Jeho nadřazený uzel se shoduje s neterminálním znakem (jako je fráze podstatného jména nebo fráze slovesa ) v sadě pravidel. Koneckonců, kořenový uzel může odpovídat posloupnosti neterminálů.

Gramatické odvozování pomocí chamtivých algoritmů

Stejně jako všechny chamtivé algoritmy , i chamtivé inferenční algoritmy opakovaně přijímají rozhodnutí, které se v dané fázi jeví jako nejlepší. Rozhodnutí je obvykle chápáno jako vytvoření nového pravidla, smazání existujícího pravidla, výběr použitelného pravidla, sloučení existujících pravidel. Protože pojmy „stage“ a „best“ mohou být definovány různými způsoby, bylo vytvořeno několik chamtivých inferenčních algoritmů.

Následující algoritmy pro generování bezkontextových gramatik se rozhodují po přečtení každého znaku:

Algoritmus Lempel-Ziv-Welch generuje bezkontextovou gramatiku deterministickým způsobem, takže je třeba si pamatovat pouze počáteční pravidlo generované gramatiky.
Sequitur a jeho modifikace.

Následující algoritmy pro generování bezkontextových gramatik nejprve přečtou celou sekvenci znaků a poté začnou rozhodovat:

kódování bajtových párů a jeho optimalizované varianty.

Distributivní učení

Novější přístupy jsou založeny na distributivním učení . Algoritmy využívající tyto přístupy byly aplikovány na výuku bezkontextových gramatik a mírně kontextově citlivých jazyků a ukázalo se, že jsou správné a efektivní pro velké podtřídy těchto gramatik [7] [8]

Výuka ukázkových jazyků

Angluin definoval vzor jako „řetězec konstantních znaků z abecedy Σ a proměnných znaků z disjunktní množiny“. Jazykem takových vzorů je množina všech neprázdných základních příkladů, tedy všech řetězců získaných vhodným nahrazením proměnných znaků neprázdnými řetězci konstantních znaků [poznámka 1] . O vzoru se říká , že je popisný pro konečnou množinu řetězců, pokud je jeho jazyk minimální (vzhledem k zahrnutí množiny) mezi všemi jazyky vzorů, včetně vstupní množiny.

Angluin dal polynomiální algoritmus pro výpočet všech popisných vzorů z jedné proměnné z dané vstupní sady řádků x[poznámka 2] . Za tímto účelem sestaví automat představující všechny možné relevantní vzory. Pomocí sofistikovaných argumentů o délkách slov, které závisí pouze na jedné proměnné x, lze počet stavů výrazně snížit [9] .

Erlebach et al poskytli efektivnější verzi Angluinova algoritmu pro učení vzorů a také paralelní verzi algoritmu [10] .

Arimura et al. ukázali, že třídu jazyků získanou z omezeného souboru vzorků lze trénovat v polynomiálním čase [11] .

Teorie vzorů

Teorie vzorů ( angl. pattern theory ), formulovaná Ulfem Grenanderem [12] , je matematický formalismus pro popis znalostí o světě ve formě vzorů. Rozdíl navrhovaného přístupu k umělé inteligenci od ostatních spočívá v tom, že nezačíná definicí algoritmů a strojů pro rozpoznávání a klasifikaci vzorů. Metoda spíše předepisuje slovní zásobu pro formulování a přepisování vzorů v přesném jazyce.

Kromě nového algebraického jazyka byl zaveden nový statistický přístup s cílem:

Rozpoznejte latentní proměnné souboru dat pomocí dat z reálného světa spíše než umělých vlivů.
Definice dřívějších distribucí latentních proměnných a modely pro pozorované proměnné, které tvoří vrcholy grafu, jako je Gibbsův graf.
Studium náhodnosti a variability těchto grafů.
Tvorba základních tříd stochastických modelů aplikovaných výčtem deformací[ neznámý termín ] vzorky.
Implementace syntézy ( vzorkování ) pomocí modelů a nejen studium signálů

Aplikace

Principy indukce gramatiky byly aplikovány na další aspekty zpracování přirozeného jazyka a (mezi mnoha jinými úkoly) na percepci přirozeného jazyka [13] , strojový překlad založený na příkladech [14] , analýzu morfémů a odvozování původ místních jmen. Gramatická indukce byla také použita pro bezeztrátovou kompresi [15] a statistické vyvozování prostřednictvím principů minimální délky zpráv a popisů minimální délky . Indukce gramatiky byla také použita v některých pravděpodobnostních modelech osvojování jazyka [16] .

Viz také

Umělá inteligence
Strojový překlad na základě příkladů
Induktivní programování
Kolmogorovova složitost
Straight Grammar
Rozpoznávání syntaktických vzorů

Poznámky

↑ Vzorový jazyk s alespoň dvěma výskyty stejné proměnné není regulární kvůli lemmatu čerpání .
↑ x se může vyskytovat vícekrát, ale nesmí to být žádná jiná proměnnáy

↑ 12 de la Higuera, 2010 .
↑ Angluin, 1987 , s. 87–106.
↑ Fu, 1977 .
↑ Fu, 1982 .
↑ 1 2 3 Duda, Hart, Čáp, 2001 .
↑ D'Ulizia, Ferri, Grifoni, 2011 , str. 1–27.
↑ Clark, Eyraud, 2007 .
↑ Yoshinaka, 2011 , str. 1821-183.
↑ Angluin, 1980 , str. 46–62.
↑ Erlebach, Rossmanith, Stadtherr, Steger, Zeugmann, 1997 , str. 260–276.
↑ Arimura, Shinohara, Otsuki, 1994 , str. 649–660.
↑ Grenander, Miller, 2007 .
↑ Miller, Bobrow, Schwartz, 1994 .
↑ Brown, 2001 .
↑ Černiavskij, Ladner, 2004 .
↑ Chater, Manning, 2006 , s. 335-344.

Literatura

Colin de la Higuera. Gramatický závěr: Automaty učení a gramatiky . — Cambridge: Cambridge University Press, 2010.
Ulf Grenander, Michael I. Miller. Teorie vzorů: od reprezentace k inferenci. - Oxford University Press, 2007. - ISBN 0-19-850570-1.
Alexander Clark, Remi Eyraud. Polynomiální identifikace v limitu nahraditelných bezkontextových jazyků // Journal of Machine Learning Research. — 2007.
Ryo Yoshinaka. Efektivní učení více bezkontextových jazyků s vícerozměrnou zastupitelností z pozitivních dat // Teoretická informatika. - 2011. - T. 412 , č.p. 19 . - S. 1821-1831 .
Scott Miller, Robert J. Bobrow, Richard M. Schwartz. Skryté modely porozumění přirozenému jazyku // Sborník příspěvků z 32. výročního setkání Asociace pro počítačovou lingvistiku. . — Asociace pro počítačovou lingvistiku, 1994.
Ralph D. Brown. Indukce přenosových pravidel pro překlad založený na příkladech // Sborník semináře VIII semináře MT Summit o strojovém překladu založeném na příkladech. — 2001.
Něva Černiavskij, Richard Ladner. Gramatická komprese sekvencí DNA // DIMACS Working Group on The Burrows-Wheeler Transform . — 2004.
Nick Chater, Christopher D. Manning. Pravděpodobnostní modely zpracování a osvojování jazyka // Trendy v kognitivních vědách . — 2006.
Dana Angluinová. Učení pravidelných sad z dotazů a protipříkladů // Informace a kontrola . - 1987. - T. 75 . — s. 87–106 . - doi : 10.1016/0890-5401(87)90052-6 . Archivováno z originálu 2. prosince 2013.
D'Ulizia A., Ferri F., Grifoni P. Přehled metod gramatického vyvozování pro výuku přirozeného jazyka // Recenze umělé inteligence. - 2011. - T. 36 , č. 1 .
Dana Angluinová. Hledání vzorů společných pro sadu řetězců // Journal of Computer and System Sciences. - 1980. - T. 21 . - doi : 10.1016/0022-0000(80)90041-0 .
Erlebach T., Rossmanith P., Stadtherr H., Steger A., Zeugmann T. Učení jazyků s jedním proměnným vzorem velmi efektivně v průměru, paralelně a pomocí dotazů // Proc. 8. mezinárodní seminář o teorii algoritmického učení - ALT'97 / M. Li, A. Maruoka. - Springer, 1997. - T. 1316. - (LNAI).
Hiroki Arimura, Takeshi Shinohara, Setsuko Otsuki. Nalezení minimálních zobecnění pro unie vzorových jazyků a jejich aplikace na induktivní vyvozování z pozitivních dat // Proc. STACS 11. - Springer, 1994. - T. 775. - (LNCS).
Richard O. Duda, Peter E. Hart, David G. Stork. Klasifikace vzorů . - 2. - New York : John Wiley & Sons, 2001.
King Sun Fu. Rozpoznávání syntaktických vzorů a aplikace. - Englewood Cliffs, NJ: Prentice-Hall, 1982.
King Sun Fu. Rozpoznávání syntaktických vzorů, aplikace. — Berlín : Springer-Verlag, 1977.
James Jay Horning. Studium gramatického vyvozování . - Stanford : Katedra informatiky Stanfordské univerzity, 1969. - (Ph.D. práce).
E. Mark Gold. Identifikace jazyka v limitu . - Informace a kontrola , 1967. - T. 10 . — S. 447–474 . Archivováno z originálu 28. srpna 2016.

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-Net Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG