Výška iterace jazyka

V teoretické informatice , přesněji v teorii formálních jazyků , je iterační výška měřítkem strukturní složitosti regulárních výrazů - iterační výška regulárního výrazu je rovna maximální hloubce vnoření hvězdiček přítomných v regulárním výrazu. výraz. Pojem iterační výšky poprvé představil a studoval Eggan (1963).

Formální definice

Formálně je iterační výška regulárního výrazu E přes konečnou abecedu A definována induktivně takto:

$\scriptstyle h\left(\emptyset \right)\,=\,0$ a pro libovolný znak a z abecedy A . $\scriptstyle h\left(\varepsilon \right)\,=\,0$ $\scriptstyle h\left(a\right)\,=\,0$
$\scriptstyle h\left(EF\right)\,=\,h\left(E\,\mid \,F\right)\,=\,\max \left(\,h(E), h(F)\,\right)$
$\scriptstyle h\left(E^{*}\right)\,=\,h(E)+1.$

Zde znamená prázdnou množinu, ε znamená prázdný řetězec a E a F jsou libovolné regulární výrazy. $\scriptstyle \emptyset$

Iterační výška h ( L ) regulárního jazyka L je definována jako minimální iterační výška všech regulárních výrazů reprezentujících L . Intuitivně, pokud má jazyk L vysokou iterační výšku, je sám o sobě složitý, protože jej nelze popsat pomocí „jednoduchých“ regulárních výrazů s nízkou iterační výškou.

Příklady

Zatímco výpočet výšky iterace regulárního výrazu je jednoduchý, definice výšky iterace jazyka může být někdy matoucí. Jako příklad regulární výraz

\scriptstyle \left(b\,\mid \,aa^{*}b\right)^{*}aa^{*}

nad abecedou A = {a, b} má iterační výšku 2. Popisovaný jazyk je však množinou všech slov končících na a . Stejný jazyk lze popsat pomocí výrazu

\scriptstyle (a\,\mid \,b)^{*}a

jehož iterační výška je pouze 1. Abychom dokázali, že iterační výška jazyka je 1, musíme vyloučit možnost popsat jazyk regulárním výrazem s nižší iterační výškou. To lze například provést nepřímo důkazem, že jazyk s výškou iterace 0 obsahuje pouze konečný počet slov. Protože náš jazyk je nekonečný, nemůže mít iterační výšku 0.

Iterační výška jazyka skupiny je vyčíslitelná. Například výška jazykové iterace přes { a , b }, ve které je počet výskytů a a b shodný modulo 2 n je n [1] .

Egganův teorém

Ve svých klíčových studiích o iterační výšce regulárních jazyků Eggan [2] prokázal spojení mezi teorií regulárních výrazů, teorií konečných automatů a orientovanými grafy . Následně toto spojení vešlo ve známost jako Egganův teorém [3] . Připomínáme některé pojmy z teorie grafů a teorie automatů .

V teorii grafů je cyklická hodnost r ( G ) orientovaného grafu (digrafu) G = ( V , E ) definována induktivně takto:

Je -li G acyklické , r ( G ) = 0. Pořadí cyklů je nulové i v případě prázdného grafu G.
Pokud je G přesně spojeno a E není prázdné, pak

r(G)=1+\min _{v\in V}r(Gv),\,

kde G - v je digraf získaný odstraněním vrcholu v a všech oblouků, které začínají nebo končí na v.

Pokud G není striktně souvislá, pak r ( G ) se rovná maximálnímu cyklickému pořadí mezi všemi přísně propojenými složkami grafu G.

V teorii automatů je nedeterministický konečný automat s ε-přechody (ε-NFA) definován jako n-tice ( Q , Σ, δ , q 0 , F ) skládající se z

konečná množina stavů Q
konečná množina vstupních symbolů Σ
sady označených oblouků δ , nazývané přechody :. Zde ε označuje prázdný řetězec . $Q\times (\Sigma \cup \{\varepsilon \})\times Q$
počáteční stav q 0 ∈ Q
množina stavů F , nazývaná absorbující , F ⊆ Q .

Slovo w ∈ Σ * je akceptováno jako ε-NCF, pokud existuje orientovaný řetězec z počátečního stavu q 0 do nějakého konečného stavu F pomocí dig od δ tak, že zřetězení všech značek podél cesty tvoří slovo w . Množina všech slov nad Σ * akceptovaná automatem je jazyk akceptovaný automatem A .

Hovoříme-li o nedeterministickém konečném automatu A se stavovou množinou Q jako orientovaným grafem, máme přirozeně na mysli graf s vrcholovou množinou Q generovaný přechody. Nyní můžeme vyslovit větu.

Egganův teorém : Iterační výška regulárního jazyka L je rovna nejmenší cyklické řadě ze všech nedeterministických konečných automatů s ε-přechody přijímajícími jazyk L.

Důkaz této věty podal Eggan [2] a později Sakarovič [3] .

Zobecněný problém výšky iterace

Výše uvedená definice předpokládá, že regulární výraz je postaven na prvcích abecedy A a používá pouze standardní operace sjednocení množin , zřetězení a Kleeneův uzávěr . Zobecněný regulární výraz je definován jako regulární výraz, ale zahrnuje také operaci množinového doplňku (doplněk je vždy vztažen ke všem slovům nad A). Pokud předpokládáme, že použití výplně nezvýší výšku iterace, tzn

\scriptstyle h\left(E^{c}\right)\,=\,h(E)

můžeme definovat výšku iterace zobecněného regulárního jazyka L jako minimální výšku iterace mezi všemi zobecněnými regulárními výrazy reprezentujícími jazyk L .

Všimněte si, že zatímco jazyky s nulovou (běžnou) výškou iterace obsahují konečný počet slov, existuje nekonečně mnoho jazyků s nulovou zobecněnou výškou iterace.

Příklad . Regulární výraz

\scriptstyle (a\,\mid \,b)^{*}a,

který jsme viděli v příkladu výše, lze ekvivalentně přepsat jako zobecněný regulární výraz

\scriptstyle \emptyset ^{c}a

protože doplňkem prázdné množiny jsou přesně všechna slova v abecedě A . Množina všech slov v abecedě A končících písmenem a má tedy iterační výšku jedna, zatímco zobecněná iterační výška je nula.

Jazyky s nulovou výškou iterace se nazývají jazyky bez hvězdiček . Lze ukázat, že jazyk L je jazykem bez hvězdiček právě tehdy, když jeho syntaktický monoid je aperiodický [4] .

Viz také

Problém výšky jazykové iterace
Problém výšky zobecněné jazykové iterace

Poznámky

↑ Sakarovič, 2009 , str. 342.
↑ 12 Eggan , 1963 .
↑ 12. Sakarovič , 2009 .
↑ Schützenberger, 1965 .

Literatura

Jean Berstel, Christophe Reutenauer. Nekomutativní racionální řady s aplikacemi. - Cambridge: Cambridge University Press , 2011. - V. 137. - (Encyklopedie matematiky a její aplikace). - ISBN 978-0-521-19022-0 .
Rina S. Cohenová. Techniky pro stanovení hvězdicové výšky regulárních množin // Teorie výpočetních systémů . - 1971. - V. 5 , čís. 2 . - S. 97-114 . — ISSN 1432-4350 . - doi : 10.1007/BF01702866 .
Rina S. Cohen, JA Brzozowski. Obecné vlastnosti hvězdné výšky pravidelných událostí // Journal of Computer and System Sciences . - 1970. - T. 4 , no. 3 . - S. 260-280 . — ISSN 0022-0000 . - doi : 10.1016/S0022-0000(70)80024-1 .
Lawrence C. Eggan. Přechodové grafy a hvězdná výška pravidelných událostí // Michigan Mathematical Journal . - 1963. - T. 10 , čís. 4 . - S. 385-397 . - doi : 10,1307/mmj/1028998975 .
Jacques Sakarovič. Základy teorie automatů. - Cambridge: Cambridge University Press , 2009. - ISBN 978-0-521-84425-3 .
Arto Salomaa. Klenoty teorie formálního jazyka. - Rockville, Maryland: Computer Science Press, 1981. - ISBN 0-914894-69-2 .
poslanec Schützenberger. Na konečných monoidech majících pouze triviální podskupiny // Informace a kontrola . - 1965. - T. 8 , no. 2 . - S. 190-194 . — ISSN 0019-9958 . - doi : 10.1016/S0019-9958(65)90108-7 .