Sequiturův algoritmus

Algoritmus Sequitur (neboli Neville-Manningův algoritmus ) je rekurzivní algoritmus vyvinutý Craigem Neville-Manningem a Ianem Wittenem v roce 1997 [1] . Algoritmus vytváří hierarchickou strukturu ( bezkontextovou gramatiku ) ze sekvence diskrétních znaků. Algoritmus pracuje v lineárním prostoru v lineárním čase. Lze jej použít v aplikacích pro kompresi dat [2] .

Omezení

Algoritmus Sequitur vytváří gramatiku nahrazením nových pravidel pro opakované fráze v dané sekvenci, a proto poskytuje krátkou reprezentaci sekvence. Například pokud je sekvence

S→abcab,

algoritmus dává

S→AcA, A→ab.

Při pohledu na vstupní řetězec se algoritmus řídí dvěma pravidly pro efektivní generování gramatiky: jedinečnost dvojice znaků a použití pravidla .

Jedinečnost dvojice symbolů

Když je ze sekvence vybrán nový znak, přidá se k poslednímu vybranému znaku a vytvoří se nový pár znaků . Pokud byl takový pár vytvořen již dříve, vygeneruje se nové pravidlo, které nahradí oba výskyty párů znaků.

Tím je zajištěno, že se dvojice v gramatice vyskytuje maximálně jednou. Například v sekvenci S→abaaba se po zhlédnutí prvních čtyř znaků vytvoří dvojice ab, ba, aa . Když je vybrán pátý znak, nový pár „ab“ již byl vytvořen. Proto jsou oba páry 'ab' nahrazeny v S novým pravidlem (řekněme A). Nyní se gramatika změní na S→AaAa, A→ab a proces pokračuje, dokud nezůstanou žádné duplicitní páry.

Pomocí pravidla

Toto omezení zajišťuje, že všechna pravidla jsou použita více než jednou ve správných částech gramatiky. To znamená, že pokud se pravidlo vyskytne pouze jednou, mělo by být z gramatiky odstraněno a měla by být provedena příslušná náhrada. Například ve výše uvedeném příkladu, pokud je vyhledán poslední znak a je aplikováno pravidlo jedinečnosti pro 'Aa', pak gramatika dá S→BB, A→ab, B→Aa . Nyní se pravidlo 'A' vyskytuje pouze jednou v B→Aa . Takže A je odstraněno a nakonec se gramatika stane S→BB, B→aba .

Toto omezení umožňuje snížit počet pravidel v gramatice.

Popis metody

Algoritmus funguje tak, že se podívá na posloupnost koncových znaků a vytvoří seznam všech párů přečtených znaků. Když se pár objeví podruhé, oba páry jsou nahrazeny vytvořeným nekoncovým znakem , seznam párů znaků je aktualizován tak, aby odpovídal nové sekvenci, a procházení pokračuje. Pokud se dvojice neterminálních symbolů vyskytují pouze v nově vytvořené definici symbolu, je symbol nahrazen svou definicí a odstraněn ze seznamu neterminálních symbolů. Po dokončení skenování lze transformovanou sekvenci interpretovat jako pravidlo nejvyšší úrovně v gramatice pro původní sekvenci. Definice pravidel pro neterminální symboly lze nalézt v seznamu dvojic. Tyto definice pravidel mohou samy o sobě obsahovat další neterminální symboly, jejichž definice lze nalézt ve stejném seznamu dvojic [3] .

Viz také

Bezkontextová gramatika

Komprese dat

Bezztrátová komprese dat

Straight Grammar

Kódování párů bajtů

Poznámky

Literatura

Nevill-Manning CG , Witten IH Identifikace hierarchické struktury v sekvencích: Algoritmus s lineárním časem. - 1997. - . - arXiv : cs/9709102 .

Nevill-Manning CG , Witten IH Linear-Time, incremental Hierarchy Inference for Compression // Proceedings DCC '97. Konference o kompresi dat. - 1997. - ISBN 978-0-8186-7761-8 . - doi : 10.1109/DCC.1997.581951 .

Odkazy

sequitur.info - implementace algoritmu Sequitur v C++, Javě a dalších jazycích

Kompresní metody

Teorie

Informace	Vlastní Vzájemné Entropie Podmíněná entropie Složitost Nadbytek
Jednotky	Bit Nat Okusovat Hartley Hartleyho vzorec

Bezztrátový

Entropická komprese	Asymetrické číselné soustavy Huffmanův algoritmus Adaptivní Huffmanův algoritmus Shannon-Fano algoritmus Shannonův algoritmus Aritmetické kódování ( interval ) Golombovy kódy Delta Univerzální kód Eliáš fibonacci
Slovníkové metody	RLE Vyfouknout LZ ( LZ77/LZ78 LZSS LZW LZWL LZO LZMA LZX LZRW LZJB LZT LZ4 Brotli zstandard )
jiný	RLE CTW BWT MTF PPM DMC

Zvuk

Teorie	Konvoluce PCM Aliasing Vzorkování Kotelnikovova věta
Metody	LPC LAR LSP WLPC CELP ACELP Zákon μ-zákon ADPCM MDCT Fourierova transformace Psychoakustický model
jiný	Audio kompresor Komprese řeči Pásmové kódování

snímky

Podmínky	barevný prostor Pixel Saturační podvzorkování Kompresní artefakty
Metody	RLE DPCM fraktál vlnka EZW SPIHT LP Přípravka PCL
jiný	Bitová rychlost Standardní testovací obrázek PSNR Kvantování

Video

Podmínky	Vlastnosti videa Rám Typy rámů Kvalita videa
Metody	Kompenzace pohybu Přípravka Kvantování vlnka
jiný	Video kodek Teorie zkreslení sazby CBR ABR VBR