Shannonova věta o zdroji šifrování

V teorii informace nastavuje Shannonova věta o zdroji šifrování (nebo věta o tichém šifrování) limit maximální komprese dat a číselnou hodnotu Shannonovy entropie .

Věta ukazuje, že (když má množství dat tendenci k nekonečnu v proudu nezávisle a rovnoměrně distribuovaných (IED) náhodných proměnných), není možné komprimovat data tak, aby odhad kódu (průměrný počet bitů na symbol) byl menší než Shannonova entropie původních dat bez ztráty přesnosti informací. Je však možné získat kód blízký Shannonově entropii bez výrazných ztrát.

Věta o zdroji šifrování pro kódy znaků přináší horní a dolní mez minimální možné délky zašifrovaných slov jako funkci entropie vstupního slova (které je reprezentováno jako náhodná veličina) a velikosti požadované abecedy.

Prohlášení

Zdrojový kód je mapování (sekvence) z úložiště informací do sekvence abecedních znaků (obvykle bitů), takže zdrojový znak lze jednoznačně získat z binárních číslic (bezeztrátový zdroj kódování) nebo získat s určitým rozdílem (zdroj se ztrátovým kódováním) . To je myšlenka komprese dat.

Zdroj šifrování pro kódy znaků

V informatice teorém o zdroji šifrování (Shannon 1948) říká, že:

N náhodná proměnná s entropií H ( X ) může být komprimována do více než NH  ( X ) bitů se zanedbatelným rizikem ztráty dat, pokud N jde do nekonečna, ale pokud je komprese menší než N H ( X ) bitů, pak s největší pravděpodobností dojde ke ztrátě dat. (MacKay 2003). 

Věta o zdroji šifrování pro kódy znaků

Nechť , označí dvě konečné abecedy a nechť a označí množinu všech konečných slov z těchto abeced (uspořádaných).

Předpokládejme, že X je náhodná proměnná, která nabývá hodnoty od , a f je dešifrovatelný kód od do , kde . Nechť S představuje náhodnou veličinu danou délkou slova f ( X ).

Pokud je f optimální v tom smyslu, že má minimální délku slova pro X , pak

(Shannon 1948).

Důkaz věty o zdroji šifrování

Vzhledem k tomu , že se jedná o NOR, jeho časová řada X 1 , …, X n je také NOR s entropií H ( X ) v případě diskrétních hodnot as diferenciální entropií v případě spojitých hodnot. Věta o zdroji šifrování říká, že pro každý, pro každý odhad větší než entropie zdroje, existuje dostatečně velké n a šifrovač, který bere n NOP kopií zdroje , , , a mapuje jej na binární bity takovým způsobem. že původní znak lze obnovit z binárních bitů, X s pravděpodobností alespoň .

Důkaz

Vezměme si nějaké . vzorec pro, , vypadá takto:

AEP ukazuje, že pro dostatečně velké n je sekvence generovaná ze zdroje nespolehlivá v typickém případě - , konvergentní. V případě dostatečně velké: n , (viz AEP)

Z definice typických množin vyplývá, že posloupnosti, které leží v typické množině, splňují:

Všimněte si, že:

více než

K rozlišení libovolného řetězce stačí začít bity

Šifrovací algoritmus: kodér zkontroluje, zda je příchozí sekvence nepravdivá, pokud ano, vrátí index příchozí frekvence v sekvenci, pokud ne, vrátí náhodné číslo. číselná hodnota. Pokud je vstupní pravděpodobnost nesprávná v sekvenci (s frekvencí asi ), pak kodér negeneruje chybu. To znamená, že pravděpodobnost chyby je vyšší než

Důkaz vratnosti Důkaz vratnosti je založen na skutečnosti, že je třeba prokázat, že pro jakoukoli posloupnost o velikosti menší než (ve smyslu exponentu) pokryje frekvenci posloupnosti ohraničené 1.

Důkaz teorému o zdroji šifrování pro kódy znaků

Nechť slovo délka pro každou možnou ( ). Definujme , kde C je zvoleno tak, že: .

Pak

kde druhý řádek je Gibbsova nerovnost a pátý řádek je Kraftova nerovnost , .

pro druhou nerovnost můžeme nastavit

tak

a pak

a

Minimální S tedy vyhovuje

Poznámky