V teorii informace nastavuje Shannonova věta o zdroji šifrování (nebo věta o tichém šifrování) limit maximální komprese dat a číselnou hodnotu Shannonovy entropie .
Věta ukazuje, že (když má množství dat tendenci k nekonečnu v proudu nezávisle a rovnoměrně distribuovaných (IED) náhodných proměnných), není možné komprimovat data tak, aby odhad kódu (průměrný počet bitů na symbol) byl menší než Shannonova entropie původních dat bez ztráty přesnosti informací. Je však možné získat kód blízký Shannonově entropii bez výrazných ztrát.
Věta o zdroji šifrování pro kódy znaků přináší horní a dolní mez minimální možné délky zašifrovaných slov jako funkci entropie vstupního slova (které je reprezentováno jako náhodná veličina) a velikosti požadované abecedy.
Zdrojový kód je mapování (sekvence) z úložiště informací do sekvence abecedních znaků (obvykle bitů), takže zdrojový znak lze jednoznačně získat z binárních číslic (bezeztrátový zdroj kódování) nebo získat s určitým rozdílem (zdroj se ztrátovým kódováním) . To je myšlenka komprese dat.
V informatice teorém o zdroji šifrování (Shannon 1948) říká, že:
N náhodná proměnná s entropií H ( X ) může být komprimována do více než NH ( X ) bitů se zanedbatelným rizikem ztráty dat, pokud N jde do nekonečna, ale pokud je komprese menší než N H ( X ) bitů, pak s největší pravděpodobností dojde ke ztrátě dat. (MacKay 2003).Nechť , označí dvě konečné abecedy a nechť a označí množinu všech konečných slov z těchto abeced (uspořádaných).
Předpokládejme, že X je náhodná proměnná, která nabývá hodnoty od , a f je dešifrovatelný kód od do , kde . Nechť S představuje náhodnou veličinu danou délkou slova f ( X ).
Pokud je f optimální v tom smyslu, že má minimální délku slova pro X , pak
(Shannon 1948).
Vzhledem k tomu , že se jedná o NOR, jeho časová řada X 1 , …, X n je také NOR s entropií H ( X ) v případě diskrétních hodnot as diferenciální entropií v případě spojitých hodnot. Věta o zdroji šifrování říká, že pro každý, pro každý odhad větší než entropie zdroje, existuje dostatečně velké n a šifrovač, který bere n NOP kopií zdroje , , , a mapuje jej na binární bity takovým způsobem. že původní znak lze obnovit z binárních bitů, X s pravděpodobností alespoň .
Důkaz
Vezměme si nějaké . vzorec pro, , vypadá takto:
AEP ukazuje, že pro dostatečně velké n je sekvence generovaná ze zdroje nespolehlivá v typickém případě - , konvergentní. V případě dostatečně velké: n , (viz AEP)
Z definice typických množin vyplývá, že posloupnosti, které leží v typické množině, splňují:
Všimněte si, že:
více než
K rozlišení libovolného řetězce stačí začít bity
Šifrovací algoritmus: kodér zkontroluje, zda je příchozí sekvence nepravdivá, pokud ano, vrátí index příchozí frekvence v sekvenci, pokud ne, vrátí náhodné číslo. číselná hodnota. Pokud je vstupní pravděpodobnost nesprávná v sekvenci (s frekvencí asi ), pak kodér negeneruje chybu. To znamená, že pravděpodobnost chyby je vyšší než
Důkaz vratnosti Důkaz vratnosti je založen na skutečnosti, že je třeba prokázat, že pro jakoukoli posloupnost o velikosti menší než (ve smyslu exponentu) pokryje frekvenci posloupnosti ohraničené 1.
Nechť slovo délka pro každou možnou ( ). Definujme , kde C je zvoleno tak, že: .
Pak
kde druhý řádek je Gibbsova nerovnost a pátý řádek je Kraftova nerovnost , .
pro druhou nerovnost můžeme nastavit
tak
a pak
a
Minimální S tedy vyhovuje