Informační entropie

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 17. ledna 2020; kontroly vyžadují 35 úprav .

Informační entropie  je mírou nejistoty určitého systému (ve statistické fyzice nebo teorii informace ), zejména nepředvídatelnosti vzhledu jakéhokoli znaku primární abecedy . V druhém případě, při absenci ztráty informace, je entropie číselně rovna množství informace na symbol přenášené zprávy.

Například v posloupnosti písmen, které tvoří větu v ruštině, se objevují různá písmena s různou frekvencí , takže nejistota výskytu u některých písmen je menší než u jiných. Pokud vezmeme v úvahu, že některé kombinace písmen (v tomto případě hovoří o entropii -tého řádu, viz níže ) jsou velmi vzácné, pak se nejistota ještě sníží.

Formální definice

Informační binární entropie se při absenci ztráty informace vypočítá pomocí Hartleyho vzorce :

,

kde  je síla abecedy,  je množství informací v každém symbolu zprávy. Pro náhodnou proměnnou , která nabývá nezávislých náhodných hodnot s pravděpodobnostmi ( ), se Hartleyho vzorec změní na Shannonův vzorec:

Tato veličina se také nazývá průměrná entropie zprávy . Veličina se nazývá parciální entropie , která charakterizuje pouze stav -e.

Entropie systému je tedy součet s opačným znaménkem všech relativních četností výskytu stavu (události) s číslem , vynásobený jejich binárními logaritmy [1] . Tato definice pro jednotlivé náhodné události může být formálně rozšířena na spojitá rozdělení daná rozdělením hustoty pravděpodobnosti , nicméně výsledný funkcionál bude mít mírně odlišné vlastnosti (viz diferenciální entropie ).

Obecně může být základ logaritmu v definici entropie cokoli větší než 1 (protože abeceda sestávající pouze z jednoho znaku nemůže předávat informace); volba základu logaritmu určuje jednotku entropie. Pro informační systémy založené na binární číselné soustavě je měrnou jednotkou informační entropie (ve skutečnosti informace) bit . V problémech matematické statistiky může být výhodnější použít přirozený logaritmus , v takovém případě je jednotkou informační entropie nat .

Shannonova definice

Claude Shannon navrhl, že informační zisk se rovná ztracené nejistotě, a stanovil požadavky na její měření:

  1. opatření musí být nepřetržité; to znamená, že změna hodnoty pravděpodobnosti o malou hodnotu by měla způsobit malou čistou změnu funkce;
  2. v případě, kdy jsou všechny možnosti (písmena ve výše uvedeném příkladu) stejně pravděpodobné, zvýšení počtu možností (písmen) by mělo vždy zvýšit hodnotu funkce;
  3. mělo by být možné provést volbu (v našem příkladu písmena) ve dvou krocích, ve kterých by hodnota funkce konečného výsledku měla být součtem funkcí mezivýsledků.[ vyčistit ]

Proto musí funkce entropie splňovat podmínky

  1. je definován a spojitý pro všechny , kde pro všechny a . (Tato funkce závisí pouze na rozdělení pravděpodobnosti, nikoli na abecedě.)
  2. Pro kladná celá čísla musí platit následující nerovnost:
  3. Pro kladná celá čísla , kde , musí platit rovnost

Shannon ukázal [2] , že jediná funkce, která splňuje tyto požadavky, je

kde  je kladná konstanta (a je skutečně potřeba pouze k výběru jednotky entropie; změna této konstanty je ekvivalentní změně základu logaritmu).

Shannon zjistil, že měření entropie ( ) aplikované na zdroj informací může určit minimální požadavky na šířku pásma potřebné pro spolehlivý přenos informací ve formě kódovaných binárních čísel. Pro odvození Shannonova vzorce je nutné vypočítat matematické očekávání „množství informací“ obsažených na obrázku ze zdroje informací. Shannonova míra entropie vyjadřuje nejistotu realizace náhodné veličiny. Entropie je tedy rozdíl mezi informací obsaženou ve zprávě a tou částí informace, která je ve zprávě přesně známá (nebo vysoce předvídatelná). Příkladem toho je redundance jazyka  – existují jasné statistické vzorce ve vzhledu písmen, dvojice po sobě jdoucích písmen, trojice atd. (viz Markovovy řetězce ).

Definice Shannonovy entropie souvisí s konceptem termodynamické entropie . Boltzmann a Gibbs udělali mnoho práce na statistické termodynamice, což přispělo k přijetí slova „entropie“ v teorii informace. Mezi termodynamickou a informační entropií existuje souvislost. Například Maxwellův démon také staví do kontrastu termodynamickou entropii informací a získání jakéhokoli množství informací se rovná ztracené entropii.

Definice pomocí vlastních informací

Je také možné určit entropii náhodné veličiny tak, že nejprve zavedeme koncept rozdělení náhodné veličiny s konečným počtem hodnot: [3]

a vlastní informace :

Potom je entropie definována jako:

Jednotky informační entropie

Jednotka měření množství informace a entropie závisí na bázi logaritmu: bit , nat , trit nebo hartley .

Vlastnosti

Entropie je veličina definovaná v kontextu pravděpodobnostního modelu pro zdroj dat . Například hod mincí má entropii:

bitů na hod (za předpokladu, že je nezávislý) a počet možných stavů se rovná: možným stavům (hodnotám) („hlavy“ a „ ocasy “).

Pro zdroj, který generuje řetězec sestávající pouze z písmen "A", je entropie nula: a počet možných stavů je: možný stav (hodnota) ("A") a nezávisí na bázi logaritmus. To je také informace, kterou je třeba také vzít v úvahu. Příkladem paměťových zařízení , která používají bity s entropií rovnou nule, ale s množstvím informací rovným jednomu možnému stavu , to znamená, že se nerovná nule, jsou datové bity zaznamenané v ROM , kde každý bit má pouze jeden možný stát .

Například lze empiricky stanovit, že entropie anglického textu je 1,5 bitu na znak, což se bude u různých textů lišit. Stupeň entropie zdroje dat znamená průměrný počet bitů na datový prvek potřebný pro jejich (dat) šifrování bez ztráty informace, s optimálním kódováním.

  1. Některé datové bity nemusí nést informace. Například datové struktury často ukládají redundantní informace nebo mají identické sekce bez ohledu na informace v datové struktuře.
  2. Množství entropie není vždy vyjádřeno jako celý počet bitů.

Matematické vlastnosti

  1. Nezápornost : .
  2. Omezenost : , která vyplývá z Jensenovy nerovnosti pro konkávní funkci a . Pokud jsou všechny prvky z stejně pravděpodobné, .
  3. Pokud nezávislá, tak .
  4. Entropie je směrem nahoru konvexní funkce rozdělení pravděpodobnosti prvků.
  5. Pokud mají stejné rozdělení pravděpodobnosti prvků, pak .

Účinnost

Abeceda může mít rozdělení pravděpodobnosti, které není zdaleka jednotné . Pokud původní abeceda obsahuje znaky, pak ji lze přirovnat k „optimalizované abecedě“, jejíž rozdělení pravděpodobnosti je rovnoměrné. Poměr entropie původní a optimalizované abecedy je účinnost původní abecedy, kterou lze vyjádřit v procentech. Účinnost původní symbolické abecedy lze také definovat jako její -ary entropii.

Entropie omezuje maximální možnou bezeztrátovou (nebo téměř bezeztrátovou) kompresi, kterou lze realizovat pomocí teoreticky typické sady nebo v praxi Huffmanova kódování , Lempel-Ziv-Welchova kódování nebo aritmetického kódování .

Variace a zobecnění

b -ary entropie

Obecně platí, že b - ární entropie (kde b je 2, 3, …) zdroje s počáteční abecedou a diskrétním rozdělením pravděpodobnosti , kde je pravděpodobnost ( ) je dána vztahem:

Zejména, když , dostaneme obvyklou binární entropii, měřenou v bitech . Pomocí dostaneme trinární entropii měřenou v tritech (jeden trit má informační zdroj se třemi ekvipravděpodobnými stavy). Když získáme informace měřené v natech .

Podmíněná entropie

Není-li pořadí znaků abecedy nezávislé (např. ve francouzštině po písmenu „q“ téměř vždy následuje „u“ a za slovem „peredovik“ v sovětských novinách slovo „výroba“, resp. „práce“ byla obvykle sledována), množství informací nesoucích sled takových symbolů (a tedy i entropie) je menší. K vysvětlení takových skutečností se používá podmíněná entropie.

Podmíněná entropie prvního řádu (podobně jako Markovův model prvního řádu) je entropie pro abecedu, kde jsou známy pravděpodobnosti výskytu jednoho písmene za druhým (tj. pravděpodobnosti dvoupísmenných kombinací) :

kde  je stav závislý na předchozím znaku a  je daná pravděpodobnost , že byl předchozí znak.

Například pro ruský jazyk bez písmene „e“ [4] .

Pokud jde o privátní a obecné podmíněné entropie, ztráty informací jsou zcela popsány během přenosu dat v hlučném kanálu. K tomu se používají tzv. kanálové matice . Chcete-li popsat ztrátu na straně zdroje (tj. vysílaný signál je znám), zvažte podmíněnou pravděpodobnost přijetí symbolu přijímačem za předpokladu, že byl symbol odeslán . V tomto případě má kanálová matice následující tvar:

Pravděpodobnosti umístěné podél úhlopříčky popisují pravděpodobnost správného příjmu a součet všech prvků libovolné řady dává 1. Ztráty na přenášený signál jsou popsány pomocí částečné podmíněné entropie:

K výpočtu ztráty přenosu všech signálů se používá celková podmíněná entropie:

znamená entropii ze strany zdroje,  entropie ze strany příjemce je uvažována podobně: místo toho je uvedena všude (sečtením prvků řetězce můžete získat , a prvky úhlopříčky znamenají pravděpodobnost, že přesně znak která byla přijata byla odeslána, tj. pravděpodobnost správného přenosu).

Vzájemná entropie

Vzájemná entropie nebo sjednocovací entropie je určena k výpočtu entropie propojených systémů (entropie společného výskytu statisticky závislých zpráv) a označuje se , kde charakterizuje vysílač a  - přijímač.

Vztah vysílaných a přijímaných signálů je popsán pravděpodobnostmi společných událostí a pro úplný popis charakteristik kanálu je zapotřebí pouze jedna matice:

Pro obecnější případ, kdy není popsán kanál, ale interagující systémy jako celek, matice nemusí být čtvercová. Součet všech prvků sloupce s číslem dává , součet řádku s číslem je a součet všech prvků matice je ​​1. Společná pravděpodobnost událostí a je vypočtena jako součin počáteční a podmíněné pravděpodobnosti:

Podmíněné pravděpodobnosti jsou vytvářeny Bayesovým vzorcem . Existují tedy všechna data pro výpočet entropie zdroje a přijímače:

Vzájemná entropie se vypočítá postupným řádkovým (nebo sloupcovým) součtem všech pravděpodobností matic vynásobených jejich logaritmem:

Jednotkou měření je bit / dva znaky, protože vzájemná entropie popisuje nejistotu pro dvojici znaků: odeslaný a přijatý. Jednoduchými transformacemi také získáme

Vzájemná entropie má vlastnost informační úplnosti  – lze z ní získat všechny uvažované veličiny.

Historie

V roce 1948, když Claude Shannon zkoumal problém racionálního přenosu informací hlučným komunikačním kanálem, navrhl revoluční pravděpodobnostní přístup k pochopení komunikace a vytvořil první skutečně matematickou teorii entropie . Jeho senzační myšlenky rychle posloužily jako základ pro rozvoj dvou hlavních oblastí: teorie informace , která využívá koncept pravděpodobnosti a ergodické teorie ke studiu statistických charakteristik datových a komunikačních systémů, a teorie kódování , která využívá především algebraické a geometrické nástroje. k vývoji efektivních kódů.

Koncept entropie jako míry náhodnosti zavedl Shannon ve svém článku „ A Mathematical Theory of Communication “ , publikovaném ve dvou částech v Bell System Technical Journal v roce 1948.  

Poznámky

  1. Tato reprezentace je vhodná pro práci s informacemi prezentovanými v binární formě; obecně může být základ logaritmu odlišný.
  2. Shannon, Claude E. A Mathematical Theory of Communication  (nespecifikováno)  // Bell System Technical Journal. - 1948. - Červenec ( roč. 27 , č. 3 ). - S. 419 . - doi : 10.1002/j.1538-7305.1948.tb01338.x .
  3. Gabidulin E. M. , Pilipchuk N. I. Přednášky z teorie informace - MIPT , 2007. - S. 16. - 214 s. — ISBN 978-5-7417-0197-3
  4. Lebedev D.S., Garmash V.A. O možnosti zvýšení rychlosti přenosu telegrafních zpráv. - M .: Electrosvyaz, 1958. - č. 1. - S. 68-69.

Viz také

Odkazy

Literatura