Černovův odhad poskytuje exponenciálně klesající odhady pravděpodobnosti velkých odchylek součtů nezávislých náhodných veličin . Tyto odhady jsou přesnější než odhady získané pomocí prvního nebo druhého momentu, jako je Markovova nerovnost nebo Čebyševova nerovnost , které dávají pouze mocninný klesající zákon . Černovův odhad zároveň vyžaduje, aby náhodné veličiny byly v souhrnu nezávislé , což je podmínka, kterou Markovova ani Čebyševova nerovnost nevyžaduje, ačkoli Čebyševova nerovnost vyžaduje párovou nezávislost na náhodných veličinách.
Černovův odhad souvisí s Bernsteinovými nerovnostmi a Höfdingovou nerovností , které mu historicky předcházejí.
Hlavní případ Černovova odhadu pro náhodnou veličinu je dosažen aplikací Markovovy nerovnosti na e tX [1] . Pro každého
Když X je součet n náhodných proměnných X 1 , ... , X n , pro libovolné
Dostaneme zejména optimalizaci s ohledem na t a za předpokladu, že X i jsou nezávislé
(jeden)Podobně
a tudíž,
Konkrétní hodnoty Černovových odhadů se získávají výpočtem pro konkrétní veličiny .
Nechť X 1 , ..., X n jsou nezávislé Bernoulliho náhodné proměnné , jejichž součet je X a každá je s pravděpodobností rovna 1 . Pro Bernoulliho proměnnou platí následující:
Tudíž,
Pro jakékoli a získáme
,a obecný případ Chernoffova odhadu dává [2] :64
Pravděpodobnost současného výskytu více než n /2 událostí { X k = 1 } je přesně rovna:
Spodní odhad této pravděpodobnosti lze vypočítat pomocí Chernoffovy nerovnosti:
Ve skutečnosti, označíme -li μ = np , dostaneme multiplikativní formu Chernoffova odhadu (viz níže nebo důsledek 13.3 v poznámkách ke třídě Sinclaira) [3] :
Tento výsledek připouští různá zobecnění, jak je uvedeno níže. Lze zaznamenat několik forem Chernoffových odhadů: původní aditivní formu (udává odhad absolutní chyby ) nebo praktičtější multiplikativní formu (omezuje chybu s ohledem na průměr).
Následující větu dokázal Wassily Hoefding [4] .
Černovova-Hoefdingova věta . Nechť X 1 , ..., X n jsou nezávislé identicky rozdělené náhodné proměnné nabývající hodnot {0, 1}. Nechť p = E[ X ] a ε > 0 . Pak kde Toto je Kullback-Leibler divergence mezi náhodnými proměnnými, které mají Bernoulliho rozdělení s parametry x a y . Pokud p ≥jeden2, pakJednodušší odhad získáme oslabením této věty pomocí nerovnosti D ( p + ε || p ) ≥ 2 ε 2 , která vyplývá z konvexity D ( p + ε || p ) a skutečnosti , že
Tento výsledek je speciální případ Hoefdingovy nerovnosti . V některých případech se používají odhady
silnější pro p <jedenosm.
Podobným způsobem lze ukázat, že pro všechny
V praxi se výše uvedený vzorec často ukazuje jako těžkopádný [2] , proto se používají slabší, ale pohodlné odhady
které jsou získány pomocí nerovnosti ze seznamu logaritmických nerovností [5] . Nebo ještě slabší nerovnost
Černovovy odhady mají uplatnění při vyvažování množin a směrování paketů v řídkých sítích.
Problém vyvažování množin vzniká při návrhu statistického experimentu . Při navrhování statistického experimentu s vlastnostmi účastníků uvedenými v tomto experimentu obvykle potřebujeme rozdělit účastníky do dvou nepřekrývajících se skupin tak, aby každá vlastnost byla mezi těmito dvěma skupinami co nejvyváženější. Viz také Probability and Computing: Randomized Algorithms and Probabilistic Analysis Archived 16. dubna 2021 na Wayback Machine .
Chernoffovy odhady se také používají k dosažení pevných hranic v problémech směrování pomocí permutací. To snižuje zahlcení směrováním v řídkých sítích. Více viz Pravděpodobnost a výpočetní technika: Randomizované algoritmy a pravděpodobnostní analýza archivované 16. dubna 2021 na Wayback Machine .
Chernoffovy odhady se také používají v teorii výpočetního učení k prokázání, že algoritmus učení je přibližně správný z hlediska pravděpodobnosti . To znamená, že s vysokou pravděpodobností má tento algoritmus malou chybu na dostatečně velkém souboru trénovacích dat [6] .
Chernoffova skóre lze efektivně použít k vyhodnocení „ úrovně robustnosti “ aplikace/algoritmu zkoumáním jejího poruchového prostoru pomocí randomizace. [7]
Rudolf Ahlswede a Andreas Winter použili Chernoffovy odhady pro náhodné proměnné s maticovými hodnotami. [8] Další verzi nerovnosti lze nalézt v Troppově díle. [9]
Nechť M 1 , ..., M t jsou náhodné veličiny s maticovými hodnotami takovými, že a . Označte maticový normový operátor . Pokud nerovnost téměř jistě platí pro všechny , pak pro každé ε > 0
Abychom dospěli k závěru, že odchylka od 0 je s vysokou pravděpodobností ohraničena ε , musíme zvolit (počet vzorků) úměrný logaritmu . V obecném případě není závislost na zřejmá: vezměte například diagonální náhodnou matici znaků dimenze . Součet operátoru nezávislého vzorku normy je přesně maximální odchylka mezi nezávislými náhodnými procházkami délky . Aby bylo dosaženo pevné hranice maximální odchylky s konstantní pravděpodobností, musí se logaritmicky zvyšovat s . [deset]
Následující věta je odvozena za předpokladu, že má nízkou úroveň, aby se zabránilo závislosti na rozměrech.
Nechť 0 < ε < 1 a je náhodná symetrická reálná matice s téměř jistotou. Předpokládejme, že každý nosný prvek má hodnotu nejvýše . Položme
Pokud téměř jistě, tak ano
kde M 1 , ..., M t jsou nezávislé identicky distribuované kopie .
Ankit Garg, Yin Tat Lee, Zhao Song a Nikhil Srivastava [11] získali odhady Chernoffova typu pro součty náhodných proměnných s hodnotou matice odebraných pomocí expandéru náhodné procházky .
Rasmus King a Zhao Song [12] získali odhady typu Chernov pro součty laplaciánských matic náhodných stromů.
Následující verzi Chernoffova odhadu lze použít k odhadu pravděpodobnosti, že se většina populace stane ve vzorku menšinou a naopak. [13]
Předpokládejme, že existuje obecná populace a subpopulace . Označme relativní velikost subpopulace ( ) pomocí .
Řekněme, že zvolíme celočíselný sour a náhodný vzorek velikosti . Označme relativní velikost subpopulace ( ) pomocí .
Pak pro každé sdílení :
Konkrétně, pokud je ─ většina v (tj. ), pak můžeme shora odhadnout pravděpodobnost, že zůstane většinou v braní [14] :
Tento odhad samozřejmě není přesný. Například, jestliže , pak dostaneme triviální odhad .
Nechť q = p + ε . Vezmeme-li a = nq ve vzorci (1) , dostaneme:
Nyní, když víme, že Pr( X i = 1) = p , Pr( X i = 0) = 1 − p , máme
Takže můžeme snadno vypočítat minimum pomocí techniky diferenciace:
Když výsledný výraz vyrovnáme nule a vyřešíme rovnici vzhledem k , dostaneme
tak
Tudíž,
Protože q = p + ε > p , vidíme, že t > 0 , takže našemu odhadu vyhovuje t . Jakmile máme t , můžeme se vrátit k předchozím rovnicím a najít
Nyní máme požadovaný výsledek, protože
Abychom dokončili důkaz v symetrickém případě, jednoduše definujeme náhodnou veličinu Y i = 1 − X i , aplikujeme na ni přesně stejný důkaz a výsledek přidáme k našemu odhadu.
Nechť Pr( X i = 1) = p i . Podle vzorce (1 )
Třetí řádek vyplývá z toho, že nabývá hodnoty e t s pravděpodobností p i a hodnoty 1 s pravděpodobností 1 − p i . To je totožné s výpočty výše v důkazu aditivní formy.
Přepíšeme jako a zapamatujeme si to (pokud x > 0 , pak je nerovnost striktní), nastavíme . Stejného výsledku lze získat přímým nahrazením a v Chernoffově odhadu za (1 + δ ) μ . [patnáct]
Takto,
Pokud dáme t = ln(1 + δ ) , takže t > 0 pro δ > 0 , pak to můžeme zapojit do posledního výrazu a najít
,Q.E.D.