Berksonův paradox , collider error - pozice matematické statistiky , formulovaný J. Berksonem ( anglicky Joseph Berkson ) v roce 1946. Prohlášení: Dvě nezávislé události se mohou stát podmíněně závislými, pokud dojde k nějaké třetí události . Tento závěr je pro některé lidi kontraintuitivní , a proto jej lze označit za paradox . Třetí událost, která může učinit první dvě události podmíněně závislými, se nazývá collider . Berksonův paradox je často popisován v oblasti lékařské statistiky nebo biostatistiky . Je to komplikující faktor, který se objevuje ve statistických testech poměrových ukazatelů.
Stejný paradox je zmíněn v teorii umělých neuronových sítí jako pomíjivé vysvětlení , ospravedlnění efektu nebo redukce příčiny ( anglicky vysvětlující pryč ) [1] [2] .
Prozkoumáme statistiku náhodného výběru poštovních známek ze sady s ohledem na dvě nezávislé vlastnosti známky: „vzácnost“ a „krása“.
Předpokládejme, že existuje 1000 známek, z nichž 300 je krásných, 100 vzácných a 30 krásných a vzácných. Je zřejmé, že z celého souboru je 10% známek vzácných, ale ze všech krásných známek je vzácných také 10%, to znamená, že krása známky nic nevypovídá o její vzácnosti.
Pokud však vybereme z celého souboru (1000) všechny krásné známky a všechny vzácné známky (takových je 370), tak v tomto vzorku vzácných známek bude již 27 % (100 z 370), ale mezi krásných známek tam bude stále jen 10 % (30 z 300). Pak pozorovatel při analýze takového vzorku (a ne celého souboru) uvidí zjevný inverzní vztah mezi krásou a vzácností značky (pokud je značka krásná, pak je pravděpodobnost její vzácnosti nižší). Ve skutečnosti ale takové spojení neexistuje.
Popsaný výsledek je matematicky zcela správný, jeho „paradoxnost“ je spojena se zvláštnostmi vnímání lidí, kteří mají sklon intuitivně věřit, že jsou-li dva parametry nezávislé, zůstávají tak v jakémkoli vzorku. Ve skutečnosti v případě výběrového zkreslení mezi nezávislými parametry mohou vznikat podmíněné závislosti, které při rozšíření na celou populaci vedou k hrubým chybám v analýze.
Nechť je dána nejjednodušší Bayesovská umělá neuronová síť s esovitou aktivační funkcí obsahující dvě nezávislé události (důvody), pro které dojde ke třetí události - dům se otřese. Zkreslení -10 v neuronu události zemětřesení znamená, že při absenci pozorování a apriorních znalostí je mnohem pravděpodobnější, že k této události nedojde, než že k ní dojde. Pokud dojde k zemětřesení, ale nenastane žádná událost kamionu, pak neuron události otřesu domu má celkový vstup 0, což znamená, že pravděpodobnost výskytu události (tj. aktivace neuronu) je 0,5. Pokud tedy máme pozorování události „dům se třese“, pak je nejlepším vysvětlením této skutečnosti výskyt jedné z příčin události. Je však nelogické předpokládat, že pro vysvětlení události otřesení domu došlo k oběma příčinným událostem najednou, protože pravděpodobnost jejich současného výskytu je rovna . Pokud tedy pozorujeme jak otřesy domu, tak víme, co se stalo, například událost způsobující zemětřesení, pak to vyloučí vysvětlení ( vysvětlí , sníží příčinu), že za otřesy může nákladní automobil [3 ] .