Simpsonův paradox (také Yule-Simpsonův paradox nebo paradox unie ) je efekt, fenomén ve statistice, kdy za přítomnosti dvou skupin dat, z nichž každá existuje stejně řízená závislost, jsou tyto skupiny kombinovány , směr závislosti se změní na opačný.
Tento jev popsal Simpson v roce 1951 a Yule v roce 1903 Název „Simpsonův paradox“ poprvé navrhl Colin Blythe v roce 1972 . Nicméně, protože Simpson nebyl objevitelem tohoto efektu, někteří autoři používají neosobní jména takový jak “ paradox odboru ”.
Poprvé uvažovanou situaci zaznamenal Karl Pearson v článku „Matematický příspěvek k teorii evoluce“ [1] . Uvažuje o závislosti znaků heterogenních skupin koní. Udny Yule provádí podrobnější analýzu takových populačních změn a studuje mechanismy dědičnosti. Simpson diskutuje o tom, co nazývá „kuriozní případ“ v několika částech článku „Výklad interakce v kontingenčních tabulkách“ [2] . Simpson byl prvním autorem, který tento fenomén zkoumal z hlediska statistik. Proto pozdější matematik K. R. Blythe v článku „On Simpson's Paradox and the Sure-Thing Principle“ [3] zavádí pojem „Simpsonův paradox“.
Nechť jsou čtyři klobouky (dva černé a dva šedé), 41 žetonů (23 barevných a 18 bílých) a dva stoly (A a B). Čipy jsou distribuovány pomocí klobouků takto:
Řekněme, že chcete nakreslit barevný čip.
Pokud jste blízko stolu A, pak pravděpodobnost vytažení barevného žetonu z černého klobouku je 5/11 = 35/77 az šedého klobouku na stejném stole - 3/7 = 33/77 ; barevný čip je tedy pravděpodobněji vytažen z černého klobouku než z šedého.
Pokud jste blízko stolu B, pak pravděpodobnost vytažení barevného žetonu z černého klobouku je 6/9 = 84/126 az šedého klobouku - 9/14 = 81/126 ; i zde je tedy pravděpodobnější, že barevný žeton bude vytažen z černého klobouku než z klobouku šedého.
Předpokládejme nyní, že žetony ze dvou černých klobouků jsou naskládány do jednoho černého klobouku a žetony ze dvou šedých klobouků jsou naskládány do jednoho šedého klobouku. Na první pohled by bylo logické předpokládat, že pravděpodobnost vytažení barevného žetonu z černého klobouku je vyšší než z šedého. Ale tohle je špatně:
to znamená, že existuje větší šance na získání barevného čipu z šedého klobouku než z černého [4] .
Předpokládejme, že máme čtyři sady kamenů. Pravděpodobnost vytažení černého kamene ze sady č. 1 je vyšší než ze sady č. 2. Pravděpodobnost vytažení černého kamene ze sady č. 3 je zase větší než ze sady č. 4. Kombinujte sadu č. 1 se sadou č. 3 (dostaneme sadu I) a sadu #2 se sadou #4 (sada II). Intuitivně by se dalo očekávat, že pravděpodobnost vytažení černého kamene ze sady I bude vyšší než ze sady II. Toto tvrzení však v obecném případě neplatí.
Opravdu, nechť je počet černých kamenů v -té sadě (vzorku), je celkový počet kamenů v -té sadě s . Podle podmínky:
Pravděpodobnost vytažení černého kamene ze sad I a II:
Výraz pro množinu I není vždy větší než výraz pro množinu II; to znamená, že se to může stát
Například v . Je snadné to ověřit . Zatímco .
Důvodem paradoxu je nesprávné zprůměrování dvou datových souborů s různým podílem kontrolních pozorování ( nereprezentativní výběr ). Jelikož se intuitivně předpokládá, že při aplikaci nalezených závislostí bude podíl kontroly stejný v obou skupinách, a to ve výchozích datech neplatí, nelze na ně aritmetický průměr aplikovat.
Pro odstranění problému je při průměrování nutné použít závaží, která eliminují šikmost kontrolního dílu. Takže v příkladu s žetony je podíl žetonů šedého klobouku na stole A 7 z 18 (39 %) a na stole B je to 14 z 23 (61 %).
K reprezentativnímu zprůměrování šance na vytažení barevného žetonu stačí vynásobit počet žetonů obou barev v jednom z klobouků váhovým faktorem, který eliminuje šikmost. Pokud se například místo jednoho šedého klobouku na stůl A umístí dva stejné klobouky, pak se pravděpodobnosti pro každý stůl zvlášť nezmění, ale při kombinování tabulek bude eliminován paradox: pravděpodobnost barevného žetonu v šedý klobouk bude 15/28, to znamená méně než černý.
Dalším způsobem, jak vyřešit paradox, je použít vzorec celkové pravděpodobnosti .
Simpsonův paradox ukazuje, že závěry z výsledků sociologických průzkumů s nereprezentativním vzorkem nelze přijmout jako nevyvratitelné, vědecky prokázané.
Simpsonův paradox ilustruje neplatnost zobecnění z nereprezentativních vzorků, někdy život ohrožujících. Takže například v průběhu experimentu na skupině mužů a skupině žen se stejným onemocněním byl ke standardní léčbě přidán nový lék. Výsledek pro obě skupiny samostatně potvrdil účinnost nového prostředku.
Muži | Užívání léků | Neužívám léky |
---|---|---|
zotavil | 700 | 80 |
Neobnoveno | 800 | 130 |
Poměr | 0,875 | 0,615 |
Ženy | Užívání léků | Neužívám léky |
---|---|---|
zotavil | 150 | 400 |
Neobnoveno | 70 | 280 |
Poměr | 2,142 | 1,429 |
Intuitivně se předpokládá, že pokud existuje závislost v obou skupinách, měla by se objevit i při spojení těchto skupin. Ale ačkoli poměr uzdravených a nemocných mezi ženami i muži, kteří drogu užili, je větší než mezi těmi, kteří ji neužívali, kvůli nereprezentativnosti kontrolní skupiny v agregovaných datech tento vzorec nepřetrvává.
Součet | Užívání léků | Neužívám léky |
---|---|---|
zotavil | 850 | 480 |
Neobnoveno | 870 | 410 |
Poměr | 0,977 | 1,171 |
Poměr v agregovaných datech je 850/870<480/410, tj. 0,977<1,171. Proto podíl těch, kteří drogu užili, byl menší než stejný podíl mezi těmi, kteří drogu neužívali.
Pro odstranění paradoxu je třeba poznamenat, že poměr kontrolní skupiny k léčebné skupině se ve výše uvedených skupinách výrazně liší: u mužů je to (80+130)/(700+800) = 14 % a u žen ( 400+280)/(150+ 70) = 309 %.
Pro správné průměrování je nutné zajistit reprezentativnost kontrolní skupiny v obou vzorcích zavedením váhových koeficientů tak, aby byl vážený podíl kontrol v obou skupinách stejný. V tomto případě stačí vynásobit počet mužů, kteří neužívali léky, váhovým faktorem 22,07. Upravené tabulky budou vypadat takto:
Muži | hostované
lék |
Neužívám léky | |
---|---|---|---|
počáteční | s hmotností x22,07 | ||
zotavil | 700 | 80 | 1765 |
Neobnoveno | 800 | 130 | 2869 |
Poměr | 0,875 | 0,615 |
Součet | hostované
lék |
Neužívám léky | |
---|---|---|---|
počáteční | s hmotností x22,07 | ||
zotavil | 850 | 480 | 2165 |
Neobnoveno | 870 | 410 | 3149 |
Poměr | 0,977 | 1,171 | 0,685 |
Poměr váženého počtu uzdravených a neuzdravených mezi těmi, kteří lék neužívali, bude v tomto případě 0,685, tedy nižší než u těch, kteří lék užívali. To odstraňuje paradox a ukazuje poměr uzdravených a neuzdravených bez drogy u stejného podílu mužů a žen jako těch, kteří drogu užili, což umožňuje tato čísla porovnat.