Zavádějící proměnná

Matoucí proměnná, matoucí faktor, matoucí faktor,  je proměnná ve statistice, která ovlivňuje závislé i nezávislé proměnné , což má za následek falešný vztah . Zapletení je kauzální koncept, prvek kauzálního modelu a jako takový jej nelze popsat pomocí korelací nebo asociací [1] [2] [3] . Confounders jsou jedním z typů proměnných v kauzální analýze spolu s moderátory , mediátory a kolidéry [4] [5] [6] .

Definice

Zapletení lze definovat z hlediska generování dat (jako na obrázku výše). Nechť X  je nějaká nezávislá proměnná a Y  nějaká závislá proměnná . K odhadu vlivu X na Y musí statistik eliminovat vliv cizích proměnných , které ovlivňují X i Y. Říkáme, že X a Y jsou zapleteny s nějakou proměnnou Z , kdykoli Z kauzálně ovlivňuje X i Y. až Y.

Nechť  je pravděpodobnost události Y = y při hypotetickém zásahu X = x . X a Y nejsou zapletené tehdy a pouze tehdy, když platí následující podmínka:

pro všechny pravděpodobnosti události X = x a událost Y = y , kde  je podmíněná pravděpodobnost X = x . Intuitivně tato rovnost říká, že X a Y nejsou zapletené, pokud je pozorovaný vztah mezi nimi stejný jako vztah, který by byl měřen v kontrolovaném experimentu s randomizovaným x .

V zásadě lze definující rovnost testovat proti modelu generování dat za předpokladu, že máme všechny rovnice a pravděpodobnosti spojené s modelem. To se provádí modelováním zásahu (viz Bayesovská síť ) a kontrolou , zda se výsledná pravděpodobnost Y rovná podmíněné pravděpodobnosti . Ukazuje se, že vlastnosti grafu jsou dostatečné pro kontrolu rovnosti .

Ovládání

Vezměme si výzkumníka, který se snaží vyhodnotit účinnost léku X na základě údajů o populaci, přičemž si užívaný lék vybírají sami pacienti. Data ukazují, že pohlaví ( Z ) ovlivňuje pacientovu volbu léku i jeho šance na uzdravení ( Y ). V tomto scénáři pohlaví Z narušuje vztah mezi X a Y, protože Z je příčinou X i Y  :

Máme nerovnost

,

protože pozorovaná veličina obsahuje informaci o korelaci mezi X a Z , ale matoucí veličina nikoli (protože X nekoreluje se Z v randomizovaném experimentu). Statistik potřebuje nezaujatý odhad , ale v případech, kdy jsou k dispozici pouze pozorovací údaje, lze nezkreslený odhad získat pouze při zohlednění všech matoucích faktorů, konkrétně s přihlédnutím k jejich různým hodnotám a průměrnému výsledku. V případě jediného matoucího faktoru Z to vede k „vzorci úpravy“:

,

který poskytuje nezkreslený odhad kauzálního dopadu X na Y. Stejný vzorec funguje za přítomnosti několika matoucích faktorů, až na to, že v tomto případě musí být výběr množiny Z, který by zaručoval nezkreslený odhad, prováděn opatrně. Kritérium pro správný výběr matoucích proměnných se nazývá backdoor [7] [8] a vyžaduje, aby zvolená množina Z „blokovala“ (nebo protínala) každou cestu z X do Y , která končí šipkou v X. Takové množiny se nazývají „platná zadní vrátka“ a může zahrnovat proměnné, které nejsou běžnými příčinami X a Y , ale jejich substituty.

Vrátíme-li se k příkladu léku, protože Z splňuje požadavek na zadní vrátka (tj. zachycuje jednu cestu ), pak platí „vzorec úpravy“:

.

Výzkumník tak může předpovědět pravděpodobný účinek užívání drogy na základě pozorovacích studií , ve kterých lze podmíněné pravděpodobnosti objevující se na pravé straně rovnice odhadnout pomocí regrese.

Na rozdíl od všeobecného přesvědčení může přidání kovariát do množiny Z vést ke zkreslení. Typický protipříklad nastane, když Z je společným výsledkem X a Y , [9] v takovém případě Z není matoucím faktorem (tj. prázdná množina je platná zadní vrátka) a zohlednění Z by vytvořilo zkreslení známé jako collider . nebo Berksonův paradox .

Obecně lze zapletení ovládat úpravou tehdy a pouze tehdy, pokud existuje soubor pozorovatelných kovariát, které splňují podmínku zadních vrátek. Navíc, pokud je Z takovou množinou, pak ladicí vzorec rovnice (3) je skutečně <4,5>. Jude Pearlův Do-kalkul poskytuje další podmínky, za kterých lze odhadnout P ( y  | do ( x )) bez použití úpravy [10] .

Historie

Podle Morabia (2011) [11] pojem matoucí pochází ze středověkého latinského slovesa „confudere“ (z latiny: con = s + fusus = skládat nebo sloučit), což znamená „smíchat“ a byl pravděpodobně vybrán k označují záměnu mezi příčinou, která má být hodnocena, a jinými důvody, které mohou ovlivnit výsledek, a tak zmást nebo narušit požadované hodnocení. Fisher použil slovo „zapletení“ ve své knize Design of Experiments z roku 1935 [12] k označení zdroje chyb při popisu ideálního randomizovaného experimentu. Podle Vandenbrouckeho (2004) [13] Leslie Kish [14] poprvé použil slovo „zapletení“ v moderním slova smyslu k označení „nekompatibility“ dvou nebo více sad (např. exponované a neexponované ) během pozorovacího výzkumu .

Formální podmínky, které určují, proč jsou některé soubory „srovnatelné“ a jiné „nesrovnatelné“, byly vyvinuty v epidemiologii Greenlandem a Robinsem (1986) [15] pomocí jazyka kontrafaktuálních skutečností Jerzyho Neumanna (1935) [16] a Donalda Rubina (1974) [17] . Ty byly později doplněny o grafická kritéria, jako je kritérium zadních vrátek (Pearl 1993; Greenland, Pearl a Robins, 1999) [3] [7] . Ukázalo se, že grafická kritéria jsou formálně ekvivalentní kontrafaktuální definici [18] , ale jsou transparentnější pro výzkumníky, kteří se spoléhají na procesní modely.

Typy

V případě hodnocení rizika určitého faktoru pro lidské zdraví je důležité kontrolovat zapletení, aby se izoloval účinek konkrétní hrozby, jako je potravinářská přídatná látka, pesticid nebo nový lék. Pro prospektivní studie je obtížné získat a prověřit dobrovolníky se stejným zázemím (věk, strava, vzdělání, geografie atd.). A v průřezových a opakovaných studiích se závislé proměnné mohou chovat podobným způsobem z různých důvodů. Kvůli neschopnosti kontrolovat kvalitu dobrovolníků je zapletení zvláštním problémem pro studie na lidech. Z těchto důvodů jsou experimenty , na rozdíl od pozorovacích studií, způsob, jak se vyhnout většině forem zapletení.

V některých disciplínách je zapletení klasifikováno do různých typů. V epidemiologii je jedním typem „indikační zmatenost“ [19] , která je spojena se zkreslením výsledků observačních studií . Protože prognostické faktory mohou ovlivňovat rozhodnutí o léčbě (a zkreslovat odhady účinků léčby), kontrola známých prediktivních faktorů může tento problém snížit, ale vždy existuje možnost, že zapomenutý nebo neznámý faktor byl vynechán nebo že faktory interagují komplikovaně. způsob. Za nejdůležitější omezení observačních studií je považována indikační záměna. Randomizované studie nejsou ovlivněny záměnou indikací v důsledku náhodné distribuce .

Matoucí proměnné lze také kategorizovat podle jejich zdroje: výběr měřicího nástroje (operativní zmatení), situační charakteristiky (procedurální zmatení) nebo mezilidské rozdíly (osobnostní zmatení).

Příklady

Předpokládejme, že někdo studuje vztah mezi pořadím narození (1. dítě, 2. dítě atd.) a tím, zda má dítě Downův syndrom . V této studii bude matoucí proměnnou věk matky:

  1. Vyšší věk matky přímo souvisí s Downovým syndromem u dítěte
  2. Vyšší věk matky přímo souvisí s Downovým syndromem, bez ohledu na pořadí narození (stejné riziko představuje matka, která má své první nebo třetí dítě ve věku 50 let)
  3. Věk matky přímo souvisí s pořadím narození (2. dítě se s výjimkou dvojčat narodí, když je matka starší, než byla v době narození 1. dítěte)
  4. Věk matky není důsledkem pořadí narození (druhé dítě nemá vliv na věk matky)

Při hodnocení rizika často ovlivňují zdravotní stav faktory jako věk, pohlaví a úroveň vzdělání, a proto by měly být sledovány. Kromě těchto faktorů nemusí výzkumníci brát v úvahu další kauzální faktory nebo k nim mít přístup. Příkladem je studie vlivu kouření tabáku na lidské zdraví. Kouření, konzumace alkoholu a dieta spolu souvisí. Hodnocení rizik, které bere v úvahu účinky kouření, ale nebere v úvahu konzumaci alkoholu nebo dietu, může nadhodnocovat riziko kouření [22] . Kouření a zapletení jsou zohledňovány při hodnocení pracovních rizik, jako je hodnocení bezpečnosti při těžbě uhlí [23] . Pokud v určité profesi není velký vzorek nekuřáků nebo nepijáků, může být hodnocení rizik zkresleno směrem k negativním zdravotním účinkům této profese.

Snížení možnosti zamotání

Pravděpodobnost výskytu a vlivu matoucích faktorů lze snížit zvýšením typů a počtu srovnání provedených ve studii. Pokud jsou měření nebo manipulace s hlavními proměnnými zmatená (to znamená, že existují provozní nebo procedurální zmatení), analýza podskupin nemusí odhalit problémy ve studii. Mějte však na paměti, že zvýšení počtu srovnání může způsobit další problémy (viz Vícenásobná porovnání ).

Vzájemné hodnocení  je proces, který může pomoci snížit zmatek buď před provedením studie, nebo po provedení analýzy. Vzájemné hodnocení se opírá o vzájemné hodnocení v rámci oboru, aby bylo možné identifikovat potenciální slabiny v návrhu studie a analýze, včetně toho, jak mohou být výsledky ovlivněny nejasnostmi. Podobně vám replikace umožňuje kontrolovat spolehlivost výsledků studie za alternativních podmínek studie nebo alternativních přístupů k analýze jejích výsledků (například s přihlédnutím k možné záměně, která nebyla identifikována v původní studii).

V závislosti na designu studie existují různé způsoby, jak vyloučit nebo kontrolovat matoucí proměnné [24] :

Všechny tyto metody mají své nevýhody:

  1. Nejlepší obranou proti matoucím falešným pozitivům je často vzdát se úsilí o stratifikaci a místo toho provést randomizovanou studii dostatečně velkém vzorku, odebraném jako celek, takže všechny potenciální matoucí proměnné (známé i neznámé) budou náhodně rozděleny mezi všechny studijní skupiny, a proto nebude korelovat s binární proměnnou .
  2. Etické úvahy: Ve dvojitě zaslepených a randomizovaných kontrolovaných studiích si účastníci neuvědomují, že dostávají předstíranou léčbu , což znamená, že jim může být odepřena účinná léčba [25] . Existuje možnost, že pacienti budou souhlasit s invazivní operací (která s sebou nese skutečná zdravotní rizika) pouze pod podmínkou, že dostanou léčbu.

Viz také

Poznámky

  1. Pearl, J., (2009). Simpsonův paradox , zmatek a kolapsovatelnost v kauzalitě: Modely, uvažování a vyvozování (2. vydání). New York: Cambridge University Press.
  2. VanderWeele, TJ (2013). „O definici matoucího“ . Annals of Statistics . 41 (1): 196-220. arXiv : 1304.0564 . DOI : 10.1214/12-aos1058 . PMID  25544784 .
  3. 1 2 Grónsko, S. (1999). „Zmatenost a kolapsovatelnost v kauzálním vyvozování“ . Statistická věda . 14 (1): 29-46. DOI : 10.1214/ss/1009211805 .
  4. Field-Fote, Edelle. Mediátoři a moderátoři, zprostředkovatelé a kovarianty: Zkoumání proměnných, které osvětlují nebo zakrývají „aktivní složky“ v neurorehabilitaci . Journal of Neurologic Physical Therapy, duben 2019, svazek 43, vydání 2, str. 83-84, doi: 10.1097/NPT.0000000000000275 . Získáno 8. prosince 2021. Archivováno z originálu dne 8. prosince 2021.
  5. Adrian E. Bauman, PhD, James F. Sallis, PhD, David A. Dzewaltowski, PhD, Neville Owen, PhD. Směrem k lepšímu pochopení vlivů na fyzickou aktivitu: Role determinantů, korelací, kauzálních proměnných, mediátorů, moderátorů a zmatků . American Journal of Preventive Medicine, 2002, svazek 23, číslo 2S .
  6. David P. MacKinnon. Sjednocení efektů prostředníka, zmatku a srážeče . preventivní věda. Svazek 22, strany 1185–1193 (2021) . Získáno 9. prosince 2021. Archivováno z originálu dne 9. prosince 2021.
  7. 1 2 Pearl, J., (1993). "Aspekty grafických modelů spojené s kauzalitou," In Proceedings of the 49th Session of the International Statistical Science Institute, pp. 391-401.
  8. Pearl, J. (2009). Kauzální diagramy a identifikace kauzálních účinků v kauzalitě: Modely, uvažování a vyvozování (2. vydání). New York, NY, USA: Cambridge University Press.
  9. Lee, P. H. (2014). „Měli bychom se přizpůsobit zmatku, pokud empirická a teoretická kritéria poskytnou protichůdné výsledky? Simulační studie“. sci zástupce . 4 : 6085. Bibcode : 2014NatSR...4E6085L . doi : 10.1038/ srep06085 . PMID 25124526 . 
  10. Shpitser, I. (2008). „Kompletní identifikační metody pro kauzální hierarchii“. Journal of Machine Learning Research . 9 : 1941-1979.
  11. Morabia, A (2011). „Historie moderního epidemiologického konceptu zmatení“ (PDF) . Journal of Epidemiology and Community Health . 65 (4): 297-300. DOI : 10.1136/jech.2010.112565 . PMID  20696848 . Archivováno (PDF) z originálu dne 2021-12-05 . Staženo 2021-12-05 . Použitý zastaralý parametr |deadlink=( nápověda )
  12. Fisher, R. A. (1935). Návrh experimentů (str. 114-145).
  13. Vandenbroucke, JP (2004). „Historie objevů“. Soz Praventivmed . 47 (4): 216-224. DOI : 10.1007/BF01326402 . PMID  12415925 .
  14. Kish, L (1959). „Některé statistické problémy v designu výzkumu“. Jsem Sociol . 26 (3): 328-338. DOI : 10.2307/2089381 .
  15. Grónsko, S. (1986). „Identifikovatelnost, zaměnitelnost a epidemiologické zmatení“ . International Journal of Epidemiology . 15 (3): 413-419. DOI : 10.1093/ije/15.3.413 . PMID  3771081 .
  16. Neyman, J., za spolupráce K. Iwaskiewicse a St. Kolodziejczyk (1935). Statistické problémy v zemědělském experimentování (s diskusí). Suppl J Roy Statist Soc Ser B 2 107-180.
  17. Rubin, D. B. (1974). „Odhad kauzálních účinků léčby v randomizovaných a nerandomizovaných studiích“ . Journal of Educational Psychology . 66 (5): 688-701. DOI : 10.1037/h0037350 .
  18. Pearl, J., (2009). Kauzalita: Modely, uvažování a vyvozování (2. vydání). New York, NY, USA: Cambridge University Press.
  19. Johnston, S.C. (2001). "Identifikace matoucí pomocí indikace prostřednictvím slepé prospektivní kontroly." American Journal of Epidemiology . 154 (3): 276-284. DOI : 10.1093/aje/154.3.276 . PMID  11479193 .
  20. 1 2 Pelham, Brett. Provádění výzkumu v psychologii. - 2006. - ISBN 978-0-534-53294-9 .
  21. Steg, L. Aplikovaná sociální psychologie: Porozumění a zvládání sociálních problémů / L. Steg, A. P. Buunk. — 2008.
  22. Tjønneland, Anne (leden 1999). „Příjem vína a strava na náhodném vzorku 48 763 dánských mužů a žen“ . Americký žurnál klinické výživy . 69 (1): 49-54. DOI : 10.1093/ajcn/69.1.49 . PMID  9925122 .
  23. Axelson, O. (1989). „Zmatení z kouření v pracovní epidemiologii“ . British Journal of Industrial Medicine . 46 (8): 505-07. DOI : 10.1136/oem.46.8.505 . PMID2673334  . _
  24. Mayrent, Sherry L. Epidemiologie v medicíně . - Lippincott Williams & Wilkins , 1987. - ISBN 978-0-316-35636-7 .
  25. Emanuel, Ezekiel J (20. září 2001). „Etika placebem kontrolovaných studií – střední cesta“ . New England Journal of Medicine . 345 (12): 915-9. doi : 10.1056 / jméno200109203451211 . PMID 11565527 . 

Literatura

Odkazy