Analýza přežití

Analýza přežití je třída  statistických modelů , které umožňují odhadnout pravděpodobnost výskytu události.

Popis

Tato skupina statistických metod získala patřičný název díky svému původně širokému použití v lékařském výzkumu pro odhad délky života při studiu účinnosti léčebných metod. Později se tyto metody začaly uplatňovat v pojišťovnictví, ale i ve společenských vědách. [jeden]

Analýza přežití se zabývá modelováním procesů nástupu terminálních (kritických) událostí pro prvky určité populace (zpočátku „smrt“ pro prvky populace živých bytostí). V rámci lékařského výzkumu tak může analýza přežití odpovědět na otázky jako „jaký bude podíl přeživších mezi pacienty nějakou dobu po aplikovaných léčebných technikách?“, „jaká bude míra úmrtnosti mezi přeživšími?“, „ jaké faktory ovlivňují zvýšení nebo snížení šancí na přežití? atd.

Pro zodpovězení relevantních otázek je nutné umět jednoznačně definovat „životnost“ prvku (dobu setrvání prvku v agregátu před začátkem terminální události). V případě biologického přežití je „smrt“ jednoznačná, ale v jiných případech není vždy možné lokalizovat nástup terminální události v odděleném časovém okamžiku.

Obecně je analýza přežití konstrukcí modelů, které popisují data o době výskytu události. Vzhledem k tomu, že živý organismus může zemřít pouze jednou, jsou v rámci tohoto přístupu tradičně uvažovány pouze jednorázové a jednorázové terminální události.

Cenzura proměnných

Analýza dat metodami analýzy přežití může být provedena pouze pro cenzurovaná data. Pozorování jsou považována za cenzurovaná, pokud zájmová závislá proměnná představuje okamžik výskytu terminální události a doba trvání studie je časově omezena.

Mechanismy cenzury

Opravena cenzura

S pevnou cenzurou je vzorek objektů pozorován po stanovenou dobu. Počet objektů, u kterých dojde k terminální události nebo počet úmrtí, je náhodný, ale celková doba trvání studie je pevná. Každý objekt má maximální možnou dobu pozorování , která se může lišit od jednoho objektu k druhému, ale je předem pevně stanovena. Pravděpodobnost, že objekt bude na konci doby pozorování naživu , je a celkový počet úmrtí je náhodný.

Náhodná cenzura

Při náhodné cenzuře je vzorek objektů pozorován tak dlouho, jak je nutné, aby objekty událost zažily. V tomto schématu je počet úmrtí , který určuje přesnost studie, předem pevně stanoven a může být použit jako parametr. Nevýhodou tohoto přístupu je, že v tomto případě je celková doba trvání studie náhodná a nemůže být předem přesně známa.

Pokyny pro cenzuru

Při cenzuře můžete určit směr, kterým cenzura probíhá.

Cenzura pravou rukou

Správná cenzura nastane, pokud výzkumník ví, v jakém bodě byl experiment zahájen a že skončí v časovém bodě napravo od počátečního bodu experimentu.

Cenzura pro leváky

Pokud výzkumník nemá informace o tom, kdy byl experiment zahájen (např. v biomedicínském výzkumu může být známo, kdy byl pacient přijat do nemocnice a že přežil určitou dobu, ale nemusí být žádné informace, kdy příznaky se poprvé objevila jeho nemoc). objevila se), poté probíhá levá cenzura.

Jednoduchá a vícenásobná cenzura

Jednorázová cenzura nastává v jednom časovém okamžiku (experiment končí po určité pevně stanovené době). Na druhou stranu k vícenásobné cenzuře přirozeně dochází v biomedicínském výzkumu , například když jsou pacienti propuštěni z nemocnice poté, co podstoupili léčbu různého množství (nebo trvání) a výzkumník ví, že pacient se právě dožil příslušného bodu cenzury.

Analýza úmrtnostních tabulek

Tyto tabulky lze považovat za "rozšířené" frekvenční tabulky. Oblast možných časů výskytu kritických událostí (úmrtí, poruch atd.) je rozdělena do určitého počtu časových intervalů (časových bodů). Na okamžik počet a podíl objektů, které byly na začátku uvažovaného intervalu součástí prvků studované populace (byly „živé“), počet a podíl prvků, které populace opustila („zemřela“ ), jakož i počet a poměr prvků, které byly staženy nebo cenzurovány v každém intervalu.

Vypočítané parametry

Funkce přežití

Analyzovaný objekt ve funkci přežití je konvenčně označován jako ; je popsána následující funkcí :

kde  je nějaký čas, během kterého byla populace pozorována, je náhodná veličina označující okamžik „smrti“ (opuštění populace objektem) a znamená pravděpodobnost „smrti“ v daném časovém intervalu. To znamená, že funkce přežití popisuje pravděpodobnost "smrti" nějakou dobu po okamžiku .

Obvykle se předpokládá, že i když tato hodnota může být menší než 1, existuje možnost okamžité smrti nebo selhání.

Pokud , pak by funkce přežití měla vypadat takto . Tato vlastnost vyplývá ze skutečnosti, že podmínka implikuje, že . V podstatě se zde myslí to, že přežití v pozdějším období je možné pouze po přežití v dřívějším období.

Obvykle se předpokládá, že funkce přežití má tendenci k nule s nekonečným nárůstem časové proměnné: v .

Při analýze přežití se také používá funkce kumulativní distribuce a její derivace, funkce hustoty distribuce .

Kumulativní distribuční funkce má tvar

a popisuje pravděpodobnost, že k terminální události došlo v čase .

Funkce hustoty distribuce (PDF) má tvar

tato funkce ukazuje četnost výskytu koncové události v daném okamžiku .

Hustota pravděpodobnosti

Jedná se o odhad pravděpodobnosti vypadnutí populace („úmrtí“) v odpovídajícím intervalu definovaném takto:

kde  je odhad pravděpodobnosti selhání v tém intervalu,  je kumulativní zlomek přežívajících objektů (funkce přežití) na začátku tého intervalu,  je šířka tého intervalu.

Riziková funkce (porucha)

Riziková funkce je definována jako pravděpodobnost, že prvek zbývající v populaci na začátku odpovídajícího intervalu opustí populaci („zemře“) během tohoto intervalu. Odhad funkce intenzity se vypočítá takto:

Čitatel tohoto výrazu je podmíněná pravděpodobnost , že událost nastane v intervalu , pokud k ní dříve nedošlo, a jmenovatelem je šířka intervalu.

Střední délka života

Toto je bod na časové ose, kde je kumulativní funkce přežití 0,5. Ostatní percentily (jako je 25. a 75. percentil nebo kvartily) kumulativní funkce přežití se vypočítají stejným způsobem.

Model Fitting

Modely přežití lze smysluplně reprezentovat jako lineární regresní modely , protože všechny výše uvedené rodiny distribucí lze vhodnými transformacemi redukovat na lineární. V tomto případě bude životnost závislou proměnnou.

Se znalostí parametrické rodiny rozdělení lze vypočítat pravděpodobnostní funkci z dostupných dat a najít její maximum. Takové odhady se nazývají odhady maximální pravděpodobnosti. Za velmi obecných předpokladů se tyto odhady shodují s odhady nejmenších čtverců. Podobně maximum věrohodnostní funkce se nachází pod nulovou hypotézou, tedy pro model, který umožňuje různé intenzity v různých intervalech. Formulovanou hypotézu lze testovat např. pomocí testu věrohodnostního poměru, jehož statistika má asymptotické chí-kvadrát rozdělení .

Použité distribuční rodiny

Obecně platí, že tabulka životnosti poskytuje dobrou představu o rozložení poruch nebo úmrtí objektů v průběhu času. Aby však bylo možné provést předpověď, je často nutné znát tvar uvažované funkce přežití.

V kontextu analýzy přežití se k sestavování modelů nejčastěji používají následující rodiny distribucí:

Multiplikátor Kaplan-Meierovy odhady

U cenzurovaných, ale neseskupených pozorování životnosti lze funkci přežití odhadnout přímo (bez tabulky životnosti). Řekněme, že existuje databáze, kde každé pozorování obsahuje právě jeden časový interval. Vynásobením pravděpodobností přežití v každém intervalu získáme následující vzorec pro funkci přežití:

V tomto výrazu  je odhad funkce přežití,  je celkový počet událostí (časy ukončení),  je pořadové (chronologicky) číslo jedné události rovné 1, pokud -tá událost znamená selhání (smrt) a 0, pokud -tá událost znamená ztrátu pozorování (cenzurování), znamená součin všech pozorování dokončených do času .

Tento odhad funkce přežití, nazývaný multiplikační odhad, poprvé navrhli Kaplan a Meyer (1958).

Poznámky

  1. Analýza přežití. Elektronický výukový program StatSoft . Získáno 25. listopadu 2012. Archivováno z originálu 23. ledna 2013.

Literatura