Chyby prvního a druhého druhu

Chyba prvního druhu ( α-chyba, falešně pozitivní závěr ) - situace, kdy je zamítnuta správná nulová hypotéza (o absenci souvislosti mezi jevy nebo žádoucím efektem).

Chyba druhého druhu  ( β-chyba, falešně negativní závěr ) je situace, kdy je přijata nesprávná nulová hypotéza.

V matematické statistice jsou to klíčové pojmy problémů testování statistických hypotéz . Tyto pojmy se často používají v jiných oblastech, pokud jde o „binární“ rozhodnutí (ano / ne) na základě nějakého kritéria (test, verifikace, měření), které s určitou pravděpodobností může poskytnout falešný výsledek.

Definice

Nechť je dán vzorek z neznámého společného rozdělení a je nastaven binární problém testování statistických hypotéz:

kde  je nulová hypotéza a  je alternativní hypotéza . Předpokládejme, že je uveden statistický test

,

porovnání každé implementace vzorku s jednou z dostupných hypotéz. Pak jsou možné následující čtyři situace:

  1. Rozložení vzorku odpovídá hypotéze a je přesně určeno statistickým kritériem, tedy .
  2. Výběrové rozdělení odpovídá hypotéze , ale statistickým testem je nesprávně zamítnuto, tedy .
  3. Rozložení vzorku odpovídá hypotéze a je přesně určeno statistickým kritériem, tedy .
  4. Výběrové rozdělení odpovídá hypotéze , ale statistickým testem je nesprávně zamítnuto, tedy .

Ve druhém a čtvrtém případě říkáme, že nastala statistická chyba a nazývá se chyba prvního a druhého druhu [1] [2] .

  Správná hypotéza
     
Výsledek
 použití 
kritéria
   právem přijato nesprávně přijato 
(chyba druhého druhu)
   nesprávně odmítnuto  (
chyba typu I )
právem odmítl

O významu chyb prvního a druhého druhu

Z výše uvedené definice je vidět, že chyby prvního a druhého druhu jsou vzájemně symetrické, to znamená, že pokud jsou hypotézy a zaměněny , pak se chyby prvního druhu změní na chyby druhého druhu a naopak. Ve většině praktických situací však k záměně nedochází, protože se obecně uznává, že nulová hypotéza odpovídá „výchozímu“ stavu (přirozenému, nejočekávanějšímu stavu věcí) – například, že vyšetřovaná osoba je zdravá, nebo že cestující procházející detektorem kovů nemá žádné zakázané kovové předměty. Alternativní hypotéza tedy označuje opačnou situaci, která je obvykle interpretována jako méně pravděpodobná, mimořádná, vyžadující určitý druh reakce.

Chyba typu I se tedy často označuje jako falešný poplach , falešně pozitivní nebo falešně pozitivní . Pokud například krevní test prokázal přítomnost nemoci, ačkoli ve skutečnosti je osoba zdravá, nebo detektor kovů vydal poplach spuštěním kovové spony na opasku, pak přijatá hypotéza není správná, a proto je typ I. došlo k chybě. Slovo „falešně pozitivní“ v tomto případě nemá nic společného s žádoucností nebo nežádoucí událostí jako takovou.

Termín je široce používán v medicíně. Například testy určené k diagnostice nemocí někdy dávají pozitivní výsledek (tj. ukazují, že pacient má nemoc), i když ve skutečnosti pacient touto nemocí netrpí. Takový výsledek se nazývá falešně pozitivní .

V jiných oblastech se obvykle používají slovní spojení s podobným významem, např. „false positive“, „false alarm“ apod. V informačních technologiích se často bez překladu používá anglický termín false positive.

Kvůli možnosti falešných poplachů není možné plně automatizovat boj proti mnoha typům hrozeb. Pravděpodobnost falešně pozitivního výsledku zpravidla koreluje s pravděpodobností opomenutí události (chyba druhého druhu). To znamená: čím je systém citlivější, tím nebezpečnější události detekuje, a proto jim předchází. Ale s rostoucí citlivostí se pravděpodobnost falešných poplachů nevyhnutelně zvyšuje. Proto se příliš citlivý (paranoidně) nakonfigurovaný obranný systém může zvrhnout ve svůj opak a vést k tomu, že vedlejší újma z něj převýší užitek.

V souladu s tím je chyba typu II někdy označována jako zmeškaná událost nebo falešně negativní . Osoba je nemocná, ale krevní test to neprokázal, nebo má spolujezdec chladnou zbraň, ale rám detektoru kovů to nezaznamenal (například kvůli tomu, že citlivost rámu je nastavena tak, aby detekovala pouze velmi masivní kovové předměty). Tyto příklady ukazují na chybu typu II. Slovo "falešně negativní" v tomto případě nemá nic společného s žádoucností nebo nežádoucí událostí jako takovou.

Termín je široce používán v medicíně. Například testy určené k diagnostice nemocí někdy dávají negativní výsledek (to znamená, že ukazují, že pacient nemá nemoc), i když ve skutečnosti pacient touto nemocí trpí. Takový výsledek se nazývá falešně negativní .

V jiných oblastech se obvykle používají fráze s podobným významem, například „chybějící událost“ atp.

Vzhledem k tomu, že pravděpodobnost chyby I. typu obvykle klesá s rostoucí pravděpodobností chyby II. typu a naopak, musí vyladění rozhodovacího systému představovat kompromis. Kde přesně se nachází bod rovnováhy dosažený takovou úpravou, závisí na posouzení důsledků spáchání obou typů chyb.

Pravděpodobnosti chyb ( úroveň významnosti a síla)

Pravděpodobnost chyby I. typu při testování statistických hypotéz se nazývá hladina významnosti a obvykle se označuje řeckým písmenem (odtud název chyba).

Pravděpodobnost chyby druhého druhu nemá žádný zvláštní obecně uznávaný název, označuje se řeckým písmenem (odtud název chyba). Tato hodnota však úzce souvisí s jinou, která má velkou statistickou významnost - síla kritéria . Vypočítává se podle vzorce Čím vyšší je síla kritéria, tím menší je pravděpodobnost, že dojde k chybě typu II.

Obě tyto charakteristiky se obvykle vypočítávají pomocí tzv. testovací výkonové funkce . Zejména pravděpodobnost chyby typu I je mocninná funkce vypočítaná podle nulové hypotézy. U testů založených na vzorku pevné velikosti je pravděpodobnost chyby typu II jedna mínus mocninná funkce vypočítaná za předpokladu, že rozložení pozorování odpovídá alternativní hypotéze. Pro po sobě jdoucí kritéria to platí i v případě, že kritérium končí s pravděpodobností jedna (vzhledem k rozdělení z alternativy).

Ve statistických testech obvykle existuje kompromis mezi přijatelnou úrovní chyb typu I a typu II . Často se k rozhodování používá prahová hodnota, která se může měnit, aby byl test přísnější nebo naopak měkčí. Tato prahová hodnota je hladina významnosti , která se udává při testování statistických hypotéz . Například v případě detektoru kovů povede zvýšení citlivosti zařízení ke zvýšenému riziku chyby typu 1 (falešný poplach), zatímco snížení citlivosti zvýší riziko chyby typu 2 (chybějící zakázaný položka).

Příklady použití

Radar

V úloze radarové detekce vzdušných cílů, především v systému protivzdušné obrany, jsou chyby prvního a druhého druhu se zněním „falešný poplach“ a „minutí cíle“ jedním z hlavních prvků teorie i praxe. budování radarových stanic . Jde pravděpodobně o první příklad důsledného uplatňování statistických metod v celé technické oblasti.

Počítače

Koncepty chyb typu I a typu II jsou široce používány v oblasti počítačů a softwaru.

Počítačová bezpečnost

Přítomnost zranitelností ve výpočetních systémech vede k tomu, že na jedné straně je nutné vyřešit problém zachování integrity počítačových dat a na druhé straně zajistit běžný přístup legálních uživatelů k těmto datům ( viz zabezpečení počítače ). V této souvislosti jsou možné následující nežádoucí situace [3] :

  • když jsou oprávnění uživatelé klasifikováni jako pachatelé ( chyby typu I );
  • kdy jsou pachatelé klasifikováni jako oprávnění uživatelé ( chyby druhého druhu ).
Filtrování spamu

K chybě typu 1 dochází, když mechanismus blokování/filtrování nevyžádané pošty omylem klasifikuje legitimní e-mailovou zprávu jako spam a brání jejímu normálnímu doručení. Zatímco většina antispamových algoritmů je schopna blokovat/filtrovat velké procento nevyžádaných e-mailů, je mnohem důležitější minimalizovat počet „falešných poplachů“ (chybné blokování požadovaných zpráv).

K chybě typu II dochází, když antispamový systém omylem propustí nechtěnou zprávu a klasifikuje ji jako „není spam“. Nízká úroveň těchto chyb je indikátorem účinnosti antispamového algoritmu.

Dosud nebylo možné vytvořit antispamový systém bez korelace mezi pravděpodobností chyb prvního a druhého typu. Pravděpodobnost chybějícího spamu v moderních systémech se pohybuje od 1 % do 30 %. Pravděpodobnost chybného odmítnutí platné zprávy je od 0,001 % do 3 %. Volba systému a jeho nastavení závisí na podmínkách konkrétního příjemce: pro některé příjemce je riziko ztráty 1 % dobré pošty hodnoceno jako nepodstatné, pro jiné je ztráta i 0,1 % nepřijatelná.

Škodlivý software

Koncept chyby typu I se také používá, když antivirový software nesprávně klasifikuje neškodný soubor jako virus . Nesprávná detekce může být způsobena heuristikou nebo nesprávnou signaturou viru v databázi. Podobné problémy mohou nastat také u antitrojských a antispywarových programů.

Prohledávání počítačových databází

K chybám prvního druhu při vyhledávání v databázi patří dokumenty, které jsou rešerší vydány i přes jejich irelevanci (nesoulad) s vyhledávacím dotazem. Falešné poplachy jsou typické pro fulltextové vyhledávání , kdy vyhledávací algoritmus analyzuje plné texty všech dokumentů uložených v databázi a snaží se najít shodu s jedním nebo více výrazy zadanými uživatelem v dotazu.

Většina falešně pozitivních výsledků je způsobena složitostí přirozených jazyků , nejednoznačností slov: například „domov“ může znamenat jak „místo bydliště osoby“, tak „kořenovou stránku webu“. Počet takových chyb lze snížit použitím speciálního slovníku . Toto řešení je však poměrně drahé, protože takový slovník a označení dokumentů ( indexování ) musí vytvořit odborník.

Optické rozpoznávání znaků (OCR)

Různé detekční algoritmy často poskytují chyby prvního druhu . Software OCR dokáže rozpoznat písmeno „a“ v situaci, kdy je ve skutečnosti více bodů.

Detekční kontrola cestujících a zavazadel

Chyby typu I se vyskytují pravidelně každý den v počítačových systémech pro kontrolu letišť. Detektory v nich instalované mají zabránit nošení zbraní na palubě letadla; často jsou však nastaveny na tak vysokou úroveň citlivosti , že mnohokrát denně střílí na drobné předměty, jako jsou klíče, přezky na opasku, mince, mobilní telefony, hřebíky v podrážkách bot atd. (viz Detekce výbušnin )., detektory kovů ).

Poměr počtu falešných poplachů (identifikace slušného cestujícího jako delikventa) k počtu správných poplachů (detekce skutečně zakázaných předmětů) je tedy velmi vysoký.

Biometrie

Chyby prvního a druhého druhu jsou velkým problémem v biometrických skenovacích systémech, které využívají rozpoznávání duhovky nebo sítnice oka, rysů obličeje atd. Takové skenovací systémy mohou mylně identifikovat někoho s jinou osobou „známou“ systému. o tom, kdo je v databázi uložen (může to být například osoba s právem přihlášení, nebo podezřelý ze zločinu apod.). Opačnou chybou by bylo selhání systému rozpoznat legitimního registrovaného uživatele, případně identifikovat osobu podezřelou z trestného činu [4] .

Hromadná lékařská diagnostika (screening)

V lékařské praxi existuje významný rozdíl mezi screeningem a testováním :

  • Screening zahrnuje relativně levné testy, které se provádějí na velké skupině lidí bez jakýchkoli klinických příznaků nemoci (jako je Pap stěr ).
  • Testování zahrnuje mnohem dražší , často invazivní postupy, které se provádějí pouze u těch, kteří vykazují klinické příznaky onemocnění a slouží především k potvrzení suspektní diagnózy.

Například většina států ve Spojených státech vyžaduje, aby novorozenci byli vyšetřeni na hydroxyfenylketonurii a hypotyreózu , mezi jinými vrozenými anomáliemi . Navzdory vysoké míře chyb typu I jsou tyto screeningové postupy považovány za užitečné, protože podstatně zvyšují pravděpodobnost záchytu těchto poruch ve velmi časném stadiu [5] .

Jednoduché krevní testy používané ke screeningu potenciálních dárců na HIV a hepatitidu mají významnou úroveň chyby typu I ; lékaři však mají ve svém arzenálu mnohem přesnější (a tedy i dražší) testy, které prověří, zda je člověk skutečně nakažen některým z těchto virů.

Snad nejvíce diskutovanou je chyba typu I při screeningu rakoviny prsu ( mamografie ). Ve Spojených státech je chybovost typu I na mamografech až 15 %, což je nejvíce na světě [6] . Nejnižší úroveň je pozorována v Nizozemsku , 1 % [7] .

Lékařské vyšetření

Chyby typu II jsou významným problémem při lékařském testování . Dávají pacientovi a lékaři falešné přesvědčení, že nemoc není přítomna, i když ve skutečnosti je. To často vede k nevhodné nebo nedostatečné léčbě. Typickým příkladem je důvěra ve výsledky cyklistické ergometrie při detekci koronární aterosklerózy , i když je známo, že cyklistická ergometrie odhalí pouze ty překážky v průtoku krve v koronární tepně , které jsou způsobeny stenózou .

Chyby druhého druhu způsobují vážné a těžko pochopitelné problémy, zvláště když je žádoucí stav rozšířený. Pokud je test s 10% chybovostí typu II použit na populaci, kde je pravděpodobnost „skutečně pozitivních“ případů 70 %, pak bude mnoho negativních výsledků testu falešných. (Viz Bayesův teorém ).

Chyby typu I mohou také způsobit vážné a těžko pochopitelné problémy. K tomu dochází, když je hledaný stav vzácný. Pokud má test chybovost typu I jedna ku deseti tisícům, ale ve skupině testovaných vzorků (nebo lidí) je pravděpodobnost „skutečně pozitivních“ případů v průměru jedna ku milionu, pak většina pozitivních výsledků z toho testu bude nepravdivý [8] .

Vyšetřování nadpřirozena

Termín chyba typu I byl vytvořen výzkumníky v oblasti paranormálních jevů a duchů k popisu fotografie nebo záznamu nebo jakéhokoli jiného důkazu, který je mylně interpretován jako paranormálního původu – v tomto kontextu je chybou typu I  jakýkoli neudržitelné „mediální důkazy“ (obrázek, video, zvuk atd.), které mají obvyklé vysvětlení. [9]

Viz také

Poznámky

  1. GOST R 50779.10-2000. "Statistické metody. Pravděpodobnost a základy statistiky. Termíny a definice". — str. 26 Archivováno 9. listopadu 2018 na Wayback Machine
  2. Easton VJ, McColl JH Statistics Glossary: ​​​​Hypothesis Testing. Archivováno 24. září 2011 na Wayback Machine
  3. Moulton RT Network Security   // Datamation . - 1983. - Sv. 29 , iss. 7 . - str. 121-127 .
  4. Tento příklad pouze charakterizuje případ, kdy bude klasifikace chyb záviset na účelu systému: pokud se k přijímání zaměstnanců použije biometrické skenování ( nulová hypotéza : „osoba podstupující skenování je skutečně zaměstnanec“), chybná identifikace bude být chybou druhého druhu a „nerozpoznáním“ – chybou prvního druhu ; pokud se skenování používá k identifikaci zločinců ( nulová hypotéza : „skenovaná osoba není zločinec“), pak chybná identifikace bude chyba typu I a „nerozpoznání“ bude chyba typu II .
  5. Pokud jde o novorozenecký screening, nedávné studie ukázaly, že počet chyb prvního druhu je 12krát vyšší než počet správných detekcí (Gambrill, 2006. [1] )
  6. Jedním z důsledků této vysoké míry chyb typu I v USA je, že během libovolného období 10 let polovina dotázaných Američanek podstoupí alespoň jeden falešně pozitivní mamograf. Tyto chybné mamografie jsou nákladné, což má za následek roční náklady ve výši 100 milionů dolarů na následnou (zbytečnou) léčbu. U žen navíc vyvolávají zbytečnou úzkost. V důsledku vysoké míry chyb typu I ve Spojených státech přibližně 90–95 % žen, které alespoň jednou v životě dostanou pozitivní mamograf, ve skutečnosti touto nemocí netrpí.
  7. Nejnižší úrovně těchto chyb jsou pozorovány v severní Evropě, kde se mamografické filmy čtou dvakrát a je stanoven zvýšený práh pro dodatečné testování ( vysoký práh snižuje statistickou účinnost testu).
  8. Pravděpodobnost, že výsledkem testu je chyba I. typu, lze vypočítat pomocí Bayesovy věty .
  9. Některé stránky poskytují příklady chyb typu I, například: The Atlantic Paranormal Society (TAPS) Archived 28. března 2005.  (downlink ke dni 13-05-2013 [3457 dní]) a Moorestown Ghost Research Archived 2006-06-14 .  (downlink od 13-05-2013 [3457 dní] - historie ) .