Binární klasifikace

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 3. srpna 2020; ověření vyžaduje 1 úpravu .

Binární , binární nebo dichotomická klasifikace je úkolem klasifikovat prvky dané množiny do dvou skupin (předpovídat, do které skupiny každý prvek množiny patří) na základě klasifikačního pravidla . Kontexty , ve kterých je nutné rozhodnout, zda má objekt nějakou kvalitativní vlastnost , některé specifické vlastnosti nebo nějakou typickou binární klasifikaci, zahrnují:

Binární klasifikace je dichotomizace aplikovaná pro praktické účely. V mnoha praktických problémech binární klasifikace nejsou tyto dvě skupiny symetrické – místo celkové přesnosti jsou důležité relativní proporce typů chyb . Například v laboratorních testech se falešně pozitivní (detekce onemocnění, které ve skutečnosti neexistuje) považuje za odlišitelné od falešně negativního (ne zjištění onemocnění, které pacient skutečně má).

Statistická binární klasifikace

Statistická klasifikace je úloha studovaná ve strojovém učení . Jde o typ učení pod dohledem , metodu strojového učení, kde jsou kategorie předdefinovány a použity k výběru kategorie pro nové pravděpodobnostní pozorování. Pokud existují pouze dvě kategorie, problém je znám jako statistická binární klasifikace.

Některé metody běžně používané pro binární klasifikaci jsou:

Každý klasifikátor funguje nejlépe pouze ve vybrané oblasti na základě počtu pozorování, rozměru vektoru příznaků , šumu v datech a mnoha dalších faktorů. Například náhodné lesní klasifikátory fungují lépe než podpůrné vektorové stroje pro 3D mračna bodů [1] [2] .

Skóre binární klasifikace

Existuje mnoho metrik, které lze použít k měření výkonu klasifikátoru nebo prediktoru. Různá pole mají různé výhody pro konkrétní metriky kvůli různým účelům. Například v medicíně se často používá citlivost a specifičnost , zatímco při informací se upřednostňuje přesnost a zapamatovatelnost . Důležitým rozdílem v metrikách je, zda je nezávislá na prevalenci (jak často se každá kategorie vyskytuje v populaci) nebo závislá a oba typy jsou užitečné, ale mají velmi odlišné vlastnosti.

Vzhledem ke klasifikaci souboru dat existují čtyři základní kombinace platné kategorie a přiřazené kategorie:

  1. správně přiřazené pozitivní klasifikace TP
  2. správně přiřazené negativní klasifikace TN
  3. falešně přiřazené pozitivní klasifikace FP
  4. falešně přiřazené negativní klasifikace FN

Mohou být umístěny v kontingenční tabulce se sloupci odpovídajícími skutečným hodnotám - podmíněně pozitivní ( eng. condition positive , CP) nebo podmíněně negativní ( eng. condition negative , CN) a řádky odpovídajícími klasifikačním hodnotám - test výsledek je pozitivní nebo negativní. Existuje osm základních poměrů, které lze vypočítat z tabulky, které spadají do čtyř komplementárních párů (součet každého páru je 1). Získávají se vydělením každého ze čtyř čísel řádkovým nebo sloupcovým součtem, což dá osm čísel, která lze označit jako „řádek pravdivých pozitiv“ nebo „sloupec falešně negativních“, ačkoli existují běžně používané termíny. Existují také dva páry poměrů sloupců a dva páry poměrů řádků a čtyři z nich získáte výběrem jednoho poměru z každého páru, přičemž další čtyři čísla jsou jejich doplňky.   

Sloupec podílu obsahuje poměr pravdivě pozitivních výsledků ( eng.  True Positive Rate , TPR, také nazývaný citlivost nebo vyvolání , sčítání je podíl falešně negativních výsledků , angl.  False Negative Rate , FNR) a podíl pravdivě negativních výsledků ( eng.  True Negative Rate , TNR, také nazývaný specificita , ( eng.  Specificity , SPC, komplement - podíl falešně pozitivních , eng.  False Positive Rate , FPR) Jsou úměrné populaci s podmínkou (resp. bez podmínky), pro kterou je test pravdivý (nebo test je nepravdivý) a nezávisí na prevalenci.

Řádek zlomku je pozitivní prediktivní hodnota ( Positive Predictive Value , PPV, také nazývaná přesnost , doplněk je podíl falešných odmítnutí , False Discovery Rate , FDR) a negativní prediktivní hodnota ( eng  ... Negative Predictive Value , NPV, sčítání - podíl chybných průchodů, eng. False Omission Rate , FOR). Jsou úměrné populaci s daným skutečným výsledkem testu (nebo falešným výsledkem) a závisí na prevalenci.    

V laboratorních testech jsou hlavními použitými poměry sloupec skutečného podílu - podíl skutečných pozitivních výsledků a podíl skutečných negativních výsledků - kde jsou známy jako citlivost a specificita . Při extrakci informací jsou hlavními vztahy skutečná kladná míra (řádek a sloupec) – záporná prediktivní hodnota a skutečná kladná míra – kde jsou známy jako přesnost a vybavitelnost .

Je možné vzít poměry komplementárních dvojic poměrů, což dává čtyři poměry pravděpodobnosti (dvě hodnoty sloupce proporcí, dvě hodnoty řady poměrů). To se primárně provádí pro poměry sloupců, které uvádějí poměry pravděpodobnosti v laboratorních testech . Vezmeme-li poměr v jedné z těchto skupin, dostaneme konečný poměr pravděpodobnosti diagnostického testu ( Diagnostic Odds Ratio , DOR) .  Tuto hodnotu lze také přímo definovat jako . To má užitečnou interpretaci jako poměr šancí a je nezávislé na prevalenci.

Existuje několik dalších metrik, z nichž nejjednodušší je Fraction Correct (FC), která měří podíl všech případů, které jsou správně klasifikovány .  Přičtení k 1 této hodnoty je podíl nesprávných ( anglicky Fraction Incorrect , FiC). F-míra kombinuje přesnost a vyvolání v jednom čísle výběrem váhy, v nejjednodušším případě rovné hmotnosti jako u vyvážené F-míry ( F1 míra ). Některé metriky pocházejí z regresních koeficientů – značených a informativních a jejich geometrického průměru , Matthewsova korelačního koeficientu . Mezi další metriky patří Youdenova statistika J , koeficient nejistoty , koeficient Phi a Cohenův kappa.  

Převod spojitých hodnot na binární

Testy, jejichž výsledky jsou spojité hodnoty, jako je většina hodnot krevních testů , mohou být uměle binárně vytvořeny definováním mezní hodnoty . Výsledek testu je definován jako pozitivní nebo negativní v závislosti na výsledcích porovnání výsledných a hraničních hodnot.

Tato konverze však vede ke ztrátě informací, protože výsledek binární klasifikace neukazuje, o kolik vyšší nebo nižší jsou mezní hodnoty. Při převodu spojité hodnoty, která se blíží mezní hodnotě, je výsledná kladná nebo záporná prediktivní hodnota obecně vyšší než prediktivní hodnota získaná přímo ze spojité hodnoty. V takových případech dává pozitivní nebo negativní výsledek testu nepřijatelně vysokou jistotu, zatímco samotná hodnota je ve skutečnosti v oblasti nejistoty. Například koncentrace lidského choriového gonadotropinu (hCG) v moči má spojitou hodnotu. Těhotenský test z moči s cut-off 50 mIU / ml se skutečnou koncentrací hCG 52 mIU / ml může ukázat „pozitivní výsledek“. Na druhou stranu, výsledek testu daleko od mezní hodnoty má obvykle pozitivní nebo negativní prediktivní hodnotu, která je menší než prediktivní hodnota získaná ze spojité hodnoty. Například hodnota hCG 200 000 mIU/ml ukazuje na velmi vysoký stupeň těhotenství, ale převod na binární výsledky dává „pozitivní“ výsledek testu pouze 52 mIU/ml.

Viz také

Poznámky

  1. Zhang, Zakhor, 2014 .
  2. Lu, Rasmussen, 2012 .

Literatura