Dimenze Vapnik-Chervonenkis

Vapnik-Chervonenkisova dimenze nebo VC-dimenze  je charakteristika rodiny algoritmů pro řešení klasifikačního problému se dvěma třídami, charakterizující složitost nebo kapacitu této rodiny. Je to jeden z klíčových konceptů Vapnik-Chervonenkis teorie statistického strojového učení a je pojmenován po Vladimir Vapnik a Alexey Chervonenkis .

Vapnik a Chervonenkis sami raději nazývají tuto veličinu kombinatorickou dimenzí , protože se ukázalo, že byla známa algebraistům ještě před objevem jejich teorie strojového učení .

Definice

Nechť je dána množina a nějaká rodina indikátorových funkcí (klasifikační algoritmy, rozhodovací pravidla) , kde  je argument funkcí,  je vektor parametrů definujících funkci. Každá taková funkce přiřadí každému prvku množiny jednu ze dvou daných tříd. VC-dimenze rodiny je největší číslo , takže existuje podmnožina prvků množiny , které funkce z lze rozdělit do dvou tříd všemi možnými způsoby. Pokud takové podmnožiny existují pro libovolně velké , pak se předpokládá, že VC-rozměr je rovna nekonečnu.

Dimenze VC lze také zobecnit na případ rodiny funkcí nabývajících skutečných hodnot. Jeho VC-dimenze je definována jako VC-dimenze rodiny indikátorových funkcí , kde rozsah funkcí . [jeden]

Příklady

Jako příklad si uveďme problém dělení bodů v rovině do dvou tříd přímkou ​​– jedná se o tzv. lineární klasifikátor . Množinu libovolných tří bodů, které neleží na jedné přímce, lze rozdělit přímkou ​​do dvou tříd všemi možnými způsoby ( způsoby zobrazené na obrázku níže znázorňují tři z nich), ale již neexistuje množina čtyři nebo více bodů. Proto je VC-rozměr lineárního klasifikátoru v rovině roven třem.

Příklady rozdělení tří
bodů do dvou tříd

Pro tyto čtyři body je oddělení nemožné

V obecném případě je VC-dimenze lineárních klasifikátorů v -rozměrném prostoru .

Viz také

Odkazy

Poznámky

  1. Hastie, T., Tibshirani R., Friedman J. Kapitola 7.9. Dimenze Vapnik–Chervonenkis // Prvky statistického učení: dolování dat, odvození a predikce . — 2. vyd. - Springer-Verlag, 2009. - 746 s. - ISBN 978-0-387-84857-0 . .