Extrakce rysů je druh abstrakce , proces redukce rozměrů , ve kterém je původní soubor počátečních proměnných redukován na lépe ovladatelné skupiny (vlastnosti) pro další zpracování, přičemž zůstává dostatečný soubor pro přesný a úplný popis původního souboru dat [1] . Extrakce funkcí se používá ve strojovém učení , rozpoznávání vzorů a při zpracování obrazu . Extrakce funkcí začíná z původního souboru dat, odvozuje sekundární hodnoty ( vlastnosti ), pro které mají být informativní a nikoli nadbytečné, což přispívá k následnému procesu strojového učení a zobecňování kroků a v některých případech vede k lepší lidská interpretace dat.
Pokud jsou vstupní data algoritmu příliš velká na zpracování a existuje podezření, že jsou data nadbytečná (například měření jsou prováděna ve stopách i metrech nebo je opakovatelnost obrázků reprezentována pixely ), mohou být přeměněny na redukovanou sadu funkcí (nazývanou feature vector ). Definice podmnožiny počátečních prvků se nazývá výběr prvků [2] . Vybrané vlastnosti jsou porovnávány s obsahem potřebných informací ve vstupních datech, takže požadovaný úkol lze provést pomocí této redukované sady namísto původních úplných dat.
Extrakce funkcí zahrnuje snížení počtu zdrojů potřebných k popisu velkého souboru dat. Při analýze komplexních dat je jeden z hlavních problémů způsoben množstvím proměnných. Analýza s velkým počtem proměnných obecně vyžaduje hodně paměti a výpočetního výkonu a může také způsobit, že algoritmy klasifikačního problému budou přeplněné s ohledem na trénovací sadu, což obecně vede ke špatným výsledkům u nových vzorků. Extrakce rysů je hlavní termín pro metody pro konstrukci kombinací proměnných, aby se tyto problémy vyhnuly a přitom byly data popsána s dostatečnou přesností. Mnoho odborníků na strojové učení věří, že správně optimalizovaná extrakce funkcí je klíčem k vytvoření efektivního modelu [3] .
Výsledky lze zlepšit pomocí sestavené sady funkcí specifických pro aplikaci, obvykle sestavené odborníky. Jeden takový proces se nazývá inženýrství funkcí . Alternativně se používají obecné techniky redukce rozměrů, jako jsou:
Jednou velmi důležitou oblastí aplikace extrakce funkcí je zpracování obrazu , které využívá algoritmy k detekci a izolaci různých požadovaných částí nebo tvarů (vlastností) digitálního obrazu nebo video streamu . Jednou z důležitých oblastí aplikace metod je optické rozpoznávání znaků .
Mnoho agregačních balíčků poskytuje extrakci funkcí a redukci rozměrů. Běžné systémy numerického zpracování, jako je MATLAB , Scilab , NumPy a jazyk R , podporují některé jednoduché techniky extrakce vlastností (jako je analýza hlavních komponent ) pomocí vestavěných příkazů. Specifičtější algoritmy jsou často dostupné jako skripty ve veřejné doméně nebo vývoj třetí strany. Existují také balíčky navržené pro konkrétní aplikace strojového učení speciálně pro extrakci funkcí. [čtyři]
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|