Výběr funkcí

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 30. září 2022; ověření vyžaduje 1 úpravu .

Výběr funkcí , také známý jako výběr proměnných , výběr atributů nebo výběr prediktorů (ve vzácných případech zobecnění) , je druh abstrakce , proces výběru podmnožiny významných prvků (závislých i nezávislých proměnných ) za účelem vytvoření modelu. Výběr funkcí se používá ze čtyř důvodů:

zjednodušení modelu pro zlepšení interpretovatelnosti [1]
ke zkrácení doby tréninku
abychom se vyhnuli prokletí dimenzionality
zlepšení zobecňující schopnosti modelu a boj proti nadměrnému vybavení [2] .

Ústředním poselstvím používání techniky výběru příznaků je myšlenka, že data obsahují některé příznaky, pokud jsou myšlenky nadbytečné nebo nevýznamné , lze je odstranit bez významné ztráty informací [2] . „ Nadbytečný“ a „ bezvýznamný“ jsou dva různé pojmy, protože jeden významný rys může být nadbytečný v přítomnosti jiného významného rysu, se kterým je vysoce korelován [3] .

Výběr funkce by měl být odlišen od extrakce funkcí . Extrakce prvků vytváří nové prvky jako funkce původních prvků, zatímco výběr prvků vrací podmnožinu prvků. Techniky výběru prvků se často používají v oblastech, kde je mnoho prvků a vzorky jsou relativně malé (málo datových bodů). Klasickými aplikacemi pro výběr prvků jsou analýza rukopisu a mikročipy DNA , kde existuje mnoho tisíc prvků a desítky až stovky vzorků .

Úvod

Algoritmus výběru prvků lze považovat za kombinaci vyhledávacích technik k reprezentaci nové podmnožiny prvků spolu s výpočtem míry, která odráží rozdíl v podmnožinách prvků. Nejjednodušším algoritmem je otestovat každou možnou podmnožinu funkcí a najít tu, která minimalizuje velikost chyby. Jedná se o vyčerpávající hledání prostoru a je výpočetně obtížné pro velké množství funkcí. Výběr metriky ovlivňuje výběr algoritmu. Metriky se liší pro tři hlavní kategorie algoritmů výběru prvků: obaly, filtry a metody vnoření [3] .

Metody zalamování používají model prioritizace výsledku k seřazení podmnožin prvků. Každá nová podmnožina slouží k trénování modelu, který je testován na kontrolní sadě. Na tomto kontrolním vzorku je vypočítán počet chyb (modelová chybovost), který poskytuje odhad pro tuto podmnožinu. Protože metody zalamování vyjmenovávají všechny podmnožiny funkcí a poté trénují model, jsou výpočetně nejnákladnější, ale zpravidla poskytují nejlepší sadu funkcí pro konkrétní model.
Metody filtrování používají k hodnocení podmnožiny funkcí proxy metriku místo chybové metriky. Tento ukazatel je zvolen tak, aby jej bylo možné snadno vypočítat při zachování ukazatele užitečnosti sady funkcí. Běžně používané míry jsou vzájemná informace [3] , bodová vzájemná informace [4] , Pearsonův koeficient smíšené momentové korelace , algoritmus založený na Relief [5] a vzdálenosti mezi třídami/uvnitř třídy nebo výsledku významnosti testy pro každou kombinaci třídy/vlastnosti [4] [6] . Filtry jsou obvykle výpočetně méně náročné než wrappery, ale poskytují sady funkcí, které nejsou vyladěny na konkrétní typ prediktivního modelu [7] . Tento nedostatek vyladění znamená, že sada vlastností získaná z filtru je obecnější než sada získaná z obalu, což má za následek menší zobecnění modelu než u obalu. Sada prvků však neobsahuje předpoklady o prediktivním modelu, a proto je vhodnější pro objevování vztahů mezi prvky. Mnoho filtrů poskytuje hodnocení funkcí, aniž by z nich výslovně uvádělo nejlepší podmnožinu, a hraniční bod v hodnocení se vybírá pomocí křížové validace . Filtrační metody se používají jako kroky předběžného zpracování pro metody balení, což umožňuje použití balení pro velké úkoly. Dalším oblíbeným přístupem je algoritmus rekurzivní eliminace příznaků, běžně používaný ve spojení s podpůrnými vektorovými stroji pro vícenásobné sestavení modelu a odstranění nevýznamných prvků.
Metody vkládání jsou obecnou skupinou technik, které provádějí výběr prvků jako součást procesu vytváření modelu. Příkladem takového přístupu je metoda LASSO ( angl. Least absolute shrinkage and selection operator - metoda pro odhad koeficientů lineárního regresního modelu) pro sestavení lineárního modelu, jako je regularizace , zabraňující tomu, aby koeficienty modelu růst a vynulovat ty nejméně významné. Jakékoli vlastnosti, které mají nenulové regresní koeficienty, jsou "vybrané" algoritmem LASSO. Mezi vylepšení algoritmu LASSO patří Bolasso algoritmus, který zavádí vzorkování [8] , elastická regularizace sítě , která kombinuje penalizaci LASSO s penalizací ridge regrese a metoda FeaLect, která vyhodnocuje všechny vlastnosti na základě kombinatorické analýzy regresní koeficienty [9] . Tyto přístupy spadají z hlediska výpočetní náročnosti někam mezi filtry a obaly. $L_{1}$ $L_{1}$ $L_{2}$

V tradičních statistikách je nejoblíbenější formou výběru prvků postupná regrese , což je technika zalamování. Je to chamtivý algoritmus , který přidává lepší vlastnost (nebo odstraňuje horší) v každém kroku algoritmu. Hlavním problémem je, když se algoritmus zastaví. Při trénování modelů se to obvykle provádí křížovou validací . Ve statistice jsou některá kritéria optimalizována. To vede k dědičnosti problému hnízdění. Byly také zkoumány robustnější metody, jako je metoda větvení a vazby a po částech lineární síť.

Výběr podmnožiny

Výběr podmnožiny vyhodnotí podmnožinu prvků jako skupinu stability. Algoritmy výběru podmnožin lze rozdělit na obaly, filtry a přílohy. Obálky používají vyhledávací algoritmus k analýze prostoru pro možné funkce a vyhodnocení každé podmnožiny spuštěním modelu na podmnožině. Obaly mohou být výpočetně drahé a hrozí u nich riziko přepasování modelu. „Filtry“ se ve svém přístupu k vyhledávání podobají „Wrapperům“, ale místo hodnocení modelu je hodnocen jednodušší filtr. Techniky hnízdění jsou zabudovány do modelu a jsou pro něj specifické.

Mnoho populárních přístupů používá chamtivé vertex search , které iterativně vyhodnocuje podmnožinu funkcí jako kandidáta, poté podmnožinu upravuje a hodnotí, o kolik je nová podmnožina lepší než stará. Bodování podmnožin vyžaduje použití bodovací metriky , která hodnotí podmnožiny funkcí. Vyčerpávající vyhledávání obvykle není proveditelné, takže vývojář (nebo operátor) definuje bod přerušení, přičemž jako uspokojivá podmnožina funkcí je vybrána podmnožina funkcí s nejvyšším dosaženým skóre, které bylo dosud nalezeno. Kritérium zastavení závisí na algoritmu. Možná kritéria jsou: skóre podmnožiny překračuje prahovou hodnotu, program překročil maximální povolenou dobu atd.

Alternativní techniky založené na vyhledávání jsou založeny na hledání cíle nejlepší projekce , které najde nízkorozměrné projekce dat s vysokým skóre – vyberou se prvky, které mají největší projekce v nízkorozměrném prostoru.

Přístupy vyhledávání:

Vyčerpávající hledání
Hledejte podle první nejlepší shody
Simulované žíhání
Genetický algoritmus [10]
Chamtivý výběr dopředu [11] [12] [13]
Výjimka chtivých zad
Metoda roje částic [14]
Cílené vyhledávání nejlepší projekce
Distribuované vyhledávání [15]
Hledat se střídajícími se čtvrtěmi [16] [17]

Dvě oblíbené metriky filtrů pro klasifikační problémy jsou korelace a vzájemné informace , i když ani jedna není skutečnou metrikou nebo mírou vzdálenosti“ v matematickém smyslu, protože neobsahují trojúhelníkovou nerovnost , a proto nepředstavují skutečnou „vzdálenost“ – měly by spíše být chápán jako „hodnocení“. Tato skóre se počítají mezi kandidátskými funkcemi (nebo sadami funkcí) a požadovanou kategorií. Existují však skutečné metriky, které jsou jednoduchými funkcemi vzájemné informace [18] .

Další možné metriky filtru:

Oddělitelnost tříd
Chyba Pravděpodobnost
Mezitřídní vzdálenost
Pravděpodobnostní vzdálenost
Entropie
Výběr funkcí na základě konzistence
Výběr funkcí na základě korelace.

Kritérium optimality

Volba kritéria optimality je obtížná, protože problém výběru prvků má několik cílů. Mnoho kritérií zahrnuje míru přesnosti penalizovanou počtem vybraných prvků (jako je Bayesovské informační kritérium ). Nejstarší statistiky jsou C p Mallows a informační kritérium Akaike ( AIC) . Přidávají proměnné, pokud je t - statistika větší než . ${\sqrt {2}}$

Dalšími kritérii jsou Bayesovské informační kritérium ( BIC ), které používá , minimální délka popisu ( MDL), která asymptoticky používá , Bonferroni / RIC, která používá , výběr funkcí s maximální závislostí a sada nových kritérií, která jsou diktována idea false discovery rate [ ( anglicky false discovery rate , FDR) a které používají něco blízkého . Kritérium maximální míry entropie lze také použít k výběru nejvýznamnější podmnožiny prvků [19] . ${\displaystyle {\sqrt {\log {n))))$ ${\displaystyle {\sqrt {\log {n))))$ ${\displaystyle {\sqrt {2\log {p))))$ ${\sqrt {2\log {\frac {p}{q))))$

Strukturální učení

Filtr pro výběr funkcí je speciálním případem obecnějšího paradigmatu zvaného „strukturální učení“ . Výběr funkcí najde smysluplnou sadu funkcí pro konkrétní cílovou proměnnou, zatímco strukturované učení najde vztahy mezi proměnnými, přičemž tyto vztahy obvykle vyjadřují jako graf. Nejběžnější algoritmy strukturovaného učení předpokládají, že data jsou generována Bayesovskou sítí , takže struktura je řízený grafový model . Optimálním řešením problému filtru pro výběr prvků je Markovovský plot cílového uzlu a Bayesovská síť má jeden Markovův plot pro každý uzel [20] .

Mechanismy výběru rysů založené na teorii informace

Existují různé mechanismy výběru funkcí, které využívají vzájemné informace k vyhodnocení různých funkcí. Obvykle používají stejný algoritmus:

Vzájemné informace se vypočítávají jako odhad mezi všemi funkcemi ( ) a cílovou třídou ( ) $f_{i}\in F$ $C$
Objekt s nejvyšším skóre je vybrán (například ) a přidán do sady vybraných funkcí ( ) $argmax_{f_{i}\in F}(I(f_{i},c))$ $S$
Vypočítá se odhad, který lze získat ze vzájemných informací
Vybereme funkci s nejvyšším skóre a přidáme ji do sady vybraných funkcí (například ) $argmax_{f_{i}\in F}(I_{derived}(f_{i},c))$
Opakujte kroky 3. a 4. Dokud nezískáte určitý počet funkcí (například ) $|S|=l$

Nejjednodušší přístup využívá vzájemné informace jako „odvozený“ odhad [21] .

Existují však různé přístupy, které se pokoušejí snížit redundanci mezi funkcemi.

Výběr funkcí na základě minimální redundance-maximální relevance

Peng, Long a Ding [22] navrhli metodu výběru jevů, která může využívat vzájemnou informaci, korelaci nebo odhad vzdálenosti/podobnosti pro výběr prvku. Cílem je postihnout významnost prvku v případě redundance způsobené přítomností v jiných vybraných prvcích. Význam množiny znaků S pro třídu c je určen průměrnou hodnotou všech hodnot vzájemné informace mezi jednotlivými vlastnostmi f i a třídou c :

D(S,c)={\frac {1}{|S|}}\součet _{f_{i}\in S}I(f_{i};c).

Redundance všech prvků v množině S je rovna průměrné hodnotě všech hodnot vzájemné informace mezi prvkem f i a prvkem f j :

R(S)={\frac {1}{|S|^{2}}}\součet _{f_{i},f_{j}\in S}I(f_{i};f_{ j}).

Kritérium minimální – redundance – maximální – relevance ( mRMR ) je kombinací dvou výše uvedených měření a definovaných jako:

\mathrm {mRMR} =\max _{S}\left[{\frac {1}{|S|}}\součet _{f_{i}\in S}I(f_{i};c )-{\frac {1}{|S|^{2}}}\součet _{f_{i},f_{j}\in S}I(f_{i};f_{j})\right] .

Předpokládejme, že existuje kompletní sada n funkcí. Nechť x i je indikační funkce výskytu v množině fi , takže x i = 1 odráží přítomnost a x i = 0 odráží nepřítomnost znaku fi v globální optimální sadě znaků. Nechte a . Výše uvedený vzorec lze nyní přepsat jako optimalizační problém: $c_{i}=I(f_{i};c)$ $a_{ij}=I(f_{i};f_{j})$

\mathrm {mRMR} =\max _{x\in \{0,1\}^{n}}\left[{\frac {\sum _{i=1}^{n}c_{i }x_{i}}{\součet _{i=1}^{n}x_{i}}}-{\frac {\součet _{i,j=1}^{n}a_{ij}x_{ i}x_{j}}{(\sum _{i=1}^{n}x_{i})^{2}}}\right].

Algoritmus mRMR je aproximací teoreticky optimálního algoritmu výběru vlastností s maximální závislostí, který maximalizuje vzájemnou informaci mezi společnou distribucí vybraných vlastností a klasifikační proměnnou. Protože mRMR aproximuje problém kombinatorického odhadu s řadou mnohem menších problémů, z nichž každý používá pouze dvě proměnné, používá pravděpodobnosti párového spojení, které jsou robustnější. V některých situacích může algoritmus podcenit užitečnost funkcí, protože nemá schopnost měřit vztah mezi funkcemi, což může zvýšit význam. To může vést ke špatnému výkonu [21] jsou rysy jednotlivě neužitečné, ale stávají se smysluplnými v kombinaci (patologický případ je nalezen, když je třída funkcí parity rysů ). Obecně je algoritmus efektivnější (z hlediska množství požadovaných dat) než teoreticky optimální volba maximální závislosti, přesto vytváří sadu funkcí s malou párovou redundancí.

Algoritmus mRMR je zástupcem velké třídy filtračních metod, které různými způsoby balancují mezi významností a redundancí [21] [23] .

Kvadratické programování pro výběr funkcí

Algoritmus mRMR je typickým příkladem inkrementální chamtivé strategie pro výběr funkce – jakmile je funkce vybrána, nelze ji v následujících krocích z výběru odstranit. Zatímco mRMR lze optimalizovat pomocí plovoucího vyhledávání, aby se omezily některé funkce, lze jej přeformulovat jako globální problém optimalizace kvadratického programování [24] :

\mathrm {QPFS} :\min _{\mathbf {x} }\left\{\alpha \mathbf {x} ^{T}H\mathbf {x} -\mathbf {x} ^{T} F\right\}\quad \ \sum _{i=1}^{n}x_{i}=1,x_{i}\geq 0,

kde je vektor významnosti příznaků za předpokladu, že existuje celkem n příznaků, je párová matice významnosti a představuje relativní váhy příznaků. Problém QPFS je řešen metodami kvadratického programování. Ukázalo se, že QFPS je vychýlen směrem k rysům s nižší entropií [25] kvůli vlastní redundanci prvku na diagonále H matice . ${\displaystyle F_{n\times 1}=[I(f_{1};c),\ldots ,I(f_{n};c)]^{T))$ ${\displaystyle H_{n\times n}=[I(f_{i};f_{j})]_{i,j=1\ldots n))$ $\mathbf {x} _{n\times 1}$ $I(f_{i};f_{i})$

Podmíněné vzájemné informace

Další odhad odvozený ze vzájemných informací je založen na podmíněné významnosti [25] :

\mathrm {SPEC_{CMI}} :\max _{\mathbf {x} }\left\{\mathbf {x} ^{T}Q\mathbf {x} \right\}\quad \ \| \mathbf {x} \|=1,x_{i}\geq 0,

kde a . $Q_{ii}=I(f_{i};c)$ $Q_{ij}=I(f_{i};c|f_{j}),i\neq j$

Výhodou SPEC CMI je, že jej lze vyřešit jednoduše nalezením dominantního vlastního vektoru Q . SPEC CMI také zpracovává funkce vztahů druhého řádu.

Sdílené vzájemné informace

Brown, Powcock, Zhao a Luhan [21] ve studii různých odhadů doporučili společné vzájemné informace [26] jako dobrý odhad pro výběr vlastností. Hodnocení se snaží najít prvek, který přidává nejvíce nových informací k již vybraným prvkům, aby se předešlo nadbytečnosti. Skóre je formulováno takto:

${\begin{aligned}JMI(f_{i})&=\sum _{f_{j}\in S}(I(f_{i};c)+I(f_{i};c| f_{j}))\\&=\součet _{f_{j}\v S}{\bigl [}I(f_{j};c)+I(f_{i};c)-{\bigl (}I(f_{i};f_{j})-I(f_{i};f_{j}|c){\bigr )}{\bigr ]}\end{aligned)).$

Hodnocení využívá podmíněné vzájemné informace a vzájemné informace k hodnocení redundance mezi již vybranými znaky ( ) a zkoumaným znakem ( ). $f_{j}\in S$ $f_{i}$

Výběr funkcí na základě kritéria nezávislosti lasa Hilberta-Schmidta

Pro vysokorozměrná data a malá data (například rozměrnost > a velikost vzorku < ) je užitečný Hilbert-Schmidtův test nezávislosti lasa (HSIC Lasso) [27] . Problém optimalizace lasa HSIC je dán jako $10^{5}$ $10^{3}$

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\sum _{k,l=1}^{n}x_{k} x_{l}{\mbox{HSIC}}(f_{k},f_{l})-\sum _{k=1}^{n}x_{k}{\mbox{HSIC}}(f_{k },c)+\lambda \|\mathbf {x} \|_{1},\quad \ x_{1},\ldots ,x_{n}\geq 0,

kde je míra nezávislosti jádra nazývaná (empirické) kritérium nezávislosti Hilbert -Schmidt (HSIC), označuje průběh, je regularizační parametr a jsou vstupní a výstupní centrované Gram matice a jsou Gramovy matice a jsou funkcemi jádra, je centrovaná matice, je m - rozměrná matice identity ( m : počet prvků ve vzorku), je m - rozměrným vektorem se všemi jedničkami a je -norma. HSIC má vždy nezápornou hodnotu a rovná se nule právě tehdy, když jsou dvě náhodné proměnné statisticky nezávislé pomocí univerzálního generujícího jádra, jako je Gaussovo jádro. ${\mbox{HSIC}}(f_{k},c)={\mbox{tr}}({\bar {\mathbf {K} }}^{(k)}{\bar {\mathbf {L} }}}$ ${\mbox{tr))(\cdot )$ $\lambda$ ${\bar {\mathbf {K} }}^{(k)}=\mathbf {\Gamma } \mathbf {K} ^{(k)}\mathbf {\Gamma }$ ${\bar {\mathbf {L} }}=\mathbf {\Gamma } \mathbf {L} \mathbf {\Gamma }$ $K_{i,j}^{(k)}=K(u_{k,i},u_{k,j})$ $L_{i,j}=L(c_{i},c_{j})$ $K(u,u')$ $L(c,c')$ $\mathbf {\Gamma } =\mathbf {E} _{m}-{\frac {1}{m}}\mathbf {1} _{m}\mathbf {1} _{m}^{ T}$ ${\displaystyle \mathbf {E} _{m))$ ${\displaystyle \mathbf {1} _{m))$ ${\displaystyle \|\cdot \|_{1))$ $\ell _{1}$

HSIC Lasso lze psát jako

\mathrm {HSIC_{Lasso}} :\min _{\mathbf {x} }{\frac {1}{2}}\left\|{\bar {\mathbf {L} }}-\sum _{k=1}^{n}x_{k}{\bar {\mathbf {K} }}^{(k)}\right\|_{F}^{2}+\lambda \|\mathbf {x} \|_{1},\quad \ x_{1},\ldots ,x_{n}\geq 0,

kde je Frobeniova norma . Optimalizační problém je problém lasa, a proto jej lze efektivně řešit pomocí moderních metod řešení lasa, jako je duální metoda zobecněného Lagrangiána . ${\displaystyle \|\cdot \|_{F))$

Výběr funkcí na základě korelace

Correlation Feature Selection (CFS) vyhodnocuje podmnožiny prvků na základě následující hypotézy : „Podmnožiny dobrých vlastností obsahují vlastnosti, které vysoce korelují s klasifikací, ale nekorelují spolu“ [28] [29] . Následující rovnost poskytuje odhad podmnožiny prvků S , sestávající z k prvků:

\mathrm {Merit} _{S_{k}}={\frac {k{\overline {r_{cf}}}}{\sqrt {k+k(k-1){\overline {r_{ ff}}}}}}.

Zde je průměr všech korelací třídy prvků a je průměr všech korelací mezi prvky. Kritérium CFS je definováno takto: ${\displaystyle {\overline {r_{cf))))$ ${\displaystyle {\overline {r_{ff))))$

\mathrm {CFS} =\max _{S_{k}}\left[{\frac {r_{cf_{1}}+r_{cf_{2}}+\cdots +r_{cf_{k} }}{\sqrt {k+2(r_{f_{1}f_{2}}+\cdots +r_{f_{i}f_{j}}+\cdots +r_{f_{k}f_{1} })}}}\že jo].

Proměnné a jsou korelace, ale ne nutně Pearsonovy korelační koeficienty nebo Spearmanovo ρ . Disertační práce Marka Halla nepoužívá žádnou z nich, ale používá tři různé míry příbuznosti, minimální délku popisu ( MDL), symetrickou nejistotu a reliéf . $r_{cf_{i))$ $r_{f_{i}f_{j))$

Nechť x i je indikační funkce výskytu v množině pro vlastnost f i . Potom lze výše uvedený vzorec přepsat jako optimalizační problém:

\mathrm {CFS} =\max _{x\in \{0,1\}^{n}}\left[{\frac {(\sum _{i=1}^{n}a_{ i}x_{i})^{2}}{\součet _{i=1}^{n}x_{i}+\součet _{i\neq j}2b_{ij}x_{i}x_{j }}}\že jo].

Výše uvedené kombinatorické problémy jsou ve skutečnosti smíšené problémy lineárního programování 0-1 , které lze vyřešit pomocí větveného a vázaného algoritmu [30] .

Regulované stromy

Ukázalo se, že prvky z rozhodovacího stromu nebo souborů stromů jsou nadbytečné. K výběru podmnožiny funkcí lze použít nedávnou metodu nazvanou "regularized tree" [31] . Regularizované stromy jsou penalizovány proměnnou podobnou proměnným vybraným v předchozích uzlech stromu pro rozdělení aktuálního uzlu. Pro regularizované stromy je potřeba sestavit pouze jeden model (nebo jeden soubor stromů), a proto je algoritmus výpočetně efektivní.

Regularizované stromy přirozeně pracují s numerickými a kategorickými rysy, interakcemi a nelinearitami. Jsou invariantní s ohledem na měřítko atributů (jednotek) a necitlivé na odlehlé hodnoty, a proto vyžadují malé předběžné zpracování dat, jako je normalizace . Regularizovaný náhodný les ( RRF ) [32] je jedním z typů regularizovaných stromů . Driven RRF je vylepšení RRF, které je řízeno skóre důležitosti z běžného náhodného lesa.

Přehled metaheuristických metod

Metaalgoritmus (nebo metaheuristický) je obecný popis algoritmu navrženého k řešení těžkých (typicky NP-těžkých problémů) optimalizačních problémů, pro které nejsou dostupné žádné metody řešení. Meta-algoritmus je typicky stochastický algoritmus, který se snaží dosáhnout globálního optima. Existuje mnoho meta-algoritmů od jednoduchého lokálního vyhledávání až po komplexní globální vyhledávací algoritmus.

Základní principy

Techniky výběru prvků jsou obvykle reprezentovány třemi třídami podle toho, jak kombinují algoritmy výběru a vytváření modelů.

Metoda filtru

Metody filtru vybírají proměnné bez ohledu na model. Jsou založeny pouze na obecných rysech, jako je korelace proměnné s predikcí. Filtrační metody potlačují nejméně zajímavé proměnné. Ostatní proměnné budou součástí klasifikačního nebo regresního modelu používaného ke klasifikaci nebo predikci. Tyto metody jsou velmi efektivní z hlediska výpočetního času a odolné proti přemontování [33] .

Metody filtrování však mají tendenci vybírat nadbytečné proměnné, protože neberou v úvahu vztah mezi proměnnými. Z tohoto důvodu se tyto metody používají především jako metody předzpracování.

Metoda zabalení

Metody obalování vyhodnocují podmnožiny proměnných a umožňují, na rozdíl od filtračních přístupů, detekovat možný vztah mezi proměnnými [34] . Dvě hlavní nevýhody těchto metod jsou:

Při nedostatečném počtu pozorování se zvyšuje riziko přemontování.
Významná doba výpočtu při velkém počtu proměnných.

Metoda vnoření

Metody vkládání byly navrženy jako pokus spojit výhody dvou předchozích metod. Učící algoritmus využívá svůj vlastní variabilní proces výběru a současně provádí výběr a klasifikaci vlastností.

Aplikace metaheuristiky výběru vlastností

Níže je uveden přehled aplikací metaalgoritmů výběru vlastností používaných v literatuře. Přehled podala v práci Julia Hammon [33] .

aplikace	Algoritmus	Přístup	klasifikátor	Funkce hodnoty	Odkaz
SNP	Výběr funkcí pomocí podobnosti funkcí	Filtr		r2 _	Phuong 2005 [34]
SNP	genetický algoritmus	Obal	rozhodovací strom	Správnost klasifikace (10-cr)	Shah, Kusiak 2004 [35]
SNP	Hledejte podle výstupu na vrchol	Filtr + obal	Naivní Bayesův klasifikátor	Prediktivní zbytkový součet čtverců	Lohn 2007 [36]
SNP	Algoritmus simulovaného žíhání		Naivní Bayesův klasifikátor	Správnost klasifikace (5-cr)	Ustunkar 2011 [37]
Heslo pro segmenty	Algoritmus mravenčí kolonie	Obal	Umělá neuronová síť	MSE	Al-ani 2005
Marketing	Algoritmus simulovaného žíhání	Obal	Regrese	AIC , r2	Meiri 2006 [38]
Ekonomika	Algoritmus simulace žíhání, genetický algoritmus	Obal	Regrese	BIC	Kapetanios 2005 [39]
Spektrální hmotnost	genetický algoritmus	Obal	Vícenásobná lineární regrese, částečné nejmenší čtverce	Střední kvadratická chyba predikce	Broadhurst 2007 [40]
Spam	Binary Particle Swarm Method + Mutace	Obal	rozhodovací strom	vážená cena	leden 2014 [14]
mikromatrice	Barred Search + Particle Swarm Method	Obal	Podporujte vektorový stroj , k-nejbližší sousedy	Euklidovská metrika	Chang, Young 2009 [41]
mikromatrice	PSO + genetický algoritmus	Obal	Podpora vektorového stroje	Správnost klasifikace (10-cr)	Alba 2007 [42]
mikromatrice	Genetický algoritmus + Iterativní místní vyhledávání	Vnořeno	Podpora vektorového stroje	Správnost klasifikace (10-cr)	Duval 2009 [43]
mikromatrice	Obal	Regrese	Zadní pravděpodobnost	Hans, Dorba, Západ 2007 [44]
mikromatrice	genetický algoritmus	Obal	metoda k-nejbližšího souseda	Správnost klasifikace ( Křížová validace s vyloučením )	Aitken 2005 [45]
mikromatrice	Hybridní genetický algoritmus	Obal	metoda k-nejbližšího souseda	Správnost klasifikace (křížová validace s vyloučením)	Oh Moon 2004 [46]
mikromatrice	genetický algoritmus	Obal	Podpora vektorového stroje	Citlivost a specifičnost	Xuan 2011 [47]
mikromatrice	genetický algoritmus	Obal	Párová podpora vektorového stroje	Správnost klasifikace (křížová validace s vyloučením)	Peng 2003 [48]
mikromatrice	genetický algoritmus	Vnořeno	Podpora vektorového stroje	Správnost klasifikace (10-cr)	Hernandez 2007 [49]
mikromatrice	genetický algoritmus	Hybridní	Podpora vektorového stroje	Správnost klasifikace (křížová validace s vyloučením)	Huerta 2006 [50]
mikromatrice	genetický algoritmus		Podpora vektorového stroje	Správnost klasifikace (10-cr)	Mooney, Pal, Das 2006 [51] .
mikromatrice	genetický algoritmus	Obal	Podpora vektorového stroje	EH-DIALL, CLUMP	Jourdain 2011 [52] .
Alzheimerova choroba	Welchův t-test	Filtr	vektorový stroj na podporu jádra	Správnost klasifikace (10-cr)	Zhang 2015 [53]
počítačové vidění	Nekonečný výběr funkcí	Filtr	nezávislý	Průměrná přesnost , ROC-plocha pod křivkou	Roffo 2015 [54]
Microarrays	Centralita vlastního vektoru FS	Filtr	nezávislý	Průměrná přesnost, přesnost, ROC AUC	Roffo, Melzi 2016 [55]
XML	Symetrický Tau algoritmus	Filtr	Strukturální asociativní klasifikace	Přesnost, nátěr	Shaharani, Hadzic 2014

Výběr funkcí zabudovaných do výukových algoritmů

Některé učící algoritmy provádějí výběr funkcí jako součást algoritmu:

-regularizační techniky , jako je řídká regrese, LASSO a -SVM $l_{1}$ $l_{1}$
Regulované stromy [31] , jako je například regularizovaný náhodný les implementovaný v balíčku RRF [32]
Rozhodovací strom [56]
Memetický algoritmus
Random multinomial logit ( ang. Random multinomial logit , RMNL)
Úzká vrstva autokódovací sítě
Identifikace submodulárních funkcí [57] [58] [59]
Výběr funkcí na základě místního učení [60] . Ve srovnání s tradičními metodami tato metoda nepoužívá heuristické vyhledávání, snadno si poradí s problémy s velkým počtem tříd a pracuje na lineárních i nelineárních problémech. Metoda je podpořena i z teoretické stránky. Numerické experimenty ukázaly, že metoda může dosáhnout téměř optimálního řešení, i když data obsahují více než milion nevýznamných prvků.

Viz také

Poznámky

↑ James, Witten, Hastie, Tibshirani, 2013 , str. 204.
↑ 1 2 Bermingham, Pong-Wong, Spiliopoulou a kol., 2015 , s. 10312.
↑ 1 2 3 Guyon, Elisseeff, 2003 .
↑ 12 Yang , Pedersen, 1997 .
↑ Urbanowicz, Meeker, LaCava, Olson, Moore, 2017 .
↑ Forman, 2003 , str. 1289–1305.
↑ Zhang, Li, Wang, Zhang, 2013 , str. 32–42.
↑ Bach, 2008 , str. 33–40.
↑ Zare, 2013 , str. S14.
↑ Soufan, Kleftogiannis, Kalnis, Bajic, 2015 , str. e0117988.
↑ Figueroa, 2015 , str. 162–169.
↑ Figueroa, Neumann, 2013 .
↑ Figueroa, Neumann, 2014 , str. 4730–4742.
↑ 1 2 Zhang, Wang, Phillips, 2014 , str. 22–31.
↑ Garcia-Lopez, Garcia-Torres, Melian, Moreno-Perez, Moreno-Vega, 2006 , str. 477–489.
↑ Garcia-Lopez, Garcia-Torres, Melian, Moreno-Perez, Moreno-Vega, 2004 , str. 59–68.
↑ Garcia-Torres, Gomez-Vela, Melian, Moreno-Vega, 2016 , str. 102-118.
↑ Kraskov, Stögbauer, Andrzejak, Grassberger, 2003 .
↑ Einicke, 2018 , str. 1097–1103.
↑ Aliferis, 2010 , str. 171–234.
↑ 1 2 3 4 Brown, Pocock, Zhao, Luján, 2012 , str. 27-66.
↑ Peng, Long, Ding, 2005 , str. 1226–1238.
↑ Nguyen, Franke, Petrovic, 2010 , str. 1529-1532.
↑ Rodriguez-Lujan, Huerta, Elkan, Santa Cruz, 2010 , str. 1491–1516
↑ 1 2 Vinh, Chan, Romano, Bailey, 2014 .
↑ Yang, Moody, 2000 , str. 687-693.
↑ Yamada, Jitkrittum, Sigal, Xing, Sugiyama, 2014 , str. 185-207.
↑ Hall, 1999 .
↑ Senliol, Gulgezen, Yu, Cataltepe, 2008 , str. 1-4.
↑ Nguyen, Franke, Petrovic, 2009 .
↑ 12 Deng, Runger , 2012 .
↑ 1 2 RRF: Regularized Random Forest Archivováno 5. ledna 2019 na Wayback Machine , R balíček v úložišti Comprehensive R Archive Network (CRAN)
↑ 12 Hammon , 2013 .
↑ 1 2 Phuong, Lin, Altman, 2005 , str. 301-309.
↑ Shah, Kusiak, 2004 , str. 183–196.
↑ Long, Gianola, Weigel, 2011 , str. 247–257.
↑ Ustunkar, Ozogur-Akyuz, Weber, Friedrich, Syn, 2011 , str. 1207–1218
↑ Meiri, Zahavi, 2006 , str. 842-858.
↑ Kapetanios, 2005 .
↑ Broadhurst, Goodacre, Jones, Rowland, Kell, 1997 , str. 71-86.
↑ Chuang, Yang, 2009 , str. 1689–1703
↑ Alba, Garia-Nieto, Jourdan, Talbi, 2007 .
↑ Duval, Hao, Hernandez, 2009 , str. 201-208.
↑ Hans, Dobrá, West, 2007 , str. 507-516.
↑ Aitken, 2005 , str. 148.
↑ Oh, Moon, 2004 , str. 1424–1437
↑ Xuan, Guo, Wang, Liu, Liu, 2011 , str. 588–603.
↑ Peng, 2003 , str. 358–362.
↑ Hernandez, Duval, Hao, 2007 , str. 90-101.
↑ Huerta, Duval, Hao, 2006 , str. 34-44.
↑ Muni, Pal, Das, 2006 , str. 106-117.
↑ Jourdan, Dhaenens, Talbi, 2011 .
↑ Zhang, Dong, Phillips, Wang, 2015 , str. 66.
↑ Roffo, Melzi, Cristani, 2015 , str. 4202–4210.
↑ Roffo, Melzi, 2016 , str. 19-38.
↑ Kohavi, John, 1997 , str. 273-324.
↑ Das, Kempe, 2011 .
↑ Liu, Wei, Kirchhoff, Song, Bilmes, 2013 .
↑ Zheng, Jiang, Chellappa, Phillip, 2014 .
↑ Sun, Todorovic, Goodison, 2010 , str. 1610-1626.

Literatura

Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani. Úvod do statistického učení . — Springer, 2013.
Mairead L. Bermingham, Ricardo Pong-Wong, Athina Spiliopoulou, Caroline Hayward, Igor Rudan, Harry Campbell, Alan F. Wright, James F. Wilson, Felix Agakov, Pau Navarro, Chris S. Haley. Aplikace výběru vysokorozměrných znaků: hodnocení pro genomickou predikci u člověka // Sci. Rep. . - 2015. - T. 5 . - doi : 10.1038/srep10312 . - . — PMID 25988841 .
Othman Soufan, Dimitrios Kleftogiannis, Panos Kalnis, Vladimir B. Bajic. DWFS: Nástroj pro výběr funkcí Wrapper založený na paralelním genetickém algoritmu // PLOS One. - 2015. - T. 10 , no. 2 . — ISSN 1932-6203 . - doi : 10.1371/journal.pone.0117988 . — . — PMID 25719748 .
Alejandro Figueroa. Zkoumání účinných funkcí pro rozpoznání záměru uživatele za webovými dotazy // Computers in Industry. - 2015. - T. 68 . - doi : 10.1016/j.compind.2015.01.005 .
Alejandro Figueroa, Guenter Neumann. Naučit se hodnotit efektivní parafráze z protokolů dotazů pro zodpovídání otázek komunity // 27. konference AAAI o umělé inteligenci . — 2013.
Alejandro Figueroa, Guenter Neumann. Modely specifické pro kategorii pro hodnocení efektivních parafráze v komunitě Odpovědi na otázky // Expertní systémy s aplikacemi. - 2014. - T. 41 , č. 10 . - doi : 10.1016/j.eswa.2014.02.004 .
Zhang Y., Wang S., Phillips P. Binární PSO s operátorem mutace pro výběr funkcí pomocí rozhodovacího stromu aplikovaného na detekci spamu // Knowledge-Based Systems. - 2014. - T. 64 . - doi : 10.1016/j.knosys.2014.03.015 .
Garcia-Lopez FC, Garcia-Torres M., Melian B., Moreno-Perez JA, Moreno-Vega JM Řešení problému výběru podmnožiny funkcí pomocí paralelního rozptylového vyhledávání // European Journal of Operational Research. - 2006. - T. 169 , č. 2 .
Garcia-Lopez FC, Garcia-Torres M., Melian B., Moreno-Perez JA, Moreno-Vega JM Řešení problému výběru podmnožiny funkcí hybridní metaheuristikou // První mezinárodní seminář o hybridní metaheuristice. - 2004. - S. 59-68.
Garcia-Torres M., Gomez-Vela F., Melian B., Moreno-Vega JM Výběr vysoce dimenzionálních prvků prostřednictvím seskupování prvků: Přístup k vyhledávání proměnných sousedství // Informační vědy. - 2016. - T. 326 .
Alexander Kraskov, Harald Stögbauer, Ralph G. Andrzejak, Peter Grassberger. Hierarchické shlukování založené na vzájemných informacích . - 2003. - . - arXiv : q-bio/0311039 .
Nguyen X. Vinh, Jeffrey Chan, Simone Romano, James Bailey. Efektivní globální přístupy pro výběr funkcí založených na vzájemných informacích // 20. konference ACM SIGKDD o získávání znalostí a dolování dat (KDD'14), 24.–27. srpna . — New York City, 2014.
Howard Hua Yang, John Moody. Vizualizace dat a výběr funkcí: Nové algoritmy pro negaussovská data // Pokroky v systémech zpracování neuronových informací. — 2000.
Yamada M., Jitkrittum W., Sigal L., Xing EP, Sugiyama M. Výběr vysokorozměrných funkcí pomocí nelineárního lasa podle funkcí // Neural Computation. - 2014. - T. 26 , č. 1 .
Mark A Hall. Výběr funkcí pro strojové učení založený na korelaci . — 1999.
Baris Senliol, Gokhan Gulgezen, Lei Yu, Zehra Cataltepe. Fast Correlation Based Filter (FCBF) s jinou strategií vyhledávání // ISCIS'08. 23. mezinárodní sympozium dne. . - IEEE, 2008. - S. 1-4.
Hai Nguyen, Katrin Franke, Slobodan Petrovic. Optimalizace třídy opatření pro výběr funkcí // Konference NIPS 2009 Workshop on Discrete Optimization in Machine Learning: Submodularity, Sparsity & Polyhedra (DISCML), Vancouver, Kanada, prosinec 2009 . — 2009.
Hammon J. Kombinace optimalizace pro výběr proměnných v regresi ve velké dimenzi : Aplikace ve génétique animale. . — 2013.
Kohavi R., John G. Wrappers pro výběr podmnožiny funkcí // Umělá inteligence 97. - 1997. - Sv. 1-2 .
Deng H., Runger G. Výběr funkcí prostřednictvím regulovaných stromů // Sborník příspěvků z mezinárodní společné konference o neuronových sítích (IJCNN) 2012 . — IEEE, 2012.
Phuong TM, Lin Z., Altman RB Výběr SNP pomocí výběru funkcí // IEEE Computational Systems Bioinformatics Conference, CSB. Konference o bioinformatice počítačových systémů IEEE . — 2005. Archivováno 13. září 2016 na Wayback Machine
Gavin Brown, Adam Pocock, Ming-Jie Zhao, Mikel Luján. Maximalizace podmíněné pravděpodobnosti: Sjednocující rámec pro výběr informačních teoretických funkcí // Journal of Machine Learning Research. - 2012. - T. 13 . [jeden]
Shah SC, Kusiak A. Dolování dat a genetický algoritmus založený na genu/výběr SNP // Umělá inteligence v medicíně. - 2004. - T. 31 , no. 3 . - doi : 10.1016/j.artmed.2004.04.002 . — PMID 15302085 .
Long N., Gianola D., Weigel KA Redukce dimenze a variabilní selekce pro genomickou selekci: aplikace pro predikci mléčné užitkovosti u Holštýnska // Journal of Animal Breeding and Genetics. - 2011. - T. 128 , č.p. 4 . - doi : 10.1111/j.1439-0388.2011.00917.x . — PMID 21749471 .
Ustunkar G., Ozogur-Akyuz S., Weber GW, Friedrich CM, Yesim Aydin Son. Výběr reprezentativních souborů SNP pro celogenomové asociační studie: metaheuristický přístup // Optimization Letters. - Springer-Verlag, 2011. - Listopad ( díl 6 , číslo 6 ). - doi : 10.1007/s11590-011-0419-7 .
Meiri R., Zahavi J. Použití simulovaného žíhání k optimalizaci problému výběru vlastností v marketingových aplikacích // European Journal of Operational Research. - 2006. - Juin ( roč. 171 , č. 3 ).
Kapetanios G. Výběr proměnných pomocí nestandardní optimalizace informačních kritérií . - 2005. - (Working Paper, Queen Mary, University of London, School of Economics and Finance).
Broadhurst D., Goodacre R., Jones A., Rowland JJ, Kell DB Genetické algoritmy jako metoda pro variabilní výběr ve vícenásobné lineární regresi a částečné regresi nejmenších čtverců s aplikacemi pro pyrolýzní hmotnostní spektrometrii // Analytica Chimica Acta. - 1997. - Srpen ( roč. 348 , č. 1-3 ).
Chuang L.-Y., Yang C.-H. Vyhledávání pomocí Tabu a optimalizace roje binárních částic pro výběr prvků pomocí dat z mikročipů // Journal of Computational Biology. - 2009. - T. 16 , no. 12 . - doi : 10.1089/cmb.2007.0211 . — PMID 20047491 .
Alba E., Garia-Nieto J., Jourdan L., Talbi E.-G. Gene Selection in Cancer Classification using PSO-SVM a GA-SVM Hybrid Algorithms // Congress on Evolutionary Computation, Singapur, 2007 . — Singapur, 2007.
Duval B., Hao J.-K., Hernandez JCH Memetický algoritmus pro genovou selekci a molekulární klasifikaci rakoviny // Proceedings of the 11th Annual Conference on Genetic and evolutionary computation, GECCO '09 . — New York, NY, USA: ACM, 2009.
Hans C., Dobra A., West M. Shotgun stochastické hledání regrese „velkého p“ // Journal of the American Statistical Association. - 2007. - T. 102 , č. 478 . - S. 507-516 . — ISSN 0162-1459 . - doi : 10.1198/016214507000000121 .
Isabelle Guyon, André Elisseeff. Úvod do výběru proměnných a funkcí // JMLR . - 2003. - T. 3 .
Ryan J. Urbanowicz, Melissa Meeker, William LaCava, Randal S. Olson, Jason H. Moore. Výběr funkcí založených na reliéfu: Úvod a recenze // Journal of Biomedical Informatics. - 2017. - Vydání. 85 . - doi : 10.1016/j.jbi.2018.07.014 .
Yiming Yang, Jan O. Pedersen. Srovnávací studie o výběru funkcí v kategorizaci textu // Sborník příspěvků ze čtrnácté mezinárodní konference o strojovém učení (ICML). - 1997. - ISBN 1-55860-486-3 .
Jiří Forman. Rozsáhlá empirická studie metrik výběru funkcí pro klasifikaci textu // Journal of Machine Learning Research. - 2003. - T. 3 . — ISSN 1533-7928 .
Yishi Zhang, Shujuan Li, Teng Wang, Zigang Zhang. Výběr funkcí založený na divergenci pro samostatné třídy // Neurocomputing. - 2013. - T. 101 , č.p. 4 . - doi : 10.1016/j.neucom.2012.06.036 .
Francis R. Bach. Bolasso: model konzistentního odhadu lasa pomocí bootstrapu . — Sborník příspěvků z 25. mezinárodní konference o strojovém učení. - 2008. - ISBN 9781605582054 . - doi : 10.1145/1390156.1390161 .
Habil Zare. Bodování relevance znaků na základě kombinatorické analýzy lasa s aplikací na diagnostiku lymfomů // BMC Genomics. - 2013. - T. 14 . - doi : 10.1186/1471-2164-14-S1-S14 . — PMID 23369194 .
Einicke GA Výběr funkcí maximální entropie pro klasifikaci změn v dynamice kolen a kotníků během běhu // IEEE Journal of Biomedical and Health Informatics. - 2018. - T. 28 , no. 4 . doi : 10.1109 / JBHI.2017.2711487 . — PMID 29969403 .
Constantine Aliferis. Lokální kauzální a markovovská indukce pro kauzální objev a výběr vlastností pro klasifikační část I: Algoritmy a empirické hodnocení // Journal of Machine Learning Research. - 2010. - T. 11 .
Peng HC, Long F., Ding C. Výběr funkcí na základě vzájemných informací: kritéria maximální závislosti, maximální relevance a minimální redundance // Transakce IEEE na analýze vzorů a strojové inteligenci. - 2005. - T. 27 , no. 8 . - doi : 10.1109/TPAMI.2005.159 . — PMID 16119262 . Program
Nguyen H., Franke K., Petrovic S. K obecnému opatření pro výběr funkcí pro detekci narušení // 20. mezinárodní konference o rozpoznávání vzorů (ICPR) . — Istanbul, Turecko, 2010.
Rodriguez-Lujan I., Huerta R., Elkan C., Santa Cruz C. Výběr funkcí kvadratického programování // JMLR . - 2010. - T. 11 .
Aitken S. Výběr a klasifikace vlastností pro analýzu dat microarray: Evoluční metody pro identifikaci prediktivních genů // BMC Bioinformatics. - 2005. - T. 6 , no. 1 . - doi : 10.1186/1471-2105-6-148 . — PMID 15958165 .
Oh IS, Moon BR Hybridní genetické algoritmy pro výběr funkcí // Transakce IEEE na analýze vzorů a strojové inteligenci. - 2004. - T. 26 , no. 11 . - doi : 10.1109/tpami.2004.105 . — PMID 15521491 .
Xuan P., Guo MZ, Wang J., Liu XY, Liu Y. Výběr efektivních vlastností pro klasifikaci pre-miRNA založený na genetickém algoritmu // Genetika a molekulární výzkum. - 2011. - T. 10 , no. 2 . - doi : 10.4238/vol10-2gmr969 . — PMID 21491369 .
Peng S. Molekulární klasifikace typů rakoviny z dat microarray pomocí kombinace genetických algoritmů a podpůrných vektorových strojů // FEBS Letters. - 2003. - T. 555 , č.p. 2 . - doi : 10.1016/s0014-5793(03)01275-4 .
Jose Crispin Hernandez Hernandez, B´eatrice Duval, Jin-Kao Hao. Geneticky zabudovaný přístup pro genovou selekci a klasifikaci dat microarray // Evoluční výpočty, strojové učení a dolování dat v bioinformatice, EvoBIO'07. - Berlin, Heidelberg: SpringerVerlag, 2007. - T. 4447. - (Poznámky k přednáškám z informatiky). — ISBN 3-540-71782-X .
Huerta EB, Duval B., Hao J.-K. Hybridní GA/SVM přístup pro selekci genů a klasifikaci dat z mikročipů. Evoworkshopy // Aplikace EvolutionaryComputingu. - 2006. - T. 3907. - S. 34-44. — (Poznámky z informatiky).
Muni DP, Pal NR, Das J. Genetické programování pro simultánní výběr vlastností a návrh klasifikátorů // Transakce IEEE na systémech, člověku a kybernetice, Část B: Kybernetika. - 2006. - T. 36.
Laetitia Jourdan, Clarisse Dhaenens, El-Ghazali Talbi. Studie nerovnováhy propojení s paralelním adaptivním GA // International Journal of Foundations of Computer Science. - 2011. - T. 16 , no. 2 .
Zhang Y., Dong Z., Phillips P., Wang S. Detekce subjektů a oblastí mozku souvisejících s Alzheimerovou chorobou pomocí 3D MRI skenů založených na vlastním mozku a strojovém učení // Frontiers in Computational Neuroscience. - 2015. - T. 9 . - doi : 10.3389/fncom.2015.00066 . — PMID 26082713 .
Roffo G., Melzi S., Cristani M. Nekonečný výběr funkcí . — 2015 IEEE International Conference on Computer Vision (ICCV). - 2015. - ISBN 978-1-4673-8391-2 . - doi : 10.1109/ICCV.2015.478 .
Giorgio Roffo, Simone Melzi. Výběr funkcí pomocí Eigenvector Centrality // Nové hranice v komplexních vzorech těžby, (NFMCP 2016). . - Springer, 2016. - T. 10312. - S. 19-38. - (Poznámky z přednášky o umělé inteligenci (LNAI}). - ISBN 978-3-319-61460-1 . - doi : 10.1007/978-3-319-61461-8 . Odkaz ukazuje na mírně odlišnou verzi článku
Abhimanyu Das, David Kempe. Submodular meets Spectral: Greedy Algorithms for Subset Selection, Sparse Approximation and Dictionary Selection // 28. mezinárodní konference o strojovém učení. — 2011.
Yuzong Liu, Kai Wei, Katrin Kirchhoff, Yisong Song, Jeff A. Bilmes. Výběr submodulárních funkcí pro vysokorozměrné akustické partitury // Mezinárodní konference IEEE o akustice, zpracování řeči a signálů 2013 . - 2013. - doi : 10.1109/ICASSP.2013.6639057 .
Jinging Zheng, Zhuolin Jiang, Rama Chellappa, P. Jonathon Phillip. Submodular Attribute Selection for Action Recognition in Video // Advances in Neural Information Processing Systems 27 (NIPS 2014) / Z. Ghahramani, M. Welling, C. Cortes, ND Lawrence, KQ Weinberger.. - 2014.
Sun Y., Todorovic S., Goodison S. Výběr funkcí založených na místním učení pro vysokorozměrnou analýzu dat] // Transakce IEEE v oblasti analýzy vzorů a strojové inteligence . - 2010. - 32. t.

Čtení pro další čtení

Odkazy

Balíček výběru funkcí, Arizona State University (kód Matlab)
NIPS výzva 2003 _
Implementace Naive Bayes s výběrem funkcí ve Visual Basic Archivováno 14. února 2009 na Wayback Machine (zahrnuje spustitelný a zdrojový kód)
Program pro výběr funkcí minimální-redundance-maximální-relevance (mRMR).
FEAST (Open source algoritmy výběru funkcí v C a MATLABu)

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-Net Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG