Posilování

Boosting je kompoziční meta-algoritmus strojového učení , který se používá hlavně ke snížení zkreslení (chyby odhadu) a také rozptylu [1] při učení pod dohledem . Také definováno jako rodina algoritmů strojového učení, které transformují slabé algoritmy učení na silné [2] .

Posilování je založeno na otázce, kterou položili Kearns a Valiant (1988, 1989) [3] [4] : „Může sada slabých učebních algoritmů vytvořit silný algoritmus učení?“. Algoritmus slabého učení je definován jako klasifikátor , který slabě koreluje se správnou klasifikací (může označit příklady lépe než náhodné hádání). Na rozdíl od slabého algoritmu je algoritmus silného učení klasifikátor, který dobře koreluje se správnou klasifikací.

Pozitivní odpověď Roberta Shapira v článku z roku 1990 [5] na otázku Kearnse a Valianta měla velký význam pro teorii a statistiku strojového učení a vedla k vytvoření široké škály posilovacích algoritmů [6] .

Posilující hypotéza odkazovala na proces ladění slabého algoritmu učení k získání silného učení. Neformálně se ptáme, zda existence účinného algoritmu učení, jehož výstupem je hypotéza, jejíž výkon je jen o málo lepší než náhodné odhadování (tj. slabé učení), implikuje existenci účinného algoritmu, který vytváří hypotézu libovolné přesnosti (tj. učení) [3] . Algoritmy, které dospějí k takové hypotéze, se rychle stanou známými jednoduše jako „posílení“. Freundův a Shapireův algoritmus „arcing“ (Adaptive Resampling and Combining) [7] jako obecná technika je víceméně synonymem pro posílení [8].

Posilovací algoritmy

I když zesilování není algoritmicky omezeno, většina zesilovacích algoritmů sestává z iterativního trénování slabých klasifikátorů za účelem jejich sestavení do silného klasifikátoru. Když se sčítají, většinou jim jsou nějakým způsobem přiřazeny váhy, které většinou souvisí s přesností tréninku. Po přidání slabého klasifikátoru se váhy přepočítají, což je známé jako "přepočet váhy" . Špatně klasifikované vstupy nabývají na váze, zatímco správně klasifikované případy ztrácejí váhu [nb 1] . Následné slabé učení se tedy více zaměřuje na příklady, kdy předchozí slabé učení bylo špatně klasifikováno.

Existuje mnoho posilovacích algoritmů. Původní algoritmy navržené Robertem Shapirem ( formulace rekurzivní většinové brány ) [5] a Yoavem Freundem (posílení dominance) [9] nebyly adaptivní a nemohly poskytnout plnou výhodu slabého učení. Shapire a Freund poté vyvinuli AdaBoost (Adaptive Boosting), adaptivní posilovací algoritmus, který získal prestižní Gödelovu cenu .

Pouze algoritmy, u kterých lze prokázat, že jsou posilovacími algoritmy při formulaci přibližně správného učení , lze přesně nazvat posilovacími algoritmy . Jiné algoritmy, které jsou v duchu podobné posilovacím algoritmům, se někdy nazývají pákové algoritmy , i když se někdy také nesprávně nazývají posilovací algoritmy [ 9] .

Hlavní rozdíl mezi mnoha posilovacími algoritmy spočívá v metodách určování vah trénovacích datových bodů a hypotézách . Algoritmus AdaBoost je velmi populární a historicky nejvýznamnější, protože to byl první algoritmus, který se dokázal přizpůsobit slabému učení. Algoritmus se často používá jako základní úvod do posilovacích algoritmů v kurzech strojového učení na univerzitách [10] . Existuje mnoho nedávno vyvinutých algoritmů, jako je LPBoost [ , TotalBoost, BrownBoost , xgboost , MadaBoost, LogitBoost a další[ v prostoru funkcí pomocí konvexní ztrátové funkce .

Klasifikace vlastností v počítačovém vidění

Vzhledem k obrázkům obsahujícím různé známé objekty na světě lze na jejich základě natrénovat klasifikátor, aby automaticky klasifikoval objekty do budoucích neznámých obrázků. Jednoduché klasifikátory, postavené na základě některých vlastností obrazu objektu, se obvykle při klasifikaci ukážou jako neúčinné. Použití metod zesílení ke klasifikaci objektů je způsob, jak specifickým způsobem kombinovat slabé klasifikátory, aby se zlepšila celková schopnost klasifikace.

Úkol klasifikace objektů

Klasifikace jevů je typickým úkolem počítačového vidění , kde se zjišťuje, zda obrázek obsahuje určitou kategorii objektů či nikoli. Myšlenka úzce souvisí s rozpoznáváním, identifikací a detekcí. Klasifikace pomocí detekce objektů obvykle obsahuje extrakci funkcí , trénování klasifikátoru a aplikaci klasifikátoru na nová data. Existuje mnoho způsobů, jak reprezentovat kategorii objektů, jako je analýza formuláře , použití modelu pytle slov , použití místních deskriptorů, jako je SIFT a tak dále. Příklady kontrolovaných klasifikátorů jsou naivní bayesovy klasifikátory , podpůrné vektorové stroje ,směs Gaussiánů neuronové sítě . Studie však ukázaly, že kategorie objektů a jejich pozice v obrazech mohou být také detekovány pomocí učení bez dozoru [11] .

Status quo pro klasifikaci objektů

Rozpoznávání kategorií objektů na obrázcích je v počítačovém vidění obtížným úkolem , zvláště pokud je počet kategorií velký. Je to důsledek vysoké vnitřní variability tříd a potřeby zobecňovat různé pojmy v rámci třídy. Objekty ve stejné kategorii mohou vypadat úplně jinak. I stejný objekt může vypadat odlišně z různých pohledů, měřítka nebo osvětlení . Složitost rozpoznávání také zvyšuje šum pozadí a částečné překrývání [12] . Lidé jsou schopni rozpoznávat tisíce typů objektů, zatímco většina existujících systémů rozpoznávání objektů je trénována tak, aby rozpoznávala pouze několik, jako jsou lidské tváře , auta , jednoduché objekty atd. [13] . Výzkum navyšování počtu kategorií a možnosti přidávání nových kategorií se aktivně provádí, a přestože obecný problém dosud není vyřešen, byly vyvinuty detektory pro velké množství kategorií (až stovky a tisíce [14] ) . . Toho je dosaženo zejména sdílením funkcí a posílením.

Posílení pro binární klasifikaci

Balíček AdaBoost lze použít pro rozpoznávání obličeje jako příklad binární klasifikace . Dvě kategorie jsou tváře a pozadí. Obecný algoritmus vypadá takto:

Tvoříme velkou sadu funkcí
Inicializace vah pro tréninkovou sadu obrázků
Tvorba T běží
1. Normalizujte váhy
2. Pro dostupné funkce ze sady trénujeme klasifikátor pomocí jedné z funkcí a vypočítáme chybu tréninku
3. Výběr klasifikátoru s nejmenší chybou
4. Aktualizace vah tréninkového obrázku: zvýšení, pokud je klasifikováno nesprávně, a snížení, pokud je správné
Výsledný silný klasifikátor tvoříme jako lineární kombinaci T klasifikátorů (koeficient je větší, pokud je chyba tréninku menší)

Po posílení může klasifikátor sestavený z 200 prvků dosáhnout 95 % úspěšných rozpoznání s pozitivními chybami rozpoznávání [15] . $10^{-5}$

Další aplikací posilování pro binární klasifikaci je systém, který rozpoznává chodce pomocí vzorců pohybu a vzhledu [16] . Tato práce kombinuje informace o pohybu a vzhled jako funkce pro první detekci pohybující se osoby. Využíváme přístup podobný modelu detekce objektů Viola-Jones .

Posílení vícetřídní klasifikace

Ve srovnání s binární klasifikací vícetřídní klasifikace společné rysy, které mohou být sdíleny mezi kategoriemi současně. Ukázalo se, že jsou obecnější, jako je funkce „ ohraničení “ . Během tréninku mohou být klasifikátoři pro každou kategorii trénováni společně. Ve srovnání se samostatným školením má takové školení lepší zobecnění , vyžaduje méně školicích dat a k dosažení požadovaného výsledku je potřeba méně funkcí.

Základní operace algoritmu je podobná binárnímu případu. Rozdíl je v tom, že míru chyby společného tréninku lze určit předem. Během každé iterace algoritmus vybere jeden klasifikátor prvků (podporují se prvky, které lze klasifikovat společně). Toho lze dosáhnout převedením vícetřídní klasifikace na binární (soubor kategorií/jiných kategorií) [17] nebo penalizací kategorií, které nemají znaky rozpoznávané klasifikátorem [18] .

Ve Sdílení vizuálních funkcí pro detekci vícetřídních a vícepohledových objektů použili A. Torralba a kol. Pro danou výkonnostní úroveň také celkový počet funkcí potřebných (a tedy i doba běhu klasifikátoru) k detekci sdílení funkcí roste přibližně logaritmicky s počtem tříd, tj. pomaleji než lineární , ke kterému dochází v případě žádné sdílení. Podobné výsledky jsou uvedeny v článku „Incremental learning of object detection using the alphabet of visual images“, nicméně autoři použili AdaBoost pro posílení .

Konvexní a nekonvexní posilovací algoritmy

Posilovací algoritmy mohou být založeny na konvexních nebo nekonvexních optimalizačních algoritmech. Konvexní algoritmy jako AdaBoost a LogitBoost mohou selhat kvůli náhodnému šumu, protože nemohou naučit základní a naučitelné kombinace slabých hypotéz [19] [20] . Na toto omezení poukázali Long a Servedo v roce 2008. V roce 2009 však několik autorů prokázalo, že zesilovací algoritmy založené na nekonvexní optimalizaci, jako je BrownBoost , lze trénovat z hlučných dat a lze natrénovat základní klasifikátor Long-Servedio pro datovou sadu. .

Viz také

adaboost
náhodný les
Prokládaný rozhodovací strom
Pytlování
Kaskádové klasifikátory
brownboost
CoBoosting
LPBoost
Logistická regrese
Metody maximální entropie
Umělé neuronové sítě
Podpora vektorových strojů
Zesílení přechodu
Klasifikátor s dělicím proužkem
Křížové ověření
Strojové učení

Implementace

Scikit-learn , open source knihovna pro strojové učení pro jazyk Python
Orange , bezplatná sada pro analýzu dat, modul Orange.ensemble Archivováno 4. března 2016 na Wayback Machine
Weka je sada nástrojů pro strojové učení obsahující řadu implementací posilovacích algoritmů, jako jsou AdaBoost a LogitBoost
Balíček GBM Archived 11. listopadu 2018 na Wayback Machine (Generalized Boosted Regression Models) v jazyce R implementuje rozšíření Freundova a Shapireova algoritmu AdaBoost a Friedmanovu zvýšení gradientu.
jboost Archivováno 18. února 2019 na Wayback Machine ; AdaBoost, LogitBoost, RobustBoost, Boostexter a Pruhované rozhodovací stromy
adabag Archivováno 17. září 2018 na Wayback Machine v R: Používá vícetřídní algoritmy AdaBoost.M1, AdaBoost-SAMME a Bagging
Balíček xgboost Archivováno 26. října 2018 na Wayback Machine v R: Implementace zesílení gradientu pro lineární modely založené na stromech.
balíček CatBoost

Poznámky

↑ . Některé klasifikační algoritmy založené na posílení ve skutečnosti snižují váhu znovu chybně klasifikovaných instancí. Například posílení dominance ( anglicky posílení většinou ) a BrownBoost

↑ Breiman, 1996 .
↑ Zhi-Hua, 2012 , str. 23.
↑ 12 Kearns , 1988 .
↑ Kearns, Valiant, 1989 , str. 433–444.
↑ 1 2 Schapire, 1990 , str. 197–227.
↑ Breiman, 1998 , s. 801–849.
↑ Freund a Schapire 1997 , str. 119-139.
↑ Leo Briman ( Breiman 1998 ) píše: „Koncept slabého učení zavedli Kearns a Valiant ( 1988 , Kearns, Valiant, 1989 ), kteří položili otázku, zda jsou slabé a silné učení rovnocenné. Tato otázka byla nazvána jako posilující problém , protože řešením je zvýšit slabou přesnost slabého učení na vysokou přesnost silného učení. Shapire (1990) dokázal, že boostování je možné. Algoritmus zesílení je metoda, která využívá slabou metodu učení a transformuje ji na silnou metodu. Freund a Shapire (1997) prokázali, že algoritmus, jako je arc-fs, posiluje."
↑ 1 2 3 Mason, Baxter, Bartlett, Frean, 2000 , str. 512-518.
↑ Emer, Eric Boosting (algoritmus AdaBoost) (odkaz není k dispozici) . MIT . Získáno 10. října 2018. Archivováno z originálu 15. února 2020. (neurčitý)
↑ Sivic, Russell, Efros, Zisserman, Freeman, 2005 , str. 370-377.
↑ Opelt, Pinz, Fussenegger, Auer, 2006 , str. 416-431.
↑ Marszálek, Schmid, 2007 .
↑ Velká výzva pro vizuální rozpoznávání (prosinec 2017). Staženo 6. listopadu 2018. Archivováno z originálu 2. listopadu 2018. (neurčitý)
↑ Viola, Jones, 2001 .
↑ Viola, Jones, Snow, 2003 .
↑ Torralba, Murphy, Freeman, 2007 , str. 854-869.
↑ Opelt, Pinz, Zisserma, 2006 , str. 3-10.
↑ Long, Servedio, 2008 , str. 608-615.
↑ Long, Servedio, 2010 , str. 287–304.

Literatura

Leo Breiman . Klasifikátory zkreslení, rozptylu a oblouku // Technická zpráva. - 1996. Archivováno 19. ledna 2015. Úryvek: „Arcing [Boosting] je při redukci rozptylu úspěšnější než pytlování“
Zhou Zhi Hua. Ensemble Methods: Základy a algoritmy. - 2012. - ISBN 978-1439830031 . Úryvek: "Pojem posilování se vztahuje na rodinu algoritmů, které jsou schopny převést slabé žáky na silné."
Michael Kearns. Myšlenky na posilování hypotéz . - 1988. - (Nepublikovaný rukopis (projekt třídy Strojové učení)).
Leo Breiman. Klasifikátor oblouku (s diskusí a replikou od autora) // Annals of Statistics. - 1998. - T. 26 , č. 3 . - S. 801-849: .
Michael Kearns, Leslie Valiant . Krytografická omezení při učení booleovských vzorců a konečných automatů // Symposium on Theory of computing. - ACM, 1989. - T. 21 . - doi : 10.1145/73007.73049 .
Michael Kearns, Leslie Valiant . Učení booleovských vzorců nebo konečných automatů je stejně těžké jako faktoring. Technická zpráva TR-14-88. — 1988.
- Článek byl později přetištěn v Journal of the Association for Computing Machinery, 41(1):67-95, leden 1994
Robert E. Schapire. Síla slabé učenlivosti // Strojové učení. - Boston, MA: Kluwer Academic Publishers, 1990. - V. 5 , no. 2 . - doi : 10.1007/bf00116037 . Archivováno z originálu 10. října 2012.
Leo Breiman . Klasifikátor oblouku (s diskusí a duplikou autora) // Ann. Stat .. - 1998. - T. 26 , no. 3 . - doi : 10.1214/aos/1024691079 . Úryvek: „Schapire (1990) dokázal, že posílení je možné“ (Strana 823)
Yoav Freund, Robert E. Schapire. Rozhodovací teoretické zobecnění on-line učení a aplikace na posilování . - 1997. - T. 55 , no. 1 .
Andreas Opelt, Axel Pinz, Michael Fussenegger, Peter Auer. Generic Object Recognition with Boosting // IEEE Trans Pattern Anal Mach Intel. - 2006. - T. 28 . - S. 416-31 . — ISSN 0162-8828 .
Marszalek M., Schmid C. Sémantické hierarchie pro rozpoznávání vizuálních objektů . — 2007.
Viola P., Jones M., Snow D. Detekce chodců pomocí vzorců pohybu a vzhledu // ICCV. — 2003.
Torralba A., Murphy KP, Freeman WT Sdílení vizuálních funkcí pro vícetřídní a multiview detekci objektů // IEEE Transactions on PAMI. - 2007. - T. 29 , no. 5 . - doi : 10.1109/TPAMI.2007.1055 .
Andreas Opelt, Axel Pinz, Andrew Zisserma. Postupné učení detektorů objektů pomocí vizuální tvarové abecedy // CVPR. - 2006. - S. 3-10 .
Long P., Servedio R. Šum náhodné klasifikace poráží všechny konvexní potencionální zesilovače // 25. mezinárodní konference o strojovém učení (ICML). - 2008. - S. 608-615.
Philip M. Long, Rocco A. Servedio. Šum náhodné klasifikace porazí všechny konvexní potencionální zesilovače // Machine Learning. - Springer US, 2010. - Březen ( sv. 78 , číslo 3 ). — S. 287–304 . - doi : 10.1007/s10994-009-5165-z .
Llew Mason, Jonathan Baxter, Peter Bartlett, Marcus Frean. Posílení algoritmů jako gradientní sestup // Pokroky v systémech zpracování neuronových informací / SA Solla, TK Leen, K.-R. Muller. - MIT Press, 2000. - T. 12 .
Josef Sivic, Bryan C. Russell, Alexei A. Efros, Andrew Zisserman, William T. Freeman. Objevování objektů a jejich umístění v obrazech // ICCV 2005. Desátá mezinárodní konference IEEE o počítačovém vidění. - IEEE, 2005. - T. 1.
Paul Viola, Michael Jeffrey Jones. Robustní detekce objektů v reálném čase // International Journal of Computer Vision. - 2001. - T. 57 , č. 2 .
Yoav Freund a Robert E. Schapire (1997); A Decision-Theoretic Generalization of Online Learning and Application to Boosting Archived 12. října 2008 na Wayback Machine , Journal of Computer and System Sciences, 55(1): 119-139
Robert E. Schapire a Yoram Singer (1999); Vylepšené posilovací algoritmy využívající prediktorů s hodnocením spolehlivosti Archivováno 2008-08-20 na Wayback Machine , Machine Learning, 37(3): 297-336

Odkazy

Robert E. Schapire (2003); The Boosting Approach to Machine Learning: An Overview Archiveed 20. září 2020 na Wayback Machine , MSRI (Mathematical Sciences Research Institute) Workshop o nelineárním odhadu a klasifikaci
Zhou Zhi-Hua (2014) Boosting 25 years Archived 20. srpna 2016 na Wayback Machine , CCL 2014 Keynote.
Zhihua Zhou. Na okraj vysvětlení posilovacího algoritmu. // Sborník příspěvků z 21. výroční konference o teorii učení (COLT'08). - 2008. - S. 479-490 .
Zhihua Zhou. Na pochybách o marži vysvětlení posílení. // Umělá inteligence. - 2013. - T. 203 . — S. 1–18 . - doi : 10.1016/j.artint.2013.07.002 . - arXiv : 1009.3613 .
http://www.machinelearning.ru/wiki/index.php?title=%D0%91%D1%83%D1%81%D1%82%D0%B8%D0%BD%D0%B3 Archivovaná kopie z 24 . února 2020 na Wayback Machine

Strojové učení a dolování dat
Úkoly	Klasifikační problém Učení bez učitele Učení za pomoci učitele Regresní analýza AutoML Pravidla asociace Extrakce funkcí Trénink vlastností Žebříčkový trénink Gramatické odvozování Online učení
Učení s učitelem	metoda k-nejbližšího souseda Naivní Bayesův klasifikátor rozhodovací strom Podpora vektorového stroje Lineární regrese Logistická regrese perceptron Soubory modelů Pytlování posilování náhodný les Relevantní vektorová metoda
shluková analýza	metoda k-means Metoda fuzzy shlukování Hierarchické shlukování EM algoritmus BŘÍZA LÉK DBSCAN OPTIKA Střední posun
Redukce rozměrů	Faktorová analýza Metoda hlavní součásti CCA ICA LDA Nezáporná expanze matice t-SNE
Strukturální prognózy	Graf pravděpodobnosti modelu Bayesovská síť Skrytý Markovův model CRF
Detekce anomálií	metoda k-nejbližšího souseda Místní úroveň emisí
Grafové pravděpodobnostní modely	Bayesovská síť Markovská síť Skrytý Markovův model
Neuronové sítě	Limitovaný Boltzmannův stroj samoorganizující se mapa Aktivační funkce Sigmoid softmax Radiální základní funkce Metoda zpětného šíření Hluboké učení Vícevrstvý perceptron Rekurentní neuronová síť dlouhodobá krátkodobá paměť Řízený rekurentní blok Konvoluční neuronová síť U-Net Autokodér
Posílení učení	Markovský proces Bellmanova rovnice Chamtivý algoritmus Q-learning SARSA Časový rozdíl (TD)
Teorie	Vapnik-Chervonenkis teorie Dilema zkreslení Teorie počítačového učení Empirická minimalizace rizika Occam se učí PAC učení Statistická teorie učení
Časopisy a konference	NeurIPS ICML ML JMLR ArXiv:cs.LG