Bootstrap aggregation neboli bagging je kompoziční meta-algoritmus strojového učení navržený ke zlepšení stability a přesnosti algoritmů strojového učení používaných ve statistické klasifikaci a regresi . Algoritmus také snižuje rozptyl a pomáhá vyhnout se nadměrnému vybavení . I když je obecně aplikován na metody strojového učení založené na rozhodovacím stromě , lze jej použít s jakýmkoliv druhem metody. Pytlování je zvláštní typ modelového průměrování .
Pokud je uvedena standardní tréninková sestava s velikostí n , pytlování generuje m nových tréninkových sad , každou o velikosti n′ , rovnoměrným vzorkováním z D a zpětným sledováním . Při zpětném sledování se mohou některá pozorování opakovat v každém . Jestliže n ′= n , pak pro velké n se očekává, že množina bude mít (1 - 1/ e ) (≈63,2 %) podíl jedinečných instancí z D , zbytek jsou opakování [1] . Tento typ vzorkování je známý jako bootstrap sampling. Těchto m modelů je vyhlazeno pomocí výše uvedených m bootstrap vzorků a kombinováno průměrováním (pro regresi) nebo hlasováním (pro klasifikaci).
Pytlování vede ke „zlepšení pro nestabilní postupy“ [2] , mezi které patří například umělé neuronové sítě , klasifikační a regresní stromy a výběr podmnožin v lineární regresi [3] . Zajímavou aplikaci pytlování vykazující zlepšení ve zpracování obrazu ukazují práce Sahu, Apley et al [4] [5] . Na druhou stranu může metoda mírně zhoršit výkon stabilních metod, jako jsou K-nearest sousedé [2] .
Pro ilustraci základních principů pytlování je níže uvedena analýza vztahu mezi ozonem a teplotou (data převzata z Russevovy knihya Leroy [6] . Analýza byla provedena v programovacím jazyce R ).
Vztah mezi teplotou a ozonem v tomto souboru dat je zjevně nelineární. K popisu tohoto vztahu byly použity vyhlazovače LOESS(se šířkou pásma 0,5). Namísto vytvoření jediného vyhlazení z celého souboru dat bylo extrahováno 100 vzorků dat bootstrap . Každý vzorek se liší od původního souboru dat, ale distribuce a rozptyl jsou stále stejné. Pro každý vzorek bootstrapu byl aplikován LOESS smoother. Poté se na základě těchto 100 vyhlazení provede předpověď z dat. Prvních 10 vyhlazování je na obrázku níže zobrazeno jako šedé čáry. Čáry se zdají být velmi zvlněné a trpí překrytím dat – výsledek pásma je příliš malý.
Vezmeme-li průměr 100 vyhlazovačů, které byly aplikovány na podmnožiny původní datové sady, dostaneme složený prediktor (červená čára). Je jasné, že průměr je robustnější a není tak náchylný k přemontování .
Bagging (z angl . Bagging = B ootstrap agg regate ing ) navrhl Leo Breiman v roce 1994 pro zlepšení klasifikace kombinací klasifikace náhodně generovaných tréninkových sad. Viz Technická zpráva č. 421 [3] .
Strojové učení a dolování dat | |
---|---|
Úkoly | |
Učení s učitelem | |
shluková analýza | |
Redukce rozměrů | |
Strukturální prognózy | |
Detekce anomálií | |
Grafové pravděpodobnostní modely | |
Neuronové sítě | |
Posílení učení |
|
Teorie | |
Časopisy a konference |
|