Pytlování

Bootstrap aggregation neboli bagging je kompoziční meta-algoritmus strojového učení navržený ke zlepšení stability a přesnosti algoritmů strojového učení používaných ve statistické klasifikaci a regresi . Algoritmus také snižuje rozptyl a pomáhá vyhnout se nadměrnému vybavení . I když je obecně aplikován na metody strojového učení založené na rozhodovacím stromě , lze jej použít s jakýmkoliv druhem metody. Pytlování je zvláštní typ modelového průměrování .

Popis technologie

Pokud je uvedena standardní tréninková sestava s velikostí n , pytlování generuje m nových tréninkových sad , každou o velikosti n′ , rovnoměrným vzorkováním z D a zpětným sledováním . Při zpětném sledování se mohou některá pozorování opakovat v každém . Jestliže n ′= n , pak pro velké n se očekává, že množina bude mít (1 - 1/ e ) (≈63,2 %) podíl jedinečných instancí z D , zbytek jsou opakování [1] . Tento typ vzorkování je známý jako bootstrap sampling. Těchto m modelů je vyhlazeno pomocí výše uvedených m bootstrap vzorků a kombinováno průměrováním (pro regresi) nebo hlasováním (pro klasifikaci).

Pytlování vede ke „zlepšení pro nestabilní postupy“ [2] , mezi které patří například umělé neuronové sítě , klasifikační a regresní stromy a výběr podmnožin v lineární regresi [3] . Zajímavou aplikaci pytlování vykazující zlepšení ve zpracování obrazu ukazují práce Sahu, Apley et al [4] [5] . Na druhou stranu může metoda mírně zhoršit výkon stabilních metod, jako jsou K-nearest sousedé [2] .

Příklad: Teplotní závislost koncentrace ozonu

Pro ilustraci základních principů pytlování je níže uvedena analýza vztahu mezi ozonem a teplotou (data převzata z Russevovy knihya Leroy [6] . Analýza byla provedena v programovacím jazyce R ).

Vztah mezi teplotou a ozonem v tomto souboru dat je zjevně nelineární. K popisu tohoto vztahu byly použity vyhlazovače LOESS(se šířkou pásma 0,5). Namísto vytvoření jediného vyhlazení z celého souboru dat bylo extrahováno 100 vzorků dat bootstrap . Každý vzorek se liší od původního souboru dat, ale distribuce a rozptyl jsou stále stejné. Pro každý vzorek bootstrapu byl aplikován LOESS smoother. Poté se na základě těchto 100 vyhlazení provede předpověď z dat. Prvních 10 vyhlazování je na obrázku níže zobrazeno jako šedé čáry. Čáry se zdají být velmi zvlněné a trpí překrytím dat – výsledek pásma je příliš malý.

Vezmeme-li průměr 100 vyhlazovačů, které byly aplikovány na podmnožiny původní datové sady, dostaneme složený prediktor (červená čára). Je jasné, že průměr je robustnější a není tak náchylný k přemontování .

Historie

Bagging (z angl .  Bagging = B ootstrap agg regate ing ) navrhl Leo Breiman v roce 1994 pro zlepšení klasifikace kombinací klasifikace náhodně generovaných tréninkových sad. Viz Technická zpráva č. 421 [3] .

Viz také

Poznámky

  1. Aslam, Popa, Rivest, 2007 .
  2. 1 2 Breiman, 1996 , s. 123–140.
  3. 1 2 Breiman, 1994 .
  4. Sahu, Runger, Apley, 2011 , str. 1-7.
  5. Shinde, Sahu, Apley, Runger, 2014 .
  6. Rousseeuw, Leroy, 1987 , str. 84-93.

Literatura