Bootstrap (statistiky)

Bootstrap [1] ( anglicky  bootstrap ) ve statistice  je praktická počítačová metoda pro studium rozdělení statistik rozdělení pravděpodobnosti , založená na vícenásobném generování vzorků metodou Monte Carlo na základě existujícího vzorku [2] . Umožňuje snadno a rychle vyhodnocovat širokou škálu statistik ( intervaly spolehlivosti , rozptyl , korelace atd.) pro složité modely.

Koncept představil v roce 1977 Bradley Efron (první publikace pochází z roku 1979 [3] ). Podstatou metody je sestavení empirického rozdělení založeného na existujícím vzorku . Pomocí tohoto rozdělení jako teoretického rozdělení pravděpodobnosti je možné pomocí generátoru pseudonáhodných čísel generovat téměř neomezený počet pseudovzorků libovolné velikosti, například stejných jako původní. Na sadě pseudovzorků lze vyhodnocovat nejen analyzované statistické charakteristiky, ale také studovat jejich rozdělení pravděpodobnosti. Je tak například možné odhadnout rozptyl nebo kvantily jakékoli statistiky bez ohledu na její složitost. Tato metoda je metodou neparametrické statistiky .

Spolu s metodami "jackknife" tvoří křížová validace a testování permutací ( angl.  Přesný test ) třídu metod generování převzorkování ( angl.  resampling ).

Etymologie

Slovo pochází z výrazu: "Přetáhnout se přes plot za boty." (doslova - „překonat plot zatažením za řemínky na botách“ (viz foto vpravo). Rusky mluvícím lidem bude bližší příběh barona Munchausena , který se tahal za vlasy a přitahoval jeho kůň z bažiny.

Samotný bootstrap anglicismus se používá v mnoha oblastech znalostí, kde potřebujete vyjádřit význam získání něčeho „zadarmo“ nebo magického získání něčeho, co stojí za to z ničeho. V oblasti statistiky je z hlediska etymologie nejbližší obdobou termínu „samotahání“.

Úvodní příklad

Budiž dva postřehy:

Předpokládejme, že potřebujeme odhadnout parametr v regresi y na x :

Odhad parametru získaný metodou nejmenších čtverců se bude rovnat

Empirická distribuční funkce je v tomto případě rovna

V tomto případě budou data ze dvou pozorování s ohledem na empirické rozdělení rozdělena takto:

Toto je distribuce bootstrap. Dále můžeme najít rozložení odhadu OLS:

Aplikace

Bootstrap se používá k opravě zkreslení, testování hypotéz, vytváření intervalů spolehlivosti.

Bootstrap Confidence Interval: An Algorithm

Nechť existuje vzorek z obecné populace a je nutné odhadnout parametr . Je nutné zvolit počet pseudovzorků, které se vytvoří z prvků původního vzorku s návratem. Pro každý z pseudo -vzorků se vypočítá pseudo-statistika .

Pseudostatistiky jsou seřazeny od nejmenší po největší. Kvantily nabývají hodnot . Používají se ke konstrukci intervalu spolehlivosti.

Poznámky

  1. Také bootstrap , bootstrap , bootstrapping , bootstrapping .
  2. アーカイブされたコピー. Získáno 23. března 2007. Archivováno z originálu 12. července 2012.
  3. Efron, 1979 .

Literatura

Odkazy