Robustnost

Aktuální verze stránky ještě nebyla zkontrolována zkušenými přispěvateli a může se výrazně lišit od verze recenzované 6. října 2017; kontroly vyžadují 7 úprav .

Robustnost ( angl.  robustnessrobustní  "silný; silný; pevný; stabilní") je vlastnost statistické metody , která charakterizuje nezávislost vlivu na výsledek studia různých druhů emisí , odolnost proti rušení.

Odlehlá (robustní) metoda  – metoda zaměřená na identifikaci odlehlých hodnot, snížení jejich dopadu nebo jejich vyloučení ze vzorku .

V praxi může přítomnost i malého počtu odlehlých hodnot (outliers) ve vzorcích značně ovlivnit výsledek studie, například metoda nejmenších čtverců a metoda maximální věrohodnosti na konkrétních rozděleních podléhají takovýmto zkreslením. hodnoty získané jako výsledek studie vám mohou přestat dávat smysl. K eliminaci vlivu takového rušení se používají různé přístupy ke snížení vlivu „špatných“ pozorování (odlehlých hodnot), nebo k jejich úplnému odstranění. Hlavním úkolem odlehlých metod je odlišit „špatné“ pozorování od „dobrého“ a i ten nejjednodušší přístup, subjektivní (založený na vnitřních pocitech výzkumníka), může být významným přínosem, nicméně pro motivované odmítnutí, výzkumníci stále používají metody, které jsou založeny na nějakém přísném matematickém zdůvodnění. Tento proces je pro statistika velmi netriviálním úkolem a definuje jednu z oblastí statistické vědy .

Koncept stability vzplanutí (robustnost)

Zvažte klasický příklad robustních a nerobustních charakteristik pro výpočet průměrného příjmu. Nechť je 10 lidí, z nichž devět vydělává 100 rublů a jeden vydělává 500 rublů. Aritmetický průměr čísel je 140, ačkoli 90 % lidí ve vzorku vydělává méně. Současně je medián vzorku 100: velmi odlišná hodnota neovlivnila hodnotu mediánu. Medián je tedy příkladem robustní charakteristiky, zatímco aritmetický průměr nikoli.

Odlehlá stabilita (robustnost) ve statistice je chápána jako citlivost na různé odchylky a nehomogenity ve vzorku, spojené s určitými, obecně neznámými, příčinami [1] [2] . Mohou to být chyby detektorů, které zaznamenávají pozorování, něčí svědomité nebo záměrné pokusy „zapadnout“ vzorek dříve, než se dostane do statistik, chyby v návrhu, překlepy, které se vloudily, a mnoho dalšího. Například nejvzdálenějším odhadem parametru posunu distribučního zákona je medián , což je na intuitivní úrovni zcela zřejmé (pro přesný důkaz je třeba použít skutečnost, že medián je zkrácený M-odhad, viz níže ) [ 1] . Kromě přímo „vadných“ pozorování může existovat také řada pozorování, která sledují odlišné rozdělení . Vzhledem k podmíněnosti distribučních zákonů , a to není nic jiného než popisný model, může samotný vzorek obsahovat určité nesrovnalosti s ideálem.

Parametrický přístup si však natolik uvykl a prokázal svou jednoduchost a účelnost, že je absurdní jej odmítat. Proto bylo nutné přizpůsobit staré modely novým úkolům.

Samostatně stojí za to zdůraznit a nezapomenout, že odmítnutá pozorování vyžadují samostatnou, bližší pozornost. Pozorování, která se zdají být „špatná“ pro jednu hypotézu, mohou být v souladu s jinou. Konečně, ne vždy ostře rozlišená pozorování nejsou „manželstvím“. Jedno takové pozorování pro genetické inženýrství má například cenu milionů dalších, které se od sebe jen málo liší.

Základní přístupy

K omezení vlivu nehomogenit nebo k jejich úplnému odstranění existuje mnoho různých přístupů. Mezi nimi vynikají dva hlavní směry.

Seskupování dat jako metoda odlehlých statistik

Seskupením vzorku lze výrazně snížit vliv jednotlivých pozorování, aniž by došlo k jejich zahození. Rozdělení do intervalů není nijak zvlášť obtížné a dává velmi hmatatelný výsledek. Existují tři nejběžnější metody rozdělení.

Přístup k funkci vlivu

Samostatným přístupem při konstrukci odlehlých metod je odhad parametrů distribučního zákona pro „kontaminovaný“ vzorek pomocí přístupu navrženého Hampelem [1] . Aby mohl Hampel studovat vliv jednoho pozorování na hodnocení (uvažovanou statistiku) toho či onoho parametru distribučního zákona, zavádí tzv. vlivovou funkci , která není ničím jiným než derivací této statistiky . 

Základní pojmy

Funkcionál je zaveden jako funkce nějakého vzorku z rozdělení s parametrem (je to také ). závisí na . Stejně tak funkce zákona a parametru . Splňujeme také některé podmínky konzistence a pravidelnosti :

Derivace tohoto funkcionálu v bodě s distribucí :

kde:

Při substituci přiřazování jednotkové hmotnosti události namísto , v důsledku čehož pouze :

Tato funkce se nazývá vlivová funkce .

Význam vlivové funkce je demonstrován dosazením a nahrazením limity, výsledkem je převedení výrazu na , což odpovídá situaci, kdy je do vzorku složeného z pozorování dodržujících rozdělení přidán další nový . Sleduje tedy reakci použité funkcionality na provedené přidání a ukazuje dopad příspěvku jednoho pozorování na hodnocení v celém souboru dat.

Pro charakterizaci vlivu jednotlivých pozorování je také zaveden koncept citlivosti na velkou chybu  :

Pokud je vlivová funkce omezená, pak se odpovídající odhad nazývá B(be)-robustní .

M-skóre

Nejúčinnější a nejrozšířenější odhady parametrů distribučních zákonů jsou odhady maximální věrohodnosti (MLE), které jsou určeny jednou z následujících podmínek:

kde v případě neseskupeného vzorku a v případě seskupeného vzorku,

M-odhady  - existuje určitá generalizace ZHN. Jsou definovány podobně jedním ze vztahů:

Pokud v substituci zavedeme podmínku pravidelnosti a diferencujeme ji vzhledem k 0:

pak není obtížné získat vyjádření funkce vlivu pro M-odhady :

Tento výraz nám umožňuje dospět k závěru, že M-odhady jsou ekvivalentní až do nenulového konstantního faktoru.

Je snadné zkontrolovat, že pro MLE standardního zákona normálního rozdělení vypadají vlivové funkce parametru posunu a parametru měřítka:

Tyto funkce jsou neomezené, což znamená, že MLE není tolerantní vůči výbuchu (robustní) z hlediska B-robustnosti.

Aby se to napravilo, M-odhady uměle omezují, a tedy omezují (viz výraz pro M-odhady), čímž nastavují horní bariéru vlivu pozorování odlehlých (daleko od očekávaných hodnot parametrů). To se provádí zavedením takzvaných zkrácených M-odhadů, definovaných výrazem:

kde , a  jsou odhady parametrů posunu a měřítka.

Mezi zkrácenými M-odhady jsou z hlediska B-robustnosti optimální zkrácené MLE [1] .

Postup odhadu parametrů

K vyřešení rovnice

,

musí být použita nějaká numerická metoda . Chcete-li to provést, musíte zvolit počáteční aproximace. Parametr posunu nuly je obvykle medián a parametr měřítka je násobkem mediánu odchylek od mediánu.

Pokud například potřebujete odhadnout parametr posunu, řekněme, zákona o normálním rozdělení , můžete použít Newtonovu metodu numerického nalezení kořenů rovnice . V důsledku toho je celý postup hledání parametru redukován na iterativní výpočet výrazu:

kde  je nějaký odhad parametru měřítka použitého k vyrovnání distribucí s různými rozsahy.

Viz také

Poznámky

  1. 1 2 3 4 5 Hampel F., Ronchetti E., Rausseu P., Stael W. Robustnost ve statistice. Robustní statistika: přístup založený na vlivových funkcích . — M .: Mir, 1989.
  2. Huber P. Robustnost ve statistice. — M .: Mir, 1984.
  3. Kendall M., Stewart A. Statistická inference a asociace. — M .: Nauka, 1973.

Odkazy

Literatura