Funkce Theil–Sen Estimator

V neparametrické statistice existuje metoda robustního lineárního vyhlazování množiny bodů ( jednoduchá lineární regrese ), ve které je zvolen medián sklonů všech čar procházejících dvojicemi vzorových bodů v rovině. Metoda se nazývá Theil-Sen estimator , Slope Sen estimator [1] [2] , Slope selection [3] [4] , One-medián metoda [5] , Kendallova metoda Robust Line Approximation [6] [7] arobustní řada Kendall-Theil [8] . Metoda je pojmenována po Henri Theilovi a Pranabovi K. Senovi, kteří publikovali články o metodě v roce 1950 a 1968, a také po Maurice Kendallovi .

Tento odhad lze vypočítat efektivně a není citlivý na odlehlé hodnoty . Může být výrazně přesnější než nerobustní nejmenší čtverce pro nesymetrická a heteroskedastická data a dobře konkuruje nerobustním nejmenším čtvercům i pro normálně rozložená data z hlediska statistické síly [9] . Metoda je uznávána jako „nejoblíbenější neparametrická technika pro odhadování lineárního trendu“ [2] .

Definice

Jak Theil [10] definoval, Theil -Senův odhad množiny bodů v rovině ( x i , y i )  je medián m koeficientů sklonu ( y jy i )/( x jx i ) přes všechny dvojice vzorových bodů. Sen [11] rozšířil tuto definici o případ, kdy dva body mají stejné souřadnice x . Podle Senovy definice se medián sklonových koeficientů bere pouze pro dvojice bodů, které mají různé souřadnice x .

Po vypočítání sklonu m lze určit přímku ze vzorových bodů výběrem bodu b průsečíku osy y rovného mediánu hodnot y imx i [12] . Jak poznamenal Sen, jedná se o odhad, který činí Kendallův τ-řadový korelační koeficient porovnání x i se zbytkem i -tého pozorování přibližně rovný nule [13] .

Interval spolehlivosti pro odhad úhlu sklonu lze definovat jako interval obsahující průměr 95 % koeficientů sklonu čar procházejících dvojicemi bodů [14] , a lze jej rychle odhadnout vzorkováním dvojic a určením 95 % intervalu vzorkovaných sklonových koeficientů. Podle numerických simulací stačí k určení přesného intervalu spolehlivosti vzorek přibližně 600 párů bodů [9] .

Variace

Pro každý bod vzorku ( x i , y i ) je medián m i sklonových koeficientů ( y jy i ) / ( x j x i ) přímek procházejících tímto bodem, a pak je funkce celkových nákladů vypočítáno jako medián těchto mediánů.

Další možnost vybírá dvojice vzorových bodů podle pořadí jejich x -souřadnic (v páru je vybrán bod s nejmenší souřadnicí, první bod nad střední souřadnicí atd.), pak koeficienty sklonu čar jimi definovaných. počítají se dvojice bodů [16] .

Studují se také varianty Theil-Sen estimátoru založené na vážených mediánech , založené na principu, že dvojice vzorků, jejichž souřadnice x se liší více, budou mít s větší pravděpodobností přesnější sklon, a proto by měly mít větší váhu. [17]

U sezónních dat může být vhodné vyhladit sezónní proměnné v datech výběrem dvojic vzorových bodů, které patří ke stejnému měsíci nebo stejnému ročnímu období, a poté vypočítat medián sklonových koeficientů definovaných čar. těmito omezenými dvojicemi [18] .

Statistické vlastnosti

Theil-Senův odhad je nestranný odhad skutečného sklonu v jednoduché lineární regresi [19] [20] . Pro mnoho nenáhodných rozdělení chyb má tento odhad vysokou asymptotickou účinnost ve srovnání s metodou nejmenších čtverců [21] [22] . Odhady se špatnou výkonností vyžadují více nezávislých pozorování, aby se dosáhlo stejného rozptylu jako efektivní nezaujaté odhady.

Theil -Senův odhad je robustnější než odhad nejmenších čtverců, protože je výrazně robustnější vůči odlehlým hodnotám . Má práh , což znamená, že může tolerovat až 29,3 % vstupních dat bez snížení přesnosti [12] . U vícerozměrných zobecnění metody se však práh snižuje [23] . Vyšší práh, 50 %, je k dispozici pro další robustní lineární odhad, Siegelův opakovaný střední odhad [12] .

Theil-Sen skórovací funkce je ekvivariantní pro jakoukoli lineární transformaci jejích proměnných odezvy, což znamená, že transformace dat následovaná skórovací linií a přímkou ​​následovanou transformací dat vedou ke stejným výsledkům [24] . Odhad však není ekvivariantní při současné afinní transformaci proměnných prediktoru i odezvy [23] .

Algoritmy

Medián sklonu množiny n bodů vzorku lze přesně vypočítat tak, že se spočítají všechny čáry O ( n 2 ) procházející dvojicemi bodů a použije se lineární časový algoritmus pro výběr mediánu . Alternativně lze hodnotu odhadnout pomocí vzorkovacích dvojic bodů. Problém je ekvivalentní, podle projektivní duality , problému nalezení průsečíku konfigurace čar , která obsahuje střední x souřadnic mezi všemi takovými průsečíky. [25]

Problém výběru faktoru sklonu přesně, ale efektivněji než hrubý kvadratický výčet byl rozsáhle studován ve výpočetní geometrii . Pro přesný výpočet Theil-Senova odhadu v O ( n log n ) čase jsou známy některé další metody, a to buď deterministicky [3] , nebo pomocí pravděpodobnostních algoritmů [4] . Opakovaný střední Siegelův odhad lze také efektivně konstruovat ve stejnou dobu [26] . Ve výpočtových modelech, ve kterých jsou vstupními souřadnicemi celá čísla a bitové operace na celých číslech trvají konstantní čas, lze problém vyřešit ještě rychleji, s očekáváním doby výpočtu [27] .

Odhad sklonového koeficientu s přibližným středním stupněm, který má stejnou prahovou hodnotu jako odhad Theil-Sen, lze získat ve streamingovém datovém modelu (ve kterém jsou vzorové body zpracovávány algoritmem jeden po druhém a algoritmu nestačí paměti pro trvalé uložení všech datových sad) pomocí algoritmu založeného na ε-sítích [28] .

Aplikace

Theil-Senův odhad byl použit v astronomii kvůli schopnosti pracovat s cenzurovanými regresními modely [29] . Fernandez a Leblanc navrhli jeho použití v biofyzice [30] dálkového průzkumu Země, jako je odhad povrchu listů měřením odrazivosti, kvůli „jednoduchosti výpočtu, odhadu analytického intervalu spolehlivosti, robustnosti s ohledem na odlehlé hodnoty, ověřitelných předpokladů ohledně chyby a … omezené a priori informace týkající se chyb měření“. Pro měření sezónních environmentálních dat, jako je kvalita vody , byl Theil-Senův sezónní odhad navržen jako lepší než metoda nejmenších čtverců, protože poskytuje lepší přesnost v případě zkreslených dat [18] . V informatice byla metoda Theil-Sen použita k odhadu trendu zastarávání softwaru [31] . Další aplikace Theil-Senova testu je v meteorologii a klimatologii [32] , kde se používá k odhadu stabilních trendů směru a rychlosti větru.

Viz také

Poznámky

  1. Gilbert, 1987 .
  2. 1 2 El-Shaarawi, Piegorsch, 2001 .
  3. 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
  4. 1 2 Dillencourt, Mount, Netanjahu, 1992 ; Matoušek, 1991 ; Blunck, Vahrenhold, 2006 .
  5. Massart, Vandeginste a kol., 1997 .
  6. Sokal, Rohlf, 1995 .
  7. Dytham, 2011 .
  8. Granato, 2006 .
  9. 12 Wilcox , 2001 .
  10. Theil, 1950 .
  11. Sen, 1968 .
  12. 1 2 3 Rousseeuw, Leroy, 2003 , str. 67, 164.
  13. Osborne, 2008 .
  14. Aby bylo možné určit intervaly spolehlivosti, musí být dvojice bodů zpětně vzorkovány . To znamená, že sada párů použitá v tomto výpočtu zahrnuje přesně odpovídající páry. Tyto páry jsou vždy vynechány z intervalu spolehlivosti, protože nedefinují žádný konkrétní faktor sklonu, ale jejich zohledněním ve výpočtu se interval spolehlivosti rozšiřuje.
  15. Siegel, 1982 .
  16. De Muth, 2006 .
  17. Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
  18. 1 2 Hirsch, Slack, Smith, 1982 .
  19. Sen, 1968 , str. 1384 Věta 5.1.
  20. Wang, Yu, 2005 .
  21. Sen, 1968 , str. Oddíl 6.
  22. Wilcox, 1998 .
  23. 12 Wilcox , 2005 .
  24. Sen, 1968 , str. 1383.
  25. Cole, Salowe, Steiger, Szemerédi, 1989 .
  26. Matoušek, Mount, Netanjahu, 1998 .
  27. Chan, Pătraşcu, 2010 .
  28. Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
  29. Akritas, Murphy, LaValley, 1995 .
  30. Fernandes, Leblanc, 2005 .
  31. Vaidyanathan, Trivedi, 2005 .
  32. Romanić, Ćurić, Jovičić, Lompar, 2015 , str. 288-302.

Literatura

Odkazy