Funkce Theil–Sen Estimator
V neparametrické statistice existuje metoda robustního lineárního vyhlazování množiny bodů ( jednoduchá lineární regrese ), ve které je zvolen medián sklonů všech čar procházejících dvojicemi vzorových bodů v rovině. Metoda se nazývá Theil-Sen estimator , Slope Sen estimator [1] [2] , Slope selection [3] [4] , One-medián metoda [5] , Kendallova metoda Robust Line Approximation [6] [7] arobustní řada Kendall-Theil [8] . Metoda je pojmenována po Henri Theilovi a Pranabovi K. Senovi, kteří publikovali články o metodě v roce 1950 a 1968, a také po Maurice Kendallovi .
Tento odhad lze vypočítat efektivně a není citlivý na odlehlé hodnoty . Může být výrazně přesnější než nerobustní nejmenší čtverce pro nesymetrická a heteroskedastická data a dobře konkuruje nerobustním nejmenším čtvercům i pro normálně rozložená data z hlediska statistické síly [9] . Metoda je uznávána jako „nejoblíbenější neparametrická technika pro odhadování lineárního trendu“ [2] .
Definice
Jak Theil [10] definoval, Theil -Senův odhad množiny bodů v rovině ( x i , y i ) je medián m koeficientů sklonu ( y j − y i )/( x j − x i ) přes všechny dvojice vzorových bodů. Sen [11] rozšířil tuto definici o případ, kdy dva body mají stejné souřadnice x . Podle Senovy definice se medián sklonových koeficientů bere pouze pro dvojice bodů, které mají různé souřadnice x .
Po vypočítání sklonu m lze určit přímku ze vzorových bodů výběrem bodu b průsečíku osy y rovného mediánu hodnot y i − mx i [12] . Jak poznamenal Sen, jedná se o odhad, který činí Kendallův τ-řadový korelační koeficient porovnání x i se zbytkem i -tého pozorování přibližně rovný nule [13] .
Interval spolehlivosti pro odhad úhlu sklonu lze definovat jako interval obsahující průměr 95 % koeficientů sklonu čar procházejících dvojicemi bodů [14] , a lze jej rychle odhadnout vzorkováním dvojic a určením 95 % intervalu vzorkovaných sklonových koeficientů. Podle numerických simulací stačí k určení přesného intervalu spolehlivosti vzorek přibližně 600 párů bodů [9] .
Variace
Pro každý bod vzorku ( x i , y i ) je medián m i sklonových koeficientů ( y j − y i ) / ( x j − x i ) přímek procházejících tímto bodem, a pak je funkce celkových nákladů vypočítáno jako medián těchto mediánů.
Další možnost vybírá dvojice vzorových bodů podle pořadí jejich x -souřadnic (v páru je vybrán bod s nejmenší souřadnicí, první bod nad střední souřadnicí atd.), pak koeficienty sklonu čar jimi definovaných. počítají se dvojice bodů [16] .
Studují se také varianty Theil-Sen estimátoru založené na vážených mediánech , založené na principu, že dvojice vzorků, jejichž souřadnice x se liší více, budou mít s větší pravděpodobností přesnější sklon, a proto by měly mít větší váhu. [17]
U sezónních dat může být vhodné vyhladit sezónní proměnné v datech výběrem dvojic vzorových bodů, které patří ke stejnému měsíci nebo stejnému ročnímu období, a poté vypočítat medián sklonových koeficientů definovaných čar. těmito omezenými dvojicemi [18] .
Statistické vlastnosti
Theil-Senův odhad je nestranný odhad skutečného sklonu v jednoduché lineární regresi [19] [20] . Pro mnoho nenáhodných rozdělení chyb má tento odhad vysokou asymptotickou účinnost ve srovnání s metodou nejmenších čtverců [21] [22] . Odhady se špatnou výkonností vyžadují více nezávislých pozorování, aby se dosáhlo stejného rozptylu jako efektivní nezaujaté odhady.
Theil -Senův odhad je robustnější než odhad nejmenších čtverců, protože je výrazně robustnější vůči odlehlým hodnotám . Má práh , což znamená, že může tolerovat až 29,3 % vstupních dat bez snížení přesnosti [12] . U vícerozměrných zobecnění metody se však práh snižuje [23] . Vyšší práh, 50 %, je k dispozici pro další robustní lineární odhad, Siegelův opakovaný střední odhad [12] .
Theil-Sen skórovací funkce je ekvivariantní pro jakoukoli lineární transformaci jejích proměnných odezvy, což znamená, že transformace dat následovaná skórovací linií a přímkou následovanou transformací dat vedou ke stejným výsledkům [24] . Odhad však není ekvivariantní při současné afinní transformaci proměnných prediktoru i odezvy [23] .
Algoritmy
Medián sklonu množiny n bodů vzorku lze přesně vypočítat tak, že se spočítají všechny čáry O ( n 2 ) procházející dvojicemi bodů a použije se lineární časový algoritmus pro výběr mediánu . Alternativně lze hodnotu odhadnout pomocí vzorkovacích dvojic bodů. Problém je ekvivalentní, podle projektivní duality , problému nalezení průsečíku konfigurace čar , která obsahuje střední x souřadnic mezi všemi takovými průsečíky. [25]
Problém výběru faktoru sklonu přesně, ale efektivněji než hrubý kvadratický výčet byl rozsáhle studován ve výpočetní geometrii . Pro přesný výpočet Theil-Senova odhadu v O ( n log n ) čase jsou známy některé další metody, a to buď deterministicky [3] , nebo pomocí pravděpodobnostních algoritmů [4] . Opakovaný střední Siegelův odhad lze také efektivně konstruovat ve stejnou dobu [26] . Ve výpočtových modelech, ve kterých jsou vstupními souřadnicemi celá čísla a bitové operace na celých číslech trvají konstantní čas, lze problém vyřešit ještě rychleji, s očekáváním doby výpočtu [27] .
Odhad sklonového koeficientu s přibližným středním stupněm, který má stejnou prahovou hodnotu jako odhad Theil-Sen, lze získat ve streamingovém datovém modelu (ve kterém jsou vzorové body zpracovávány algoritmem jeden po druhém a algoritmu nestačí paměti pro trvalé uložení všech datových sad) pomocí algoritmu založeného na ε-sítích [28] .
Aplikace
Theil-Senův odhad byl použit v astronomii kvůli schopnosti pracovat s cenzurovanými regresními modely [29] . Fernandez a Leblanc navrhli jeho použití v biofyzice [30] dálkového průzkumu Země, jako je odhad povrchu listů měřením odrazivosti, kvůli „jednoduchosti výpočtu, odhadu analytického intervalu spolehlivosti, robustnosti s ohledem na odlehlé hodnoty, ověřitelných předpokladů ohledně chyby a … omezené a priori informace týkající se chyb měření“. Pro měření sezónních environmentálních dat, jako je kvalita vody , byl Theil-Senův sezónní odhad navržen jako lepší než metoda nejmenších čtverců, protože poskytuje lepší přesnost v případě zkreslených dat [18] . V informatice byla metoda Theil-Sen použita k odhadu trendu zastarávání softwaru [31] . Další aplikace Theil-Senova testu je v meteorologii a klimatologii [32] , kde se používá k odhadu stabilních trendů směru a rychlosti větru.
Viz také
- Regresní ředění , další problém využívající odhad sklonu trendu
Poznámky
- ↑ Gilbert, 1987 .
- ↑ 1 2 El-Shaarawi, Piegorsch, 2001 .
- ↑ 1 2 Cole, Salowe, Steiger, Szemerédi, 1989 ; Katz, Sharir, 1993 ; Brönnimann, Chazelle, 1998 .
- ↑ 1 2 Dillencourt, Mount, Netanjahu, 1992 ; Matoušek, 1991 ; Blunck, Vahrenhold, 2006 .
- ↑ Massart, Vandeginste a kol., 1997 .
- ↑ Sokal, Rohlf, 1995 .
- ↑ Dytham, 2011 .
- ↑ Granato, 2006 .
- ↑ 12 Wilcox , 2001 .
- ↑ Theil, 1950 .
- ↑ Sen, 1968 .
- ↑ 1 2 3 Rousseeuw, Leroy, 2003 , str. 67, 164.
- ↑ Osborne, 2008 .
- ↑ Aby bylo možné určit intervaly spolehlivosti, musí být dvojice bodů zpětně vzorkovány . To znamená, že sada párů použitá v tomto výpočtu zahrnuje přesně odpovídající páry. Tyto páry jsou vždy vynechány z intervalu spolehlivosti, protože nedefinují žádný konkrétní faktor sklonu, ale jejich zohledněním ve výpočtu se interval spolehlivosti rozšiřuje.
- ↑ Siegel, 1982 .
- ↑ De Muth, 2006 .
- ↑ Jaeckel, 1972 ; Scholz, 1978 ; Sievers, 1978 ; Birkes, Dodge, 1993 .
- ↑ 1 2 Hirsch, Slack, Smith, 1982 .
- ↑ Sen, 1968 , str. 1384 Věta 5.1.
- ↑ Wang, Yu, 2005 .
- ↑ Sen, 1968 , str. Oddíl 6.
- ↑ Wilcox, 1998 .
- ↑ 12 Wilcox , 2005 .
- ↑ Sen, 1968 , str. 1383.
- ↑ Cole, Salowe, Steiger, Szemerédi, 1989 .
- ↑ Matoušek, Mount, Netanjahu, 1998 .
- ↑ Chan, Pătraşcu, 2010 .
- ↑ Bagchi, Chaudhary, Eppstein, Goodrich, 2007 .
- ↑ Akritas, Murphy, LaValley, 1995 .
- ↑ Fernandes, Leblanc, 2005 .
- ↑ Vaidyanathan, Trivedi, 2005 .
- ↑ Romanić, Ćurić, Jovičić, Lompar, 2015 , str. 288-302.
Literatura
- D. Romanić, M. Ćurić, I. Jovičić, M. Lompar. Dlouhodobé trendy větru „Koshava“ v období 1949–2010. // International Journal of Climatology. - 2015. - T. 35 , no. 2 . - S. 288-302 . - doi : 10.1002/joc.3981 .
- Michael G. Akritas, Susan A. Murphyová, Michael P. LaValley. Theil-Senův odhad s dvojnásobně cenzurovanými daty a aplikacemi pro astronomii // Journal of the American Statistical Association. - 1995. - T. 90 , čís. 429 . — S. 170–177 . - doi : 10.1080/01621459.1995.10476499 . — .
- Amitabha Bagchi, Amitabh Chaudhary, David Eppstein, Michael T. Goodrich. Deterministické vzorkování a počítání rozsahů v tocích geometrických dat // ACM Transactions on Algorithms. - 2007. - Vol. 3 , vydání. 2 . - C. Čl. Ne. 16 . - doi : 10.1145/1240233.1240239 . - arXiv : cs/0307027 .
- David Birkes, Yadolah Dodge. Alternativní metody regrese. - Wiley-Interscience, 1993. - T. 282. - S. 113-118. - (Wileyova řada v pravděpodobnosti a statistice). — ISBN 978-0-471-56881-0 .
- Henrik Blunck, Jan Vahrenhold. Mezinárodní sympozium o algoritmech a složitosti. - Berlín: Springer-Verlag, 2006. - T. 3998. - S. 30-41. — (Poznámky z informatiky). — ISBN 978-3-540-34375-2 . - doi : 10.1007/11758471_6 .
- Hervé Brönnimann, Bernard Chazelle. Optimální výběr sklonu pomocí řezů // Teorie a aplikace výpočetní geometrie . - 1998. - T. 10 , no. 1 . — S. 23–29 . - doi : 10.1016/S0925-7721(97)00025-4 .
- Timothy M. Chan, Mihai Pătraşcu. Sborník příspěvků z 21. výročního sympozia ACM-SIAM o diskrétních algoritmech (SODA '10). - 2010. - S. 161-173.
- Richard Cole, Jeffrey S. Salowe, WL Steiger, Endre Szemerédi . Algoritmus optimálního času pro výběr sklonu // SIAM Journal on Computing . - 1989. - T. 18 , no. 4 . — S. 792–810 . - doi : 10.1137/0218055 .
- E. James De Muth. Základní statistika a farmaceutické statistické aplikace. — 2. - CRC Press, 2006. - Vol. 16. - (Biostatistika). — ISBN 978-0-8493-3799-4 .
- Michael B. Dillencourt, David Mount, Nathan Netanjahu. Randomizovaný algoritmus pro výběr sklonu // International Journal of Computational Geometry & Applications. - 1992. - Vol. 2 , vydání. 1 . — S. 1–27 . - doi : 10.1142/S0218195992000020 .
- Calvin Dytham. Výběr a používání statistik: Průvodce biologa. — 3. - John Wiley and Sons, 2011. - ISBN 978-1-4051-9839-4 .
- Abdel H. El-Shaarawi, Walter W. Piegorsch. Encyclopedia of Environmetrics, Volume 1. - John Wiley and Sons, 2001. - ISBN 978-0-471-89997-6 .
- Richard Fernandes, Sylvain G. Leblanc. Parametrické (upravené nejmenší čtverce) a neparametrické (Theil–Sen) lineární regrese pro predikci biofyzikálních parametrů v přítomnosti chyb měření // Remote Sensing of Environment. - 2005. - T. 95 , č. 3 . — S. 303–316 . - doi : 10.1016/j.rse.2005.01.005 .
- Richard O. Gilbert. Statistické metody pro monitorování znečištění životního prostředí. - John Wiley and Sons, 1987. - S. 217-219. — ISBN 978-0-471-28878-7 .
- Gregory E. Granato. Kendall-Theil Robust Line (KTRLine--verze 1.0)-Vizuální základní program pro výpočet a grafy robustních neparametrických odhadů lineárních regresních koeficientů mezi dvěma spojitými proměnnými. - US Geological Survey, 2006. - S. 31 s CD-ROM. — (Techniques and Methods of the US Geological Survey, kniha 4, kap. A7).
- Robert M. Hirsch, James R. Slack, Richard A. Smith. Techniky analýzy trendů pro měsíční údaje o kvalitě vody // Výzkum vodních zdrojů. - 1982. - T. 18 , no. 1 . — S. 107–121 . - doi : 10.1029/WR018i001p00107 . - .
- Louis A. Jaeckel. Odhadování regresních koeficientů minimalizací rozptylu reziduí // Annals of Mathematical Statistics. - 1972. - T. 43 , čís. 5 . - S. 1449-1458 . - doi : 10.1214/aoms/1177692377 .
- Matthew J. Katz, Micha Sharir. Optimální výběr sklonu pomocí expandérů // Information Processing Letters . - 1993. - T. 47 , no. 3 . — S. 115–122 . - doi : 10.1016/0020-0190(93)90234-Z .
- DL Massart, BGM Vandeginste, LMC Buydens, S. De Jong, PJ Lewi, J. Smeyers-Verbeke. Handbook of Chemometrics and Qualimetrics: Part A. - Elsevier, 1997. - Vol.20A. — S. 355–356. — (Nakládání s daty ve vědě a technice). - ISBN 978-0-444-89724-4 .
- Jiří Matoušek. Randomizovaný optimální algoritmus pro výběr sklonu // Information Processing Letters . - 1991. - T. 39 , no. 4 . — S. 183–187 . - doi : 10.1016/0020-0190(91)90177-J .
- Jiří Matoušek, David M. Mount, Nathan S. Netanjahu. Efektivní randomizované algoritmy pro opakovaný odhad středních čar // Algorithmica . - 1998. - T. 20 , no. 2 . — S. 136–150 . - doi : 10.1007/PL00009190 .
- Jason W. Osborne. Osvědčené postupy v kvantitativních metodách. - Sage Publications, Inc., 2008. - ISBN 9781412940658 .
- Peter Rousseeuw, Annick M. Leroy. Robustní regrese a detekce odlehlých hodnot. - Wiley, 2003. - V. 516. - (Wileyova řada v pravděpodobnosti a matematické statistice). — ISBN 978-0-471-48855-2 .
- Friedrich-Wilhelm Scholz. Vážený střední regresní odhady // The Annals of Statistics. - 1978. - T. 6 , no. 3 . — S. 603–609 . - doi : 10.1214/aos/1176344204 . — .
- Pranab Kumar Sen. Odhady regresního koeficientu založené na Kendallově tau. — Journal of the American Statistical Association . - 1968. - T. 63. - S. 1379-1389. - doi : 10.2307/2285891 .
- Andrew F. Siegel Robustní regrese pomocí opakovaných mediánů // Biometrika. - 1982. - T. 69 , no. 1 . — S. 242–244 . - doi : 10.1093/biomet/69.1.242 .
- Gerald L. Sievers. Vážená statistika pořadí pro jednoduchou lineární regresi // Journal of the American Statistical Association. - 1978. - T. 73 , čís. 363 . — S. 628–631 . - doi : 10.1080/01621459.1978.10480067 . — .
- Robert R. Sokal, F. James Rohlf. Biometrie: Principy a praxe statistiky v biologickém výzkumu. - Macmillan, 1995. - ISBN 978-0-7167-2411-7 .
- H. Theil. Pořadově invariantní metoda lineární a polynomiální regresní analýzy. I, II, III // Nederl. Akad. Wetensch., Proč.. - 1950. - T. 53 . — S. 386–392, 521–525, 1397–1412 . .
- Kalyanaraman Vaidyanathan, Kishor S. Trivedi. Komplexní model pro softwarové omlazení // IEEE transakce na spolehlivém a zabezpečeném počítači. - 2005. - Vol. 2 , vydání. 2 . — S. 124–137 . - doi : 10.1109/TDSC.2005.15 .
- Xueqin Wang, Qiqing Yu. Nezaujatost Theil-Sen estimator // Journal of Nonparametric Statistics. - 2005. - T. 17 , no. 6 . — S. 685–695 . - doi : 10.1080/10485250500039452 .
- Rand R. Wilcox. Poznámka k Theil-Senovi regresnímu odhadu, když je regresor náhodný a chybový člen je heteroskedastický // Biometrical Journal. - 1998. - T. 40 , no. 3 . — S. 261–268 . - doi : 10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V .
- Rand R. Wilcox. Základy moderních statistických metod: Podstatné zlepšení výkonu a přesnosti. - Springer-Verlag, 2001. - S. 207-210. — ISBN 978-0-387-95157-7 .
- Rand R. Wilcox. Úvod do robustního odhadu a testování hypotéz . - Academic Press, 2005. - S. 423-427 . — ISBN 978-0-12-751542-7 .
Odkazy