Theil – Sen odhadce - Theil–Sen estimator

v neparametrické statistiky, Theil – Sen odhadce je metoda pro robustně montáž linky k vzorkování bodů v rovině (jednoduchá lineární regrese ) výběrem medián z svahy všech linií dvojicí bodů. Bylo také nazýváno Senův odhad svahu,[1][2] výběr sklonu,[3][4] the metoda jednoho mediánu,[5] the Robustní metoda line-fit společnosti Kendall,[6] a Robustní linie Kendall – Theil.[7] Je pojmenován po Henri Theil a Pranab K. Sen, který o této metodě publikoval práce v letech 1950 a 1968,[8] a poté Maurice Kendall kvůli jeho vztahu k Kendall tau rank korelační koeficient.[9]
Tento odhad lze vypočítat efektivně a je necitlivý odlehlé hodnoty. Může to být výrazně přesnější než robustní jednoduchá lineární regrese (nejméně čtverců) pro zkosený a heteroskedastický data a dobře soutěží s nejmenšími čtverci i pro normálně distribuováno údaje z hlediska statistická síla.[10] Nazývá se „nejpopulárnější neparametrická technika pro odhad lineárního trendu“.[2]
Definice
Jak je definováno Theil (1950), Theil – Senův odhadce množiny dvojrozměrných bodů (Xi,yi) je medián m sjezdovek (yj − yi)/(Xj − Xi) určeno všemi dvojicemi vzorkovacích bodů. Sen (1968) rozšířil tuto definici tak, aby zvládl případ, kdy dva datové body mají stejné X koordinovat. V Senově definici se vezme střední hodnota svahů definovaných pouze z dvojic bodů, které mají odlišné X souřadnice.[8]
Jednou svah m bylo určeno, lze určit čáru ze vzorkovacích bodů nastavením y-intercept b být mediánem hodnot yi − mxi. Přizpůsobená čára je pak čára y = mx + b s koeficienty m a b v sklon - tvar průsečíku.[11] Jak poznamenal Sen, tato volba sklonu činí Kendall tau rank korelační koeficient stane se přibližně nulovou, když se použije k porovnání hodnot Xi s jejich přidruženými zbytky yi − mxi − b. Intuitivně to naznačuje, že to, jak daleko křivka prochází nad nebo pod datovým bodem, nesouvisí s tím, zda je tento bod na levé nebo pravé straně datové sady. Volba b neovlivňuje Kendallův koeficient, ale způsobí, že medián rezidua bude přibližně nula; to znamená, že křivka prochází nad a pod stejným počtem bodů.[9]
A interval spolehlivosti pro odhad sklonu lze určit jako interval obsahující střední 95% sklonů linií určených dvojicemi bodů[12] a lze je rychle odhadnout vzorkováním dvojic bodů a určením 95% intervalu vzorkovaných svahů. Podle simulací je k určení přesného intervalu spolehlivosti dostatečné přibližně 600 párů vzorků.[10]
Variace
Variace odhadce Theil-Sen, opakovaná střední regrese z Siegel (1982), určuje pro každý vzorkovací bod (Xi,yi), medián mi sjezdovek (yj − yi)/(Xj − Xi) čar přes tento bod a poté určí celkový odhad jako medián těchto mediánů. Může tolerovat větší počet odlehlých hodnot než odhad Theil-Sen, ale známé algoritmy pro efektivní výpočet jsou složitější a méně praktické.[13]
Jiná varianta spáruje ukázkové body podle jejich pořadí X-coordinates: bod s nejmenší souřadnicí je spárován s prvním bodem nad střední souřadnicí, druhý nejmenší bod je spárován s dalším bodem nad střední hodnotou atd. Poté vypočítá střední hodnotu sklonu přímek určenou těmito dvojicemi bodů a získá rychlost zkoumáním podstatně méně párů než odhadovač Theil-Sen.[14]
Variace odhadu Theil-Sen založené na vážené mediány byly také studovány na základě principu, že páry vzorků, jejichž X- souřadnice se výrazněji liší, je větší pravděpodobnost, že budou mít přesný sklon, a proto by měly dostávat vyšší váhu.[15]
U sezónních údajů může být vhodné vyhladit sezónní výkyvy v datech zvážením pouze párů vzorkovacích bodů, které oba patří do stejného měsíce nebo stejné sezóny roku, a nalezení mediánu sklonů linií určených tato přísnější sada párů.[16]
Statistické vlastnosti
Theil-Sen odhadce je nezaujatý odhad skutečného sklonu v jednoduchá lineární regrese.[17] Pro mnoho distribucí chyba odezvy, tento odhad je vysoký asymptotická účinnost ve vztahu k nejmenší čtverce odhad.[18] Odhady s nízkou účinností vyžadují více nezávislých pozorování, aby se dosáhlo stejné rozptylu vzorků účinných nezaujatých odhadů.
Theil-Sen odhadce je více robustní než odhadce nejmenších čtverců, protože je mnohem méně citlivý na odlehlé hodnoty. Má to bod poruchy z
to znamená, že může tolerovat libovolné poškození až 29,3% vstupních datových bodů bez zhoršení jeho přesnosti.[11] Bod rozpadu se však snižuje pro vícerozměrné zobecnění metody.[19] Vyšší bod rozdělení, 50%, platí pro jiný robustní algoritmus pro přizpůsobení přímky, opakovaný odhad mediánu Siegela.[11]
Theil-Sen odhad je ekvivariant pod každým lineární transformace jeho proměnné odezvy, což znamená, že transformace dat jako první a poté přizpůsobení řádku nebo první přizpůsobení řádku a následná transformace stejným způsobem, oba způsobí stejný výsledek.[20] Není to však ekvivariant pod afinní transformace proměnných prediktorů i odpovědí.[19]
Algoritmy a implementace
Střední sklon sady n vzorkovací body lze vypočítat přesně výpočtem všech Ó(n2) čáry skrz dvojice bodů a poté použití lineárního času střední vyhledávací algoritmus. Alternativně to může být odhadnuto vzorkováním dvojic bodů. Tento problém je ekvivalentní pod projektivní dualita, k problému nalezení hraničního přechodu v uspořádání řádků který má medián X- koordinovaný mezi všemi takovými hraničními přechody.[21]
Problém provádění výběru sklonu přesně, ale efektivněji než kvadratický časový algoritmus hrubé síly byl rozsáhle studován v výpočetní geometrie. Pro výpočet Theil-Senova odhadu přesně v je známo několik různých metod Ó(n log n) čas, buď deterministicky[3] nebo pomocí randomizované algoritmy.[4] Siegelov opakovaný odhad mediánu lze také sestrojit ve stejné časové vazbě.[22] V modelech výpočtu, ve kterých jsou vstupní souřadnice celá čísla a ve kterých bitové operace na celá čísla, která potřebují konstantní čas, lze odhad Theil-Sen sestavit ještě rychleji, v náhodně očekávaném čase .[23]
Odhad svahu s přibližně středním pořadím, který má stejný bod rozdělení jako odhad Theil-Sen, může být udržován v model datového proudu (ve kterém jsou vzorové body zpracovávány jeden po druhém algoritmem, který nemá dostatek perzistentního úložiště k reprezentaci celé datové sady) pomocí algoritmu založeného na ε-sítě.[24]
V R balíček statistik, jak odhad Theil-Sen, tak Siegelov opakovaný střední odhad jsou k dispozici prostřednictvím mblm
knihovna.[25]Samostatně zdarma Visual Basic aplikace pro odhad Theil – Sen, KTRLine
, byla zpřístupněna Americký geologický průzkum.[26]Odhad Theil-Sen byl také implementován v Krajta jako součást SciPy a scikit-učit se knihovny.[27]
Aplikace
Byl použit odhad Theil – Sen astronomie díky své schopnosti zvládnout cenzurované regresní modely.[28] v biofyzika, Fernandes & Leblanc (2005) navrhnout jeho použití pro aplikace dálkového průzkumu Země, jako je odhad plochy listu z údajů o odrazivosti díky jeho „jednoduchosti výpočtu, analytickým odhadům intervalů spolehlivosti, robustnosti vůči odlehlým hodnotám, testovatelným předpokladům týkajícím se reziduí a ... omezené apriorní informace týkající se chyb měření ".[29] Pro měření sezónních údajů o životním prostředí, jako je Kvalita vody, byla navržena sezónně upravená varianta Theil-Senova odhadu jako výhodnější než odhad nejmenších čtverců kvůli vysoké přesnosti v přítomnosti zkreslených dat.[16] v počítačová věda, k odhadu trendů byla použita metoda Theil-Sen stárnutí softwaru.[30] v meteorologie a klimatologie, bylo použito k odhadu dlouhodobých trendů výskytu a rychlosti větru.[31]
Viz také
- Regresní ředění, pro další problém ovlivňující odhadované svahy trendů
Poznámky
- ^ Gilbert (1987).
- ^ A b El-Shaarawi & Piegorsch (2001).
- ^ A b Cole a kol. (1989); Katz & Sharir (1993); Brönnimann & Chazelle (1998).
- ^ A b Dillencourt, Mount & Netanyahu (1992); Matoušek (1991); Blunck & Vahrenhold (2006).
- ^ Massart a kol. (1997).
- ^ Sokal a Rohlf (1995); Dytham (2011).
- ^ Granato (2006)
- ^ A b Theil (1950); Sen (1968)
- ^ A b Sen (1968); Osborne (2008).
- ^ A b Wilcox (2001).
- ^ A b C Rousseeuw & Leroy (2003), str. 67, 164.
- ^ Pro určení intervalů spolehlivosti musí být vzorkovány páry bodů s výměnou; to znamená, že sada párů použitá v tomto výpočtu zahrnuje páry, ve kterých jsou oba body stejné jako každý jiný. Tyto páry jsou vždy mimo interval spolehlivosti, protože neurčují dobře definovanou hodnotu sklonu, ale jejich použití jako součásti výpočtu způsobí, že interval spolehlivosti bude širší, než by byl bez nich.
- ^ Logan (2010), Oddíl 8.2.7 Robustní regrese; Matoušek, Mount & Netanyahu (1998)
- ^ De Muth (2006).
- ^ Jaeckel (1972); Scholz (1978); Sievers (1978); Birkes & Dodge (1993).
- ^ A b Hirsch, Slack & Smith (1982).
- ^ Sen (1968), Věta 5.1, str. 1384; Wang & Yu (2005).
- ^ Sen (1968), Oddíl 6; Wilcox (1998).
- ^ A b Wilcox (2005).
- ^ Sen (1968), str. 1383.
- ^ Cole a kol. (1989).
- ^ Matoušek, Mount & Netanyahu (1998).
- ^ Chan & Pătraşcu (2010).
- ^ Bagchi a kol. (2007).
- ^ Logan (2010), p. 237; Vannest, Davis & Parker (2013)
- ^ Vannest, Davis & Parker (2013); Granato (2006)
- ^ Komunita SciPy (2015); Persson & Martins (2016)
- ^ Akritas, Murphy & LaValley (1995).
- ^ Fernandes & Leblanc (2005).
- ^ Vaidyanathan & Trivedi (2005).
- ^ Romanić a kol. (2014).
Reference
- Akritas, Michael G .; Murphy, Susan A.; LaValley, Michael P. (1995), „Theil-Sen odhadce s dvojnásobně cenzurovanými daty a aplikacemi v astronomii“, Journal of the American Statistical Association, 90 (429): 170–177, doi:10.1080/01621459.1995.10476499, JSTOR 2291140, PAN 1325124.
- Bagchi, Amitabha; Chaudhary, Amitabh; Eppstein, David; Goodrich, Michael T. (2007), „Deterministické vzorkování a počítání rozsahu v geometrických datových tocích“, Transakce ACM na algoritmech, 3 (2): Čl. Č. 16, arXiv:cs / 0307027, doi:10.1145/1240233.1240239, PAN 2335299, S2CID 123315817.
- Birkes, David; Dodge, Yadolah (1993), „6.3 Odhad regresní linie“, Alternativní metody regrese, Wiley Series v pravděpodobnosti a statistice, 282, Wiley-Interscience, str. 113–118, ISBN 978-0-471-56881-0.
- Blunck, Henrik; Vahrenhold, Jan (2006), „Výběr náhodného svahu na místě“, Mezinárodní sympozium o algoritmech a složitosti, Přednášky v informatice, 3998, Berlín: Springer-Verlag, s. 30–41, doi:10.1007/11758471_6, ISBN 978-3-540-34375-2, PAN 2263136.
- Brönnimann, Hervé; Chazelle, Bernard (1998), „Optimální výběr svahu pomocí řízků“, Teorie a aplikace výpočetní geometrie, 10 (1): 23–29, doi:10.1016 / S0925-7721 (97) 00025-4, PAN 1614381.
- Chan, Timothy M.; Pătraşcu, Mihai (2010), „Počítání inverzí, offline počítání ortogonálního rozsahu a související problémy“, Sborník dvacátého prvního výročního sympozia ACM-SIAM o diskrétních algoritmech (SODA '10) (PDF), s. 161–173.
- Cole, Richard; Salowe, Jeffrey S .; Steiger, W. L .; Szemerédi, Endre (1989), „Algoritmus optimálního času pro výběr sklonu“, SIAM Journal on Computing, 18 (4): 792–810, doi:10.1137/0218055, PAN 1004799.
- De Muth, E. James (2006), Základní statistiky a farmaceutické statistické aplikace, Biostatistika, 16 (2. vydání), CRC Press, str. 577, ISBN 978-0-8493-3799-4.
- Dillencourt, Michael B .; Mount, David M.; Netanjahu, Nathan S. (1992), „Randomizovaný algoritmus pro výběr sklonu“, International Journal of Computational Geometry & Applications, 2 (1): 1–27, doi:10.1142 / S0218195992000020, PAN 1159839.
- Dytham, Calvin (2011), Výběr a používání statistik: Průvodce biologa (3. vyd.), John Wiley and Sons, str. 230, ISBN 978-1-4051-9839-4.
- El-Shaarawi, Abdel H .; Piegorsch, Walter W. (2001), Encyclopedia of Environmetrics, svazek 1, John Wiley and Sons, str. 19, ISBN 978-0-471-89997-6.
- Fernandes, Richard; Leblanc, Sylvain G. (2005), „Parametrické (upravené nejmenší čtverce) a neparametrické (Theil-Sen) lineární regrese pro predikci biofyzikálních parametrů za přítomnosti chyb měření“, Dálkový průzkum prostředí, 95 (3): 303–316, Bibcode:2005RSEnv..95..303F, doi:10.1016 / j.rse.2005.01.005.
- Gilbert, Richard O. (1987), „6,5 Senův neparametrický odhad svahu“, Statistické metody pro monitorování znečištění životního prostředí, John Wiley and Sons, str. 217–219, ISBN 978-0-471-28878-7.
- Granato, Gregory E. (2006), „Kapitola A7: Kendall – Theil Robust Line (KTRLine - verze 1.0) - Základní vizuální program pro výpočet a vytváření grafů robustních neparametrických odhadů lineárních regresních koeficientů mezi dvěma spojitými proměnnými“, Hydrologická analýza a interpretace, US Geological Survey Techniques and Methods, 4, US Geological Survey.
- Hirsch, Robert M.; Slack, James R .; Smith, Richard A. (1982), „Techniky analýzy trendů pro měsíční údaje o kvalitě vody“, Výzkum vodních zdrojů, 18 (1): 107–121, Bibcode:1982WRR .... 18..107H, doi:10.1029 / WR018i001p00107.
- Jaeckel, Louis A. (1972), „Odhad regresních koeficientů minimalizací rozptylu zbytků“, Annals of Mathematical Statistics, 43 (5): 1449–1458, doi:10.1214 / aoms / 1177692377, PAN 0348930.
- Katz, Matthew J .; Sharir, Micha (1993), „Optimální výběr svahu pomocí expandérů“, Dopisy o zpracování informací, 47 (3): 115–122, doi:10.1016 / 0020-0190 (93) 90234-Z, PAN 1237287.
- Logan, Murray (2010), Biostatistický design a analýza pomocí R: Praktický průvodce, ISBN 9781444362473
- Massart, D.L .; Vandeginste, B. G. M .; Buydens, L. M. C .; De Jong, S .; Lewi, P. J .; Smeyers-Verbeke, J. (1997), „12.1.5.1 Single median method“, Handbook of Chemometrics and Qualimetrics: Part A, Zpracování dat ve vědě a technologii, 20A, Elsevier, str. 355–356, ISBN 978-0-444-89724-4.
- Matoušek, Jiří (1991), „Randomizovaný optimální algoritmus pro výběr sklonu“, Dopisy o zpracování informací, 39 (4): 183–187, doi:10.1016 / 0020-0190 (91) 90177-J, PAN 1130747.
- Matoušek, Jiří; Mount, David M.; Netanjahu, Nathan S. (1998), „Efektivní randomizované algoritmy pro opakovaný odhad střední čáry“, Algorithmica, 20 (2): 136–150, doi:10.1007 / PL00009190, PAN 1484533, S2CID 17362967.
- Osborne, Jason W. (2008), Osvědčené postupy v kvantitativních metodách, Sage Publications, Inc., s. 273, ISBN 9781412940658.
- Persson, Magnus Vilhelm; Martins, Luiz Felipe (2016), Zvládnutí analýzy dat v Pythonu Packt Publishing, s. 177, ISBN 9781783553303
- Romanić, Djordje; Ćurić, Mladjen; Jovičić, Ilija; Lompar, Miloš (2014), „Dlouhodobé trendy koshavského větru v letech 1949–2010“, International Journal of Climatology, 35 (2): 288–302, Bibcode:2015IJCli..35..288R, doi:10.1002 / joc.3981.
- Rousseeuw, Peter J.; Leroy, Annick M. (2003), Robustní regrese a detekce odlehlých hodnot, Wiley Series v pravděpodobnosti a matematické statistice, 516Wiley, p. 67, ISBN 978-0-471-48855-2.
- Scholz, Friedrich-Wilhelm (1978), „Vážené střední odhady regrese“, Annals of Statistics, 6 (3): 603–609, doi:10.1214 / aos / 1176344204, JSTOR 2958563, PAN 0468054.
- Komunita SciPy (2015), „scipy.stats.mstats.theilslopes“, Referenční příručka pro SciPy v0.15.1
- Sen, Pranab Kumar (1968), „Odhady regresního koeficientu na základě Kendallova tau“, Journal of the American Statistical Association, 63 (324): 1379–1389, doi:10.2307/2285891, JSTOR 2285891, PAN 0258201.
- Siegel, Andrew F. (1982), „Robustní regrese s použitím opakovaných mediánů“, Biometrika, 69 (1): 242–244, doi:10.1093 / biomet / 69.1.242.
- Sievers, Gerald L. (1978), „Statistika vážené hodnosti pro jednoduchou lineární regresi“, Journal of the American Statistical Association, 73 (363): 628–631, doi:10.1080/01621459.1978.10480067, JSTOR 2286613.
- Sokal, Robert R.; Rohlf, F. James (1995), Biometrie: Principy a praxe statistiky v biologickém výzkumu (3. vyd.), Macmillan, str. 539, ISBN 978-0-7167-2411-7.
- Theil, H. (1950), "Rank-invariantní metoda lineární a polynomiální regresní analýzy. I, II, III", Nederl. Akad. Wetensch., Proc., 53: 386–392, 521–525, 1397–1412, PAN 0036489.
- Vaidyanathan, Kalyanaraman; Trivedi, Kishor S. (2005), „Komplexní model pro omlazení softwaru“, Transakce IEEE na spolehlivých a bezpečných počítačích, 2 (2): 124–137, doi:10.1109 / TDSC.2005.15, S2CID 15105513.
- Vannest, Kimberly J .; Davis, John L .; Parker, Richard I. (2013), Jeden případový průzkum ve školách: Praktické pokyny pro školní profesionály Routledge, str. 55, ISBN 9781136173622
- Wang, Xueqin; Yu, Qiqing (2005), „Nestrannost odhadce Theil-Sen“, Journal of Nonparametric Statistics, 17 (6): 685–695, doi:10.1080/10485250500039452, PAN 2165096, S2CID 121061001.
- Wilcox, Rand R. (1998), „Poznámka k odhadu regrese Theil-Sen, když je regresor náhodný a chybný termín heteroscedastický“, Biometrický deník, 40 (3): 261–268, doi:10.1002 / (SICI) 1521-4036 (199807) 40: 3 <261 :: AID-BIMJ261> 3.0.CO; 2-V.
- Wilcox, Rand R. (2001), „odhadce Theil-Sen“, Základy moderních statistických metod: Podstatné zvýšení výkonu a přesnosti, Springer-Verlag, str. 207–210, ISBN 978-0-387-95157-7.
- Wilcox, Rand R. (2005), „10.2 Theil – Sen Estimator“, Úvod do robustního odhadu a testování hypotéz„Academic Press, s. 423–427, ISBN 978-0-12-751542-7.