Hodges – Lehmann odhad - Hodges–Lehmann estimator - Wikipedia
v statistika, Hodges – Lehmann odhad je robustní a neparametrické odhadce populace parametr umístění. Pro populace, které jsou symetrické kolem jedné medián, jako je (Gaussovo) normální rozdělení nebo Student t-distribuce, odhadce Hodges – Lehmann je konzistentní a medián-nezaujatý odhad mediánu populace. U nesymetrických populací odhaduje Hodges – Lehmann odhad „pseudo-medián “, což úzce souvisí s mediánem populace.
Odhad Hodges-Lehmann byl původně navržen pro odhad parametru umístění jednorozměrných populací, ale byl použit pro mnoho dalších účelů. Používá se k odhadu rozdíly mezi členy dvou populací. Bylo generalizováno z jednorozměrných populací na mnohorozměrné populace, které produkují vzorky vektory.
Je založen na Wilcoxon podepsal statistiku. Ve statistické teorii to byl časný příklad a odhad na základě hodnocení, důležitá třída odhadů jak v neparametrických statistikách, tak v robustních statistikách. Odhad Hodges-Lehmann navrhl v roce 1963 nezávisle Pranab Kumar Sen a tím Joseph Hodges a Erich Lehmann, a proto se mu také říká „Hodges – Lehmann – Sen odhadce".[1]
Definice
V nejjednodušším případě statistika „Hodges – Lehmann“ odhaduje parametr umístění pro jednorozměrnou populaci.[2][3] Jeho výpočet lze rychle popsat. Pro datovou sadu s n měření, má soubor všech možných jedno- nebo dvouprvkových podmnožin n(n + 1) / 2 prvky. Pro každou takovou podmnožinu se vypočítá průměr; nakonec jejich medián n(n + 1) / 2 průměry jsou definovány jako Hodges – Lehmann odhad polohy.
Statistika Hodges – Lehmann také odhaduje rozdíl mezi dvěma populacemi. Pro dvě sady dat s m a n pozorování, sada dvouprvkových sad z nich je jejich kartézským součinem, který obsahuje m × n dvojice bodů (jeden z každé sady); každý takový pár definuje jeden rozdíl hodnot. Statistika Hodges-Lehmann je medián z m × n rozdíly.[4]
Odhad mediánu populace symetrické populace
U populace symetrické odhaduje statistika Hodges-Lehmann medián populace. Jedná se o robustní statistiku, která má a bod poruchy 0,29, což znamená, že statistika zůstává omezená, i když bylo kontaminováno téměř 30 procent dat. Tato robustnost je důležitou výhodou oproti průměru vzorku, který má nulový bod rozpadu, je úměrný jakémukoli jednotlivému pozorování a je tak náchylný k uvedení v omyl i jedním odlehlý. The medián vzorku je ještě robustnější a má bod zlomu 0,50.[5] Hodges – Lehmann odhad je také mnohem lepší než průměr vzorku při odhadu směsí normálních distribucí.[6]
U symetrických rozdělení má statistika Hodges – Lehmann větší účinnost než medián vzorku. Pro normální rozdělení je statistika Hodges-Lehmann téměř stejně účinná jako průměr vzorku. Pro Cauchyovo rozdělení (Studentovo t-rozdělení s jedním stupněm volnosti) je Hodges-Lehmann nekonečně účinnější než průměr vzorku, což není konzistentní odhad mediánu.[5]
U nesymetrických populací odhaduje Hodgesova-Lehmannova statistika populační „pseudomedián“,[7] A parametr umístění který úzce souvisí s medián. Rozdíl mezi mediánem a pseudo-mediánem je relativně malý, a proto je tento rozdíl v elementárních diskusích opomíjen. Jako prostorový medián,[8] pseudo-medián je dobře definován pro všechna rozdělení náhodných proměnných, které mají dimenzi dva nebo větší; pro jednorozměrné distribuce existuje nějaký pseudo-medián, který však nemusí být jedinečný. Stejně jako medián je pseudo-medián definován i pro distribuce s těžkým ocasem, které postrádají jakékoli (konečné) znamenat.[9]
Statistika Hodges – Lehmann s jedním vzorkem nemusí odhadovat žádný průměr populace, který pro mnoho distribucí neexistuje. Dvouhodinový Hodges – Lehmann odhadce nemusí odhadovat rozdíl dvou průměrů nebo rozdíl dvou (pseudo-) mediánů; spíše odhaduje rozdíly mezi populací spárovaných náhodných proměnných čerpaných z populací.[4]
V obecných statistikách
Hodges – Lehmann univariate statistiky mají několik zevšeobecnění v vícerozměrný statistika:[10]
- Vícerozměrné hodnosti a znaky[11]
- Testy prostorových znaků a prostorové mediány[8]
- Prostorové testy se znaménkem[12]
- Porovnání testů a odhadů[13]
- Několik ukázkových problémů s umístěním[14]
Viz také
Poznámky
- ^ Lehmann (2006, s. 176 a 200–201)
- ^ Dodge, Y. (2003) Oxfordský slovník statistických pojmů, OUP. ISBN 0-19-850994-4 Záznam pro „Hodges-Lehmann odhadovač s jedním samaplem“
- ^ Hodges & Lehmann (1963)
- ^ A b Everitt (2002) Záznam pro „Hodges-Lehmann odhadce“
- ^ A b Myles Hollander. Douglas A. Wolfe. Neparametrické statistické metody. 2. vyd. John Wiley.
- ^ Jurečková Sen. Robustní statistické postupy.
- ^ Hettmansperger & McKean (1998, s. 2–4)
- ^ A b Oja (2010, str. 71)
- ^ Hettmansperger & McKean (1998, s. 2–4 a 355–356)
- ^ Oja (2010, s. 2–3)
- ^ Oja (2010, str. 34)
- ^ Oja (2010, s. 83–94)
- ^ Oja (2010, s. 98–102)
- ^ Oja (2010 160, 162 a 167–169)
Reference
- Everitt, BS (2002) Statistický slovník CambridgeCUP. ISBN 0-521-81099-X
- Hettmansperger, T. P .; McKean, J. W. (1998). Robustní neparametrické statistické metody. Kendall's Library of Statistics. 5 (První vydání, spíše než Taylor a Francis (2010), druhé vydání.). Londýn; New York: Edward Arnold; John Wiley and Sons, Inc., str. Xiv + 467. ISBN 0-340-54937-8. PAN 1604954.CS1 maint: ref = harv (odkaz)
- Hodges, J.L .; Lehmann, E. L. (1963). „Odhad polohy na základě hodnocení“. Annals of Mathematical Statistics. 34 (2): 598–611. doi:10.1214 / aoms / 1177704172. JSTOR 2238406. PAN 0152070. Zbl 0203.21105. PE euclid.aoms / 1177704172.CS1 maint: ref = harv (odkaz)
- Lehmann, Erich L. (2006). Neparametrics: Statistické metody založené na hodnostech. Se speciální asistencí H. J. M. D'Abrery (Dotisk revize z roku 1988, Holden-Day z roku 1975). New York: Springer. str. xvi + 463. ISBN 978-0-387-35212-1. PAN 0395032.CS1 maint: ref = harv (odkaz)
- Oja, Hannu (2010). Vícerozměrné neparametrické metody sR: Přístup založený na prostorových znacích a hodnostech. Poznámky k přednášce ve statistice. 199. New York: Springer. str. xiv + 232. doi:10.1007/978-1-4419-0468-3. ISBN 978-1-4419-0467-6. PAN 2598854.CS1 maint: ref = harv (odkaz)
- Sen, Pranab Kumar (Prosinec 1963). Msgstr "O odhadu relativní účinnosti při zředění (přímém) metodami bez distribuce". Biometrie. 19 (4): 532–552. doi:10.2307/2527532. JSTOR 2527532. Zbl 0119.15604.CS1 maint: ref = harv (odkaz)