Střední kategorie - Mid-range
v statistika, střední rozsah nebo středně extrémní souboru hodnot statistických údajů je aritmetický průměr maximální a minimální hodnoty v a soubor dat, definováno jako:[1]
Střední rozsah je středem rozsah; jako takový je to míra centrální tendence.
Střední rozsah se v praktické statistické analýze používá jen zřídka, protože chybí účinnost jako odhadce pro většinu distribucí zájmu, protože ignoruje všechny mezilehlé body a chybí robustnost, protože odlehlé hodnoty to výrazně mění. Je to skutečně jedna z nejméně účinných a nejméně spolehlivých statistik. Ve zvláštních případech však najde uplatnění: jedná se o maximálně efektivní odhadce pro střed rovnoměrného rozdělení, oříznutou robustnost adres středních rozsahů a jako L-odhadce, je snadné jej pochopit a vypočítat.
Robustnost
Středový rozsah je vysoce citlivý na odlehlé hodnoty a ignoruje všechny datové body kromě dvou. Jedná se tedy o velmirobustní statistika, které mají bod poruchy 0, což znamená, že jediné pozorování jej může libovolně změnit. Dále je velmi ovlivněn odlehlými hodnotami: zvýšení maxima vzorku nebo snížení minima vzorku o X změní střední rozsah o zatímco mění průměr vzorku, který má také bod rozdělení 0, pouze o V praktické statistice má tedy malé využití, pokud již nejsou zpracovány odlehlé hodnoty.
A oříznutý střední pásmo je známé jako střední shrnutí - n% oříznutého středního pásma je průměrem n% a (100−n)% percentilů a je robustnější, má a bod poruchy z n%. Uprostřed nich je midhinge, což je 25% středního přehledu. The medián lze interpretovat jako plně oříznutý (50%) střední rozsah; toto souhlasí s konvencí, že medián sudého počtu bodů je průměrem dvou středních bodů.
Tyto ořezané midranges jsou také zajímavé jako deskriptivní statistika nebo jako L-odhady centrálního umístění nebo šikmost: rozdíly mezi středy, jako je midhinge minus medián, dávají míry šikmosti v různých bodech ocasu.[2]
Účinnost
Přes své nevýhody je v některých případech užitečné: střední pásmo je vysoce účinný odhadce μ, vzhledem k malému vzorku dostatečně platykurtic distribuce, ale je neefektivní pro mezokurtic distribuce, například normální.
Například pro a kontinuální rovnoměrné rozdělení s neznámým maximem a minimem je střední rozsah UMVU odhad střední hodnoty. The maximální vzorek a minimální vzorek spolu s velikostí vzorku jsou dostatečnou statistikou pro maximální a minimální populaci - distribuce dalších vzorků, podmíněná daným maximem a minimem, je pouze jednotné rozdělení mezi maximem a minimem, a tedy nepřidává žádné informace. Vidět Problém německého tanku pro další diskusi. Střední rozsah, který je nestranným a dostatečným odhadcem populačního průměru, je tedy ve skutečnosti UMVU: použití vzorového průměru jen přidává šum na základě neinformativního rozdělení bodů v tomto rozsahu.
Naopak pro normální rozdělení je průměr vzorku odhadem UMVU průměru. U platykurtických distribucí, o nichž si lze často myslet, že jsou mezi rovnoměrným a normálním rozdělením, se tedy informativita středních vzorkových bodů versus extrémní hodnoty liší od „stejného“ pro normální po „neinformativní“ pro rovnoměrné a pro různé distribuce , jeden nebo druhý (nebo jejich kombinace) může být nejúčinnější. Robustní analog je trimean, který průměruje midhinge (25% oříznutý střední rozsah) a medián.
Malé vzorky
Pro malé velikosti vzorků (n od 4 do 20) čerpané z dostatečně platykurtické distribuce (negativní nadměrná špičatost, definované jako γ2 = (μ4/ (μ2) ²) - 3), střední rozsah je účinným odhadcem průměru μ. Následující tabulka shrnuje empirická data srovnávající tři odhady průměru pro distribuce rozmanité špičatosti; the upravený průměr je zkrácený průměr, kde jsou eliminovány maximum a minimum.[3][4]
Nadměrná špičatost (γ2) | Nejúčinnější odhadce μ |
---|---|
−1,2 až −0,8 | Střední pásmo |
-0,8 až 2,0 | Znamenat |
2,0 až 6,0 | Upravený průměr |
Pro n = 1 nebo 2, střední pásmo a průměr jsou stejné (a shodují se s mediánem) a jsou nejúčinnější pro všechna rozdělení. Pro n = 3, upravený průměr je medián a místo toho je průměr nejúčinnějším měřítkem centrální tendence k hodnotám y2 od 2,0 do 6,0 a také od -0,8 do 2,0.
Vlastnosti vzorkování
Pro vzorek velikosti n z standardní normální rozdělení, střední rozsah M je nestranný a má rozptyl daný:[5]
Pro vzorek velikosti n ze standardu Laplaceova distribuce, střední třída M je nestranný a má rozptyl daný:[6]
a zejména se rozptyl nesnižuje na nulu, jak roste velikost vzorku.
Pro vzorek velikosti n od nuly rovnoměrné rozdělení, střední třída M je nezaujatý, nM má asymptotická distribuce což je Laplaceova distribuce.[7]
Odchylka
Zatímco průměr množiny hodnot minimalizuje součet čtverců odchylky a medián minimalizuje průměrná absolutní odchylka, střední pásmo minimalizuje maximální odchylka (definováno jako ): jedná se o řešení variačního problému.
Viz také
Reference
- ^ Dodge 2003.
- ^ Velleman & Hoaglin 1981.
- ^ Vinson, William Daniel (1951). Vyšetřování opatření centrální tendence použitých při kontrole kvality (Magisterský). University of North Carolina at Chapel Hill. Tabulka (4.1), s. 32–34.
- ^ Cowden, Dudley Johnstone (1957). Statistické metody při kontrole kvality. Prentice-Hall. str.67–68.
- ^ Kendall & Stuart 1969, Příklad 14.4.
- ^ Kendall & Stuart 1969, Příklad 14.5.
- ^ Kendall & Stuart 1969, Příklad 14.12.
- Dodge, Y. (2003). Oxfordský slovník statistických pojmů. Oxford University Press. ISBN 0-19-920613-9.
- Kendall, M.G .; Stuart, A. (1969). Pokročilá teorie statistiky, svazek 1. Griffin. ISBN 0-85264-141-9.
- Velleman, P. F .; Hoaglin, D. C. (1981). Aplikace, základy a výpočet průzkumné analýzy dat. ISBN 0-87150-409-X.