Rozsah (statistika) - Range (statistics)

v statistika, rozsah množiny dat je rozdíl mezi největší a nejmenší hodnotou. Může vám poskytnout přibližnou představu o tom, jaký bude výsledek souboru dat, než se na něj skutečně podíváte [1]Rozdíl je zde konkrétní, rozsah množiny dat je výsledkem odečtení nejmenší hodnota z největší hodnota.

Nicméně, v deskriptivní statistika, tento koncept rozsahu má složitější význam. Rozsah je velikost nejmenšího interval (statistika) který obsahuje všechna data a poskytuje údaj o statistická disperze. Měří se ve stejných jednotkách jako data. Protože to záleží jen na dvou pozorováních, je to nejužitečnější při reprezentaci rozptylu malých datových souborů.[2] Rozsah se stane nejnižším a nejvyšším číslem odečteným

Pro spojité IID náhodné proměnné

Pro n nezávislé a identicky distribuované spojité náhodné proměnné X1, X2, ..., Xn s kumulativní distribuční funkce G(X) a funkce hustoty pravděpodobnosti G(X). Nechť T označuje rozsah vzorku velikosti n z populace s distribuční funkcí G(X).

Rozdělení

Rozsah má kumulativní distribuční funkci[3][4]

Gumbel konstatuje, že „krása tohoto vzorce je zcela poznamenána skutečnostmi, které obecně nemůžeme vyjádřit G(X + t) od G(X) a že numerická integrace je zdlouhavá a únavná. “[3]:385

Pokud je rozdělení každého Xi je omezeno vpravo (nebo vlevo), pak se asymptotické rozdělení rozsahu rovná asymptotickému rozdělení největší (nejmenší) hodnoty. U obecnějších distribucí lze asymptotickou distribuci vyjádřit jako a Besselova funkce.[3]

Okamžiky

Střední rozsah je dán vztahem[5]

kde X(G) je inverzní funkce. V případě, že každý z Xistandardní normální rozdělení, střední rozsah je dán vztahem[6]

Pro spojité jiné než IID náhodné proměnné

Pro n neidenticky distribuované nezávislé spojité náhodné proměnné X1, X2, ..., Xn s kumulativními distribučními funkcemi G1(X), G2(X), ..., Gn(X) a funkce hustoty pravděpodobnosti G1(X), G2(X), ..., Gn(X), rozsah má kumulativní distribuční funkci [4]

Pro diskrétní IID náhodné proměnné

Pro n nezávislé a identicky distribuované diskrétní náhodné proměnné X1, X2, ..., Xn s kumulativní distribuční funkce G(X) a funkce pravděpodobnostní hmotnosti G(X) rozsah Xi je rozsah vzorku velikosti n z populace s distribuční funkcí G(X). Můžeme předpokládat bez ztráty obecnosti že Podpěra, podpora každého Xi je {1,2,3, ...,N} kde N je kladné celé číslo nebo nekonečno.[7][8]

Rozdělení

Rozsah má funkci pravděpodobnostní hmotnosti[7][9][10]

Příklad

Pokud to předpokládáme G(X) = 1/N, diskrétní rovnoměrné rozdělení pro všechny X, pak najdeme[9][11]

Derivace

Pravděpodobnost, že budete mít konkrétní hodnotu rozsahu, t, lze určit sečtením pravděpodobností, že se dva vzorky budou lišit o ta každý další vzorek s hodnotou mezi dvěma extrémy. Pravděpodobnost, že jeden vzorek bude mít hodnotu X je . Pravděpodobnost, že jiný bude mít hodnotu t větší než X je:

Pravděpodobnost všech ostatních hodnot ležících mezi těmito dvěma extrémy je:

Kombinace těchto tří výnosů:

Související množství

Rozsah je jednoduchá funkce vzorek maximální a minimální a to jsou konkrétní příklady statistika objednávek. Rozsah je zejména lineární funkcí statistiky objednávek, což ji vnáší do rozsahu L-odhad.

Viz také

Reference

  1. ^ George Woodbury (2001). Úvod do statistiky. Cengage Learning. p. 74. ISBN  0534377556.
  2. ^ Carin Viljoen (2000). Základní statistiky: Svazek 2. Pearson Jihoafrická republika. s. 7–27. ISBN  186891075X.
  3. ^ A b C E. J. Gumbel (1947). „Distribuce rozsahu“. Annals of Mathematical Statistics. 18 (3): 384–412. doi:10.1214 / aoms / 1177730387. JSTOR  2235736.
  4. ^ A b Tsimashenka, I .; Knottenbelt, W .; Harrison, P. (2012). "Řízení variability v systémech Split-Merge". Techniky a aplikace analytického a stochastického modelování (PDF). Přednášky z informatiky. 7314. p. 165. doi:10.1007/978-3-642-30782-9_12. ISBN  978-3-642-30781-2.
  5. ^ H. O. Hartley; H. A. David (1954). „Univerzální hranice pro střední dosah a extrémní pozorování“. Annals of Mathematical Statistics. 25 (1): 85–99. doi:10.1214 / aoms / 1177728848. JSTOR  2236514.
  6. ^ L. H. C. Tippett (1925). „O extrémních jednotlivcích a rozsahu vzorků odebraných z normální populace“. Biometrika. 17 (3/4): 364–387. doi:10.1093 / biomet / 17.3-4.364. JSTOR  2332087.
  7. ^ A b Evans, D.L .; Leemis, L. M .; Drew, J. H. (2006). "Distribuce statistik objednávek pro diskrétní náhodné proměnné s aplikacemi pro bootstrapping". INFORMS Journal o práci na počítači. 18: 19. doi:10.1287 / ijoc.1040.0105.
  8. ^ Irving W. Burr (1955). "Výpočet přesného rozdělení vzorkování rozsahů z diskrétní populace". Annals of Mathematical Statistics. 26 (3): 530–532. doi:10.1214 / aoms / 1177728500. JSTOR  2236482.
  9. ^ A b Abdel-Aty, S. H. (1954). Msgstr "Uspořádané proměnné v diskontinuálních distribucích". Statistica Neerlandica. 8 (2): 61–82. doi:10.1111 / j.1467-9574.1954.tb00442.x.
  10. ^ Siotani, M. (1956). Msgstr "Statistika objednávky pro diskrétní případ s numerickou aplikací na binomické rozdělení". Annals of the Institute of Statistical Mathematics. 8: 95–96. doi:10.1007 / BF02863574.
  11. ^ Paul R. Rider (1951). "Distribuce rozsahu ve vzorcích z diskrétní obdélníkové populace". Journal of the American Statistical Association. 46 (255): 375–378. doi:10.1080/01621459.1951.10500796. JSTOR  2280515.