Neparametrický zkosení - Nonparametric skew - Wikipedia

v statistika a teorie pravděpodobnosti, neparametrický zkosení je statistický příležitostně používán s náhodné proměnné to zabere nemovitý hodnoty.[1][2] Je to míra šikmost náhodných proměnných rozdělení - to znamená, že tendence distribuce „přiklánět se“ k jedné nebo druhé straně znamenat. Jeho výpočet nevyžaduje žádnou znalost formy základní distribuce - odtud název neparametrické. Má některé žádoucí vlastnosti: pro všechny je nulová symetrické rozdělení; není ovlivněn a měřítko posun; a stejně dobře odhaluje šikmost vlevo i vpravo. V některých statistické vzorky ukázalo se, že je méně silný[3] než obvyklá opatření šikmosti při zjišťování odletů počet obyvatel z normálnost.[4]

Vlastnosti

Definice

Neparametrický zkosení je definován jako

Kde znamenat (µ), medián (ν) a standardní odchylka (σ) populace mají své obvyklé významy.

Vlastnosti

Neparametrický zkosení je třetina z Pearsonův koeficient 2 šikmosti a leží mezi −1 a +1 pro jakoukoli distribuci.[5][6] Tento rozsah je implikován skutečností, že průměr leží v jedné standardní odchylce jakéhokoli mediánu.[7]

Pod afinní transformace proměnné (X), hodnota S se nemění, kromě případné změny znaménka. V symbolech

kde A ≠ 0 a b jsou konstanty a S( X ) je neparametrický zkosení proměnné X.

Ostřejší hranice

Hranice této statistiky (± 1) zaostřil Majindar[8] kdo ukázal, že je to absolutní hodnota je ohraničen

s

a

kde X je náhodná proměnná s konečnou hodnotou rozptyl, E() je operátor očekávání a Pr() je pravděpodobnost výskytu události.

Když p = q = 0,5 je absolutní hodnota této statistiky omezena 1. S p = 0,1 a p = 0,01, absolutní hodnota statistiky je omezena 0,6, respektive 0,199.

Rozšíření

Je také známo, že[9]

kde ν0 je jakýkoli medián a E(.) je operátor očekávání.

Bylo prokázáno, že

kde Xq je qth kvantil.[7] Kvantily leží mezi 0 a 1: medián (0,5 kvantilu) má q = 0,5. Tato nerovnost byla také použita k definování míry šikmosti.[10]

Tato nerovnost byla dále zostřena.[11]

Bylo publikováno další rozšíření pro distribuci s konečnou střední hodnotou:[12]

Hranice v této poslední dvojici nerovností jsou dosaženy, když a pro pevná čísla A < b.

Konečné vzorky

Pro konečný vzorek s velikostí vzorku n ≥ 2 s Xr je rth statistika objednávky, m průměr vzorku a s the standardní směrodatná odchylka korigováno na stupně volnosti,[13]

Výměna r s n / 2 udává výsledek vhodný pro medián vzorku:[14]

kde A je medián vzorku.

Statistické testy

Hotelling a Solomons uvažovali o rozdělení testovací statistiky[5]

kde n je velikost vzorku, m je průměr vzorku, A je medián vzorku a s je standardní odchylka vzorku.

Statistické testy D předpokládali, že testovanou nulovou hypotézou je, že distribuce je symetrická.

Gastwirth odhadl asymptotiku rozptyl z n−1/2D.[15] Pokud je distribuce unimodální a symetrická kolem 0, asymptotická odchylka leží mezi 1/4 a 1. Předpoklad konzervativního odhadu (uvedení rozptylu rovného 1) může vést ke skutečné hladině významnosti hluboko pod nominální úrovní.

Za předpokladu, že podkladová distribuce je symetrická, Cabilio a Masaro ukázali, že distribuce S je asymptoticky normální.[16] Asymptotická varianta závisí na základní distribuci: pro normální distribuci asymptotická varianta Sn je 0,5708 ...

Za předpokladu, že podkladová distribuce je symetrická, uvažujeme o distribuci hodnot nad a pod mediánem Zheng a Gastwirth tvrdí, že[17]

kde n je velikost vzorku, je distribuována jako a t distribuce.

Související statistiky

Mira studovala rozdělení rozdílu mezi průměrem a mediánem.[18]

kde m je průměr vzorku a A je medián. Pokud je podkladové rozdělení symetrické y1 sama o sobě je asymptoticky normální. Tuto statistiku dříve navrhl Bonferroni.[19]

Za předpokladu symetrické základní distribuce, modifikace S studoval Miao, Gel a Gastwirth, kteří upravili směrodatnou odchylku, aby vytvořili svou statistiku.[20]

kde Xi jsou hodnoty vzorku, || je absolutní hodnota a součet je převzat vše n hodnoty vzorku.

Statistika testu byla

Škálovaná statistika Tn je asymptoticky normální s průměrem nula pro symetrické rozdělení. Jeho asymptotická odchylka závisí na základním rozdělení: mezní hodnoty jsou pro normální rozdělení var (Tn) = 0,5708 ... a pro t distribuce se třemi stupně svobody, var (Tn) = 0.9689...[20]

Hodnoty pro jednotlivé distribuce

Symetrické rozdělení

Pro symetrické rozdělení pravděpodobnosti hodnota neparametrického zkosení je 0.

Asymetrické rozdělení

Je pozitivní pro pravoúhlé distribuce a záporné pro pravoúhlé distribuce. Absolutní hodnoty ≥ 0,2 označují výraznou šikmost.

Může být obtížné to určit S pro některé distribuce. Je to obvykle proto, že uzavřená forma pro medián není známa: příklady takových distribucí zahrnují gama distribuce, inverzní-chi-kvadrát distribuce, inverzní gama distribuce a škálované inverzní rozdělení chí-kvadrát.

Následující hodnoty pro S jsou známy:

  • Distribuce beta: 1 < α < β kde α a β jsou parametry distribuce, pak na dobrou aproximaci[21]
Pokud 1 < β < α pak pozice α a β jsou ve vzorci obráceny. S je vždy <0.
kde α je parametr tvaru a β je parametr umístění.
Tady S je vždy> 0.
  • Distribuce gama: Medián lze určit pouze přibližně pro toto rozdělení.[26] Pokud je tvarový parametr α je pak ≥ 1
kde β > 0 je parametr rychlosti. Tady S je vždy> 0.
S je vždy <0.
kde y je Eulerova konstanta.[27]
Směrodatná odchylka neexistuje pro hodnoty b > 4,932 (přibližně). U hodnot, pro které je definována směrodatná odchylka, S je> 0.
a S je vždy> 0.
kde λ je parametr distribuce.[28]
kde k je tvarový parametr distribuce. Tady S je vždy> 0.

Dějiny

V roce 1895 Pearson nejprve navrhl měření šikmosti standardizováním rozdílu mezi průměrem a režimu,[29] dávat

kde μ, θ a σ je průměr, režim a směrodatná odchylka distribuce. Odhady režimu populace ze vzorků mohou být obtížné, ale rozdíl mezi průměrem a režimem pro mnoho distribucí je přibližně trojnásobek rozdílu mezi průměrem a mediánem[30] který navrhl Pearsonovi druhý koeficient šikmosti:

kde ν je medián distribuce. Bowley klesl faktor 3 z tohoto vzorce v roce 1901, což vedlo k neparametrické statistice zkosení.

Vztah mezi mediánem, průměrem a módem si poprvé všiml Pearson, když zkoumal své distribuce typu III.

Vztahy mezi průměrem, mediánem a módem

Pro libovolné rozdělení se režim, medián a průměr mohou objevit v libovolném pořadí.[31][32][33]

Byly provedeny analýzy některých vztahů mezi průměrem, mediánem, režimem a standardní odchylkou.[34] a tyto vztahy kladou určitá omezení na znaménko a velikost neparametrického zkosení.

Jednoduchým příkladem ilustrujícím tyto vztahy je binomická distribuce s n = 10 a p = 0.09.[35] Toto rozdělení, když je vyneseno, má dlouhý pravý ocas. Průměr (0,9) je nalevo od mediánu (1), ale zkosení (0,906) definované třetím standardizovaným momentem je kladné. Naproti tomu neparametrický zkosení je -0,110.

Pearsonovo pravidlo

Pravidlo, že u některých distribucí je rozdíl mezi průměrem a režimem třikrát větší než mezi průměrem a mediánem, je způsobeno Pearsonem, který jej objevil při vyšetřování svých distribucí typu 3. Často se používá u mírně asymetrických distribucí, které se podobají normálnímu distribuci, ale není to vždy pravda.

V roce 1895 Pearson poznamenal, že pro to, co je nyní známé jako gama distribuce že vztah[29]

kde θ, ν a µ jsou režim, medián a průměr distribuce respektive přibližně platné pro distribuce s velkým tvarovým parametrem.

Doodson v roce 1917 dokázal, že medián leží mezi režimem a průměrem pro mírně zkosené distribuce s konečnými čtvrtými momenty.[36] Tento vztah platí pro všechny Pearsonovy distribuce a všechny tyto distribuce mají pozitivní neparametrický sklon.

Doodson také poznamenal, že pro tuto rodinu distribucí na dobrou aproximaci

kde θ, ν a µ jsou režim, medián a průměr distribuce. Doodsonova aproximace byla dále zkoumána a potvrzena Haldane.[37] Haldane poznamenal, že vzorky se stejnými a nezávislými se liší s třetinou kumulant měl vzorek znamená, že se řídil Pearsonovým vztahem pro velké velikosti vzorků. Haldane požadoval, aby tento vztah platil několik podmínek, včetně existence Edgeworth expanze a jedinečnost mediánu i režimu. Za těchto podmínek zjistil, že režim a medián konvergovaly k 1/2 respektive 1/6 třetího okamžiku. Tento výsledek potvrdil Hall za slabších podmínek s použitím charakteristické funkce.[38]

Doodsonův vztah studovali Kendall a Stuart v normální distribuce protokolu pro které našli blízký přesný vztah.[39]

Hall také ukázal, že pro distribuci s pravidelně se měnícími ocasy a exponenty α že[je zapotřebí objasnění ][38]

Unimodální distribuce

Gauss ukázal v roce 1823, že pro a unimodální distribuce[40]

a

kde ω je střední kvadratická odchylka od režimu.

U velké třídy unimodálních distribucí, které pozitivně zkreslují režim, medián a průměr spadají v tomto pořadí.[41] Naopak pro velkou třídu unimodálních distribucí, které jsou negativně zkosené, je průměr menší než medián, který je zase menší než režim. V symbolech pro tyto pozitivně zkosené unimodální distribuce

a pro tyto negativně vychýlené unimodální distribuce

Tato třída zahrnuje důležité distribuce F, beta a gama.

Toto pravidlo neplatí pro unimodální Weibullovu distribuci.[42]

Pro unimodální distribuci jsou známy následující hranice, které jsou ostré:[43]

kde μ,ν a θ jsou průměr, medián a režim.

Střední hranice omezuje neparametrické zkosení unimodálního rozdělení na přibližně ± 0,775.

stav van Zwet

Následující nerovnost,

kde θ, ν a µ je režim, medián a průměr distribuce, platí, pokud

kde F je kumulativní distribuční funkce distribuce.[44] Tyto podmínky byly od té doby zobecněny[33] a rozšířena na diskrétní distribuce.[45] Jakákoli distribuce, pro kterou to platí, má nulový nebo pozitivní neparametrický zkosení.

Poznámky

Objednávka šikmosti

V roce 1964 van Zwet navrhl řadu axiomů pro objednání opatření šikmosti.[46] Neparametrický zkosení tyto axiomy nesplňuje.

Benfordův zákon

Benfordův zákon je empirický zákon týkající se distribuce číslic v seznamu čísel. Bylo navrženo, že náhodné odchylky od distribucí s pozitivním neparametrickým zkosením se budou řídit tímto zákonem.[47]

Vztah k Bowleyho koeficientu

Tuto statistiku lze odvodit z Bowleyho koeficientu šikmosti[48]

kde Qi je i-tý kvartil distribuce.

Hinkley to zobecnil[49]

kde leží mezi 0 a 0,5. Bowleyův koeficient je zvláštní případ rovnající se 0,25.

Groeneveld a Meeden[50] odstranil závislost na integraci přes to.

Jmenovatel je měřítkem rozptylu. Nahrazením jmenovatele směrodatnou odchylkou získáme neparametrický zkosení.

Reference

  1. ^ Arnold BC, Groeneveld RA (1995) Měření šikmosti vzhledem k režimu. Americký statistik 49 (1) 34–38 DOI: 10.1080 / 00031305.1995.10476109
  2. ^ Rubio F.J .; Ocel M.F.J. (2012) „O transformaci Marshalla – Olkina jako zkoseného mechanismu“. Výpočetní statistika a analýza dat Předtisk
  3. ^ Tabor J (2010) Vyšetřování vyšetřovacího úkolu: Testování šikmosti - Vyšetřování různých statistik testů a jejich schopnosti detekovat šikmost. J Stat Ed 18: 1–13
  4. ^ Doane, David P .; Seward, Lori E. (2011). „Měření šikmosti: zapomenutá statistika?“ (PDF). Journal of Statistics Education. 19 (2).
  5. ^ A b Hotelling H, Solomons LM (1932) Meze míry šikmosti. Annals Math Stat 3, 141–114
  6. ^ Garver (1932) Co se týče hranic mezeare skewness. Statistiky Ann Math 3 (4) 141–142
  7. ^ A b O’Cinneide CA (1990) Průměr je v rámci jedné standardní odchylky od jakéhokoli mediánu. Amer Statist 44, 292–293
  8. ^ Majindar KN (1962) „Vylepšené hranice míry šikmosti“. Annals of Mathematical Statistics, 33, 1192–1194 doi:10.1214 / aoms / 1177704482
  9. ^ Mallows CCC, Richter D (1969) „Nerovnosti typu Čebyševova zahrnující podmíněná očekávání“. Annals of Mathematical Statistics, 40:1922–1932
  10. ^ Dziubinska R, Szynal D (1996) O funkčních opatřeních šikmosti. Applicationes Mathematicae 23 (4) 395–403
  11. ^ Dharmadhikari SS (1991) Hranice pro kvantily: komentář k O'Cinneide. The Am Statist 45: 257-58
  12. ^ Gilat D, Hill TP (1993) Funkce lokalizace kvantilů a vzdálenost mezi průměrem a kvantily. Statistica Neerlandica 47 (4) 279–283 DOI: 10.1111 / j.1467-9574.1993.tb01424.x [1]
  13. ^ David HA (1991) Mean minus median: Komentář k O'Cinneide. Am Statistika 45: 257
  14. ^ Joarder AH, Laradji A (2004) Některé nerovnosti v popisné statistice. Série technických zpráv TR 321
  15. ^ Gastwirth JL (1971) „On the sign test for symetry“. Journal of the American Statistical Association 66:821–823
  16. ^ Cabilio P, Masaro J (1996) „Jednoduchý test symetrie o neznámém mediánu“. Canandian Journal of Statistics-Revue Canadienne De Statistique, 24:349–361
  17. ^ Zheng T, Gastwirth J (2010) „O bootstrap testech symetrie o neznámém mediánu“. Journal of Data Science, 8(3): 413–427
  18. ^ Mira A (1999) „Distribuční test symetrie založený na Bonferroniho míře“, Journal of Applied Statistics, 26:959–972
  19. ^ Bonferroni CE (1930) Elementi di statistica generale. Seeber, Firenze
  20. ^ A b Miao Ž, Gel YR „Gastwirth JL (2006)„ Nový test symetrie o neznámém mediánu “. In: Hsiung A, Zhang C-H, Ying Z, eds. Náhodná procházka, sekvenční analýza a související témata - Festschrift na počest Yuan-Shih Chow. World Scientific; Singapur
  21. ^ Kerman J (2011) „Uzavřená aproximace pro medián distribuce beta“. arXiv:1111.0433v1
  22. ^ Kaas R, Buhrman JM (1980) Průměr, medián a režim v binomických distribucích. Statistica Neerlandica 34 (1) 13–18
  23. ^ Hamza K (1995) „Nejmenší uniformní horní mez vzdálenosti mezi průměrem a mediánem binomického a Poissonova rozdělení“. Statistika a pravděpodobnostní dopisy, 23 (1) 21–25
  24. ^ A b C d http://web.ipac.caltech.edu/staff/fmasci/home/statistics_refs/UsefulDistribution.pdf
  25. ^ Terrell GR (1986) „Pearsonovo pravidlo pro výběrové mediány“. Technická zpráva 86-2[úplná citace nutná ]
  26. ^ Banneheka BMSG, Ekanayake GEMUPD (2009) Nový bodový odhad pro medián distribuce gama. Viyodaya J Science 14: 95–103
  27. ^ Ferguson T. „Asymptotická společná distribuce průměrů vzorků a vzorků kvantilů“, Nepublikováno
  28. ^ Choi KP (1994) „O mediánu distribuce gama a rovnici Ramanujan“. Proc Amer Math Soc 121 (1) 245–251
  29. ^ A b Pearson K (1895) Příspěvky k matematické teorii evoluce - II. Šikmá variace homogenního materiálu. Phil Trans Roy Soc A. 186: 343–414
  30. ^ Stuart A, Ord JK (1994) Kendallova pokročilá teorie statistiky. Vol 1. Teorie distribuce. 6. vydání. Edward Arnold, Londýn
  31. ^ Vztah mezi průměrem, mediánem, režimem a směrodatnou odchylkou v unimodálním rozdělení
  32. ^ von Hippel, Paul T. (2005) „Mean, Median a Skew: Oprava pravidla učebnice“, Journal of Statistics Education, 13(2)
  33. ^ A b Dharmadhikari SW, Joag-dev K (1983) Mean, Median, Mode III. Statistica Neerlandica, 33: 165–168
  34. ^ Bottomly, H. (2002,2006) „Vztah mezi průměrem, mediánem, režimem a směrodatnou odchylkou v unimodálním rozdělení“ Osobní webová stránka
  35. ^ Menší LM (2005)."Dopis editorovi" , [komentář k von Hippel (2005)]. Journal of Statistics Education 13(2).
  36. ^ Doodson AT (1917) „Vztah módu, mediánu a střední hodnoty ve frekvenčních funkcích“. Biometrika, 11 (4) 425–429 doi:10.1093 / biomet / 11.4.425
  37. ^ Haldane JBS (1942) „Režim a medián téměř normálního rozdělení s danými kumulanty“. Biometrika, 32: 294–299
  38. ^ A b Hall P (1980) „O omezujícím chování režimu a mediánu součtu nezávislých náhodných proměnných“. Annals of Probability 8: 419–430
  39. ^ Kendall M.G., Stuart A. (1958) Pokročilá teorie statistiky. p53 sv. 1. Griffin. Londýn
  40. ^ Gauss C.F. Theoria Combinationis Observationum Erroribus Minimis Obnoxiae. Pars Prior. Pars posterior. Supplementum. Teorie kombinace pozorování, která byla nejméně předmětem chyb. První část. Část dvě. Doplněk. 1995. Přeložil G.W. Stewart. Classics in Applied Mathematics Series, Society for Industrial and Applied Mathematics, Philadelphia
  41. ^ MacGillivray HL (1981) Průměr, medián, nerovnost režimů a šikmost pro třídu hustot. Aust J Stat 23 (2) 247–250
  42. ^ Groeneveld RA (1986) Šikmý pro rodinu Weibull. Statistica Neerlandica 40: 135–140
  43. ^ Johnson NL, Rogers CA (1951) „Momentální problém pro unimodální distribuce“. Annals of Mathematical Statistics, 22 (3) 433–439
  44. ^ van Zwet W.R. (1979) „Mean, median, mode II“. Statistica Neerlandica 33(1) 1–5
  45. ^ Abdous B, Theodorescu R (1998) Průměr, medián, mód IV. Statistica Neerlandica. 52 (3) 356–359
  46. ^ van Zwet, W. R. (1964) „Konvexní transformace náhodných proměnných“. Matematické centrum, 7, Mathematisch Centrum, Amsterdam
  47. ^ Durtschi C, Hillison W, Pacini C (2004) Efektivní využívání Benfordova zákona na pomoc při odhalování podvodů v účetních datech. J Forenzní účetnictví 5: 17–34
  48. ^ Bowley AL (1920) Statistické údaje. New York: Synové Charlese Scribnera
  49. ^ Hinkley DV (1975) O transformacích výkonu na symetrii. Biometrika 62: 101–111
  50. ^ Groeneveld RA, Meeden G (1984) Měření šikmosti a špičatosti. Statistik, 33: 391–399