Neparametrický zkosení - Nonparametric skew - Wikipedia
v statistika a teorie pravděpodobnosti, neparametrický zkosení je statistický příležitostně používán s náhodné proměnné to zabere nemovitý hodnoty.[1][2] Je to míra šikmost náhodných proměnných rozdělení - to znamená, že tendence distribuce „přiklánět se“ k jedné nebo druhé straně znamenat. Jeho výpočet nevyžaduje žádnou znalost formy základní distribuce - odtud název neparametrické. Má některé žádoucí vlastnosti: pro všechny je nulová symetrické rozdělení; není ovlivněn a měřítko posun; a stejně dobře odhaluje šikmost vlevo i vpravo. V některých statistické vzorky ukázalo se, že je méně silný[3] než obvyklá opatření šikmosti při zjišťování odletů počet obyvatel z normálnost.[4]
Vlastnosti
Definice
Neparametrický zkosení je definován jako
Kde znamenat (µ), medián (ν) a standardní odchylka (σ) populace mají své obvyklé významy.
Vlastnosti
Neparametrický zkosení je třetina z Pearsonův koeficient 2 šikmosti a leží mezi −1 a +1 pro jakoukoli distribuci.[5][6] Tento rozsah je implikován skutečností, že průměr leží v jedné standardní odchylce jakéhokoli mediánu.[7]
Pod afinní transformace proměnné (X), hodnota S se nemění, kromě případné změny znaménka. V symbolech
kde A ≠ 0 a b jsou konstanty a S( X ) je neparametrický zkosení proměnné X.
Ostřejší hranice
Hranice této statistiky (± 1) zaostřil Majindar[8] kdo ukázal, že je to absolutní hodnota je ohraničen
s
a
kde X je náhodná proměnná s konečnou hodnotou rozptyl, E() je operátor očekávání a Pr() je pravděpodobnost výskytu události.
Když p = q = 0,5 je absolutní hodnota této statistiky omezena 1. S p = 0,1 a p = 0,01, absolutní hodnota statistiky je omezena 0,6, respektive 0,199.
Rozšíření
Je také známo, že[9]
kde ν0 je jakýkoli medián a E(.) je operátor očekávání.
Bylo prokázáno, že
kde Xq je qth kvantil.[7] Kvantily leží mezi 0 a 1: medián (0,5 kvantilu) má q = 0,5. Tato nerovnost byla také použita k definování míry šikmosti.[10]
Tato nerovnost byla dále zostřena.[11]
Bylo publikováno další rozšíření pro distribuci s konečnou střední hodnotou:[12]
Hranice v této poslední dvojici nerovností jsou dosaženy, když a pro pevná čísla A < b.
Konečné vzorky
Pro konečný vzorek s velikostí vzorku n ≥ 2 s Xr je rth statistika objednávky, m průměr vzorku a s the standardní směrodatná odchylka korigováno na stupně volnosti,[13]
Výměna r s n / 2 udává výsledek vhodný pro medián vzorku:[14]
kde A je medián vzorku.
Statistické testy
Hotelling a Solomons uvažovali o rozdělení testovací statistiky[5]
kde n je velikost vzorku, m je průměr vzorku, A je medián vzorku a s je standardní odchylka vzorku.
Statistické testy D předpokládali, že testovanou nulovou hypotézou je, že distribuce je symetrická.
Gastwirth odhadl asymptotiku rozptyl z n−1/2D.[15] Pokud je distribuce unimodální a symetrická kolem 0, asymptotická odchylka leží mezi 1/4 a 1. Předpoklad konzervativního odhadu (uvedení rozptylu rovného 1) může vést ke skutečné hladině významnosti hluboko pod nominální úrovní.
Za předpokladu, že podkladová distribuce je symetrická, Cabilio a Masaro ukázali, že distribuce S je asymptoticky normální.[16] Asymptotická varianta závisí na základní distribuci: pro normální distribuci asymptotická varianta S√n je 0,5708 ...
Za předpokladu, že podkladová distribuce je symetrická, uvažujeme o distribuci hodnot nad a pod mediánem Zheng a Gastwirth tvrdí, že[17]
kde n je velikost vzorku, je distribuována jako a t distribuce.
Související statistiky
Mira studovala rozdělení rozdílu mezi průměrem a mediánem.[18]
kde m je průměr vzorku a A je medián. Pokud je podkladové rozdělení symetrické y1 sama o sobě je asymptoticky normální. Tuto statistiku dříve navrhl Bonferroni.[19]
Za předpokladu symetrické základní distribuce, modifikace S studoval Miao, Gel a Gastwirth, kteří upravili směrodatnou odchylku, aby vytvořili svou statistiku.[20]
kde Xi jsou hodnoty vzorku, || je absolutní hodnota a součet je převzat vše n hodnoty vzorku.
Statistika testu byla
Škálovaná statistika T√n je asymptoticky normální s průměrem nula pro symetrické rozdělení. Jeho asymptotická odchylka závisí na základním rozdělení: mezní hodnoty jsou pro normální rozdělení var (T√n) = 0,5708 ... a pro t distribuce se třemi stupně svobody, var (T√n) = 0.9689...[20]
Hodnoty pro jednotlivé distribuce
Symetrické rozdělení
Pro symetrické rozdělení pravděpodobnosti hodnota neparametrického zkosení je 0.
Asymetrické rozdělení
Je pozitivní pro pravoúhlé distribuce a záporné pro pravoúhlé distribuce. Absolutní hodnoty ≥ 0,2 označují výraznou šikmost.
Může být obtížné to určit S pro některé distribuce. Je to obvykle proto, že uzavřená forma pro medián není známa: příklady takových distribucí zahrnují gama distribuce, inverzní-chi-kvadrát distribuce, inverzní gama distribuce a škálované inverzní rozdělení chí-kvadrát.
Následující hodnoty pro S jsou známy:
- Distribuce beta: 1 < α < β kde α a β jsou parametry distribuce, pak na dobrou aproximaci[21]
- Pokud 1 < β < α pak pozice α a β jsou ve vzorci obráceny. S je vždy <0.
- Binomická distribuce: liší se. Pokud je průměrná hodnota celé číslo pak S = 0. Pokud průměr není celé číslo S může mít buď znaménko, nebo být nula.[22] Je ohraničen ± min {max {p, 1 − p }, přihlásitE2 } / σ kde σ je směrodatná odchylka binomického rozdělení.[23]
- Distribuce otřepů:
- Distribuce Birnbaum – Saunders:
- kde α je parametr tvaru a β je parametr umístění.
- Chi čtvercová distribuce: Ačkoli S ≥ 0 jeho hodnota závisí na počtu stupně svobody (k).
- Exponenciální rozdělení se dvěma parametry:[24]
- Tady S je vždy> 0.
- F distribuce s n a n stupně svobody ( n > 4 ):[25]
- Fréchetová distribuce: Rozptyl této distribuce je definován pouze pro α > 2.
- Distribuce gama: Medián lze určit pouze přibližně pro toto rozdělení.[26] Pokud je tvarový parametr α je pak ≥ 1
- kde β > 0 je parametr rychlosti. Tady S je vždy> 0.
- Zobecněné normální rozdělení verze 2
- S je vždy <0.
- Zobecněná Paretova distribuce: S je definováno pouze tehdy, když je parametr tvaru ( k ) je <1/2. S je <0 pro tuto distribuci.
- kde y je Eulerova konstanta.[27]
- Distribuce kumaraswamy
- Log-logistická distribuce (Fiskova distribuce): Let β být tvarovým parametrem. Rozptyl a průměr tohoto rozdělení jsou definovány pouze tehdy, když β > 2. Pro zjednodušení zápisu nechte b = β / π.
- Směrodatná odchylka neexistuje pro hodnoty b > 4,932 (přibližně). U hodnot, pro které je definována směrodatná odchylka, S je> 0.
- Normální distribuce protokolu: S průměrem ( μ ) a rozptyl ( σ2 )
- Distribuce Lomax: S je definováno pouze pro α > 2
- Paretova distribuce: pro α > 2 kde α je tvarový parametr distribuce,
- a S je vždy> 0.
- kde λ je parametr distribuce.[28]
- kde k je tvarový parametr distribuce. Tady S je vždy> 0.
Dějiny
V roce 1895 Pearson nejprve navrhl měření šikmosti standardizováním rozdílu mezi průměrem a režimu,[29] dávat
kde μ, θ a σ je průměr, režim a směrodatná odchylka distribuce. Odhady režimu populace ze vzorků mohou být obtížné, ale rozdíl mezi průměrem a režimem pro mnoho distribucí je přibližně trojnásobek rozdílu mezi průměrem a mediánem[30] který navrhl Pearsonovi druhý koeficient šikmosti:
kde ν je medián distribuce. Bowley klesl faktor 3 z tohoto vzorce v roce 1901, což vedlo k neparametrické statistice zkosení.
Vztah mezi mediánem, průměrem a módem si poprvé všiml Pearson, když zkoumal své distribuce typu III.
Vztahy mezi průměrem, mediánem a módem
Pro libovolné rozdělení se režim, medián a průměr mohou objevit v libovolném pořadí.[31][32][33]
Byly provedeny analýzy některých vztahů mezi průměrem, mediánem, režimem a standardní odchylkou.[34] a tyto vztahy kladou určitá omezení na znaménko a velikost neparametrického zkosení.
Jednoduchým příkladem ilustrujícím tyto vztahy je binomická distribuce s n = 10 a p = 0.09.[35] Toto rozdělení, když je vyneseno, má dlouhý pravý ocas. Průměr (0,9) je nalevo od mediánu (1), ale zkosení (0,906) definované třetím standardizovaným momentem je kladné. Naproti tomu neparametrický zkosení je -0,110.
Pearsonovo pravidlo
Pravidlo, že u některých distribucí je rozdíl mezi průměrem a režimem třikrát větší než mezi průměrem a mediánem, je způsobeno Pearsonem, který jej objevil při vyšetřování svých distribucí typu 3. Často se používá u mírně asymetrických distribucí, které se podobají normálnímu distribuci, ale není to vždy pravda.
V roce 1895 Pearson poznamenal, že pro to, co je nyní známé jako gama distribuce že vztah[29]
kde θ, ν a µ jsou režim, medián a průměr distribuce respektive přibližně platné pro distribuce s velkým tvarovým parametrem.
Doodson v roce 1917 dokázal, že medián leží mezi režimem a průměrem pro mírně zkosené distribuce s konečnými čtvrtými momenty.[36] Tento vztah platí pro všechny Pearsonovy distribuce a všechny tyto distribuce mají pozitivní neparametrický sklon.
Doodson také poznamenal, že pro tuto rodinu distribucí na dobrou aproximaci
kde θ, ν a µ jsou režim, medián a průměr distribuce. Doodsonova aproximace byla dále zkoumána a potvrzena Haldane.[37] Haldane poznamenal, že vzorky se stejnými a nezávislými se liší s třetinou kumulant měl vzorek znamená, že se řídil Pearsonovým vztahem pro velké velikosti vzorků. Haldane požadoval, aby tento vztah platil několik podmínek, včetně existence Edgeworth expanze a jedinečnost mediánu i režimu. Za těchto podmínek zjistil, že režim a medián konvergovaly k 1/2 respektive 1/6 třetího okamžiku. Tento výsledek potvrdil Hall za slabších podmínek s použitím charakteristické funkce.[38]
Doodsonův vztah studovali Kendall a Stuart v normální distribuce protokolu pro které našli blízký přesný vztah.[39]
Hall také ukázal, že pro distribuci s pravidelně se měnícími ocasy a exponenty α že[je zapotřebí objasnění ][38]
Unimodální distribuce
Gauss ukázal v roce 1823, že pro a unimodální distribuce[40]
a
kde ω je střední kvadratická odchylka od režimu.
U velké třídy unimodálních distribucí, které pozitivně zkreslují režim, medián a průměr spadají v tomto pořadí.[41] Naopak pro velkou třídu unimodálních distribucí, které jsou negativně zkosené, je průměr menší než medián, který je zase menší než režim. V symbolech pro tyto pozitivně zkosené unimodální distribuce
a pro tyto negativně vychýlené unimodální distribuce
Tato třída zahrnuje důležité distribuce F, beta a gama.
Toto pravidlo neplatí pro unimodální Weibullovu distribuci.[42]
Pro unimodální distribuci jsou známy následující hranice, které jsou ostré:[43]
kde μ,ν a θ jsou průměr, medián a režim.
Střední hranice omezuje neparametrické zkosení unimodálního rozdělení na přibližně ± 0,775.
stav van Zwet
Následující nerovnost,
kde θ, ν a µ je režim, medián a průměr distribuce, platí, pokud
kde F je kumulativní distribuční funkce distribuce.[44] Tyto podmínky byly od té doby zobecněny[33] a rozšířena na diskrétní distribuce.[45] Jakákoli distribuce, pro kterou to platí, má nulový nebo pozitivní neparametrický zkosení.
Poznámky
Objednávka šikmosti
V roce 1964 van Zwet navrhl řadu axiomů pro objednání opatření šikmosti.[46] Neparametrický zkosení tyto axiomy nesplňuje.
Benfordův zákon
Benfordův zákon je empirický zákon týkající se distribuce číslic v seznamu čísel. Bylo navrženo, že náhodné odchylky od distribucí s pozitivním neparametrickým zkosením se budou řídit tímto zákonem.[47]
Vztah k Bowleyho koeficientu
Tuto statistiku lze odvodit z Bowleyho koeficientu šikmosti[48]
kde Qi je i-tý kvartil distribuce.
Hinkley to zobecnil[49]
kde leží mezi 0 a 0,5. Bowleyův koeficient je zvláštní případ rovnající se 0,25.
Groeneveld a Meeden[50] odstranil závislost na integraci přes to.
Jmenovatel je měřítkem rozptylu. Nahrazením jmenovatele směrodatnou odchylkou získáme neparametrický zkosení.
Reference
- ^ Arnold BC, Groeneveld RA (1995) Měření šikmosti vzhledem k režimu. Americký statistik 49 (1) 34–38 DOI: 10.1080 / 00031305.1995.10476109
- ^ Rubio F.J .; Ocel M.F.J. (2012) „O transformaci Marshalla – Olkina jako zkoseného mechanismu“. Výpočetní statistika a analýza dat Předtisk
- ^ Tabor J (2010) Vyšetřování vyšetřovacího úkolu: Testování šikmosti - Vyšetřování různých statistik testů a jejich schopnosti detekovat šikmost. J Stat Ed 18: 1–13
- ^ Doane, David P .; Seward, Lori E. (2011). „Měření šikmosti: zapomenutá statistika?“ (PDF). Journal of Statistics Education. 19 (2).
- ^ A b Hotelling H, Solomons LM (1932) Meze míry šikmosti. Annals Math Stat 3, 141–114
- ^ Garver (1932) Co se týče hranic mezeare skewness. Statistiky Ann Math 3 (4) 141–142
- ^ A b O’Cinneide CA (1990) Průměr je v rámci jedné standardní odchylky od jakéhokoli mediánu. Amer Statist 44, 292–293
- ^ Majindar KN (1962) „Vylepšené hranice míry šikmosti“. Annals of Mathematical Statistics, 33, 1192–1194 doi:10.1214 / aoms / 1177704482
- ^ Mallows CCC, Richter D (1969) „Nerovnosti typu Čebyševova zahrnující podmíněná očekávání“. Annals of Mathematical Statistics, 40:1922–1932
- ^ Dziubinska R, Szynal D (1996) O funkčních opatřeních šikmosti. Applicationes Mathematicae 23 (4) 395–403
- ^ Dharmadhikari SS (1991) Hranice pro kvantily: komentář k O'Cinneide. The Am Statist 45: 257-58
- ^ Gilat D, Hill TP (1993) Funkce lokalizace kvantilů a vzdálenost mezi průměrem a kvantily. Statistica Neerlandica 47 (4) 279–283 DOI: 10.1111 / j.1467-9574.1993.tb01424.x [1]
- ^ David HA (1991) Mean minus median: Komentář k O'Cinneide. Am Statistika 45: 257
- ^ Joarder AH, Laradji A (2004) Některé nerovnosti v popisné statistice. Série technických zpráv TR 321
- ^ Gastwirth JL (1971) „On the sign test for symetry“. Journal of the American Statistical Association 66:821–823
- ^ Cabilio P, Masaro J (1996) „Jednoduchý test symetrie o neznámém mediánu“. Canandian Journal of Statistics-Revue Canadienne De Statistique, 24:349–361
- ^ Zheng T, Gastwirth J (2010) „O bootstrap testech symetrie o neznámém mediánu“. Journal of Data Science, 8(3): 413–427
- ^ Mira A (1999) „Distribuční test symetrie založený na Bonferroniho míře“, Journal of Applied Statistics, 26:959–972
- ^ Bonferroni CE (1930) Elementi di statistica generale. Seeber, Firenze
- ^ A b Miao Ž, Gel YR „Gastwirth JL (2006)„ Nový test symetrie o neznámém mediánu “. In: Hsiung A, Zhang C-H, Ying Z, eds. Náhodná procházka, sekvenční analýza a související témata - Festschrift na počest Yuan-Shih Chow. World Scientific; Singapur
- ^ Kerman J (2011) „Uzavřená aproximace pro medián distribuce beta“. arXiv:1111.0433v1
- ^ Kaas R, Buhrman JM (1980) Průměr, medián a režim v binomických distribucích. Statistica Neerlandica 34 (1) 13–18
- ^ Hamza K (1995) „Nejmenší uniformní horní mez vzdálenosti mezi průměrem a mediánem binomického a Poissonova rozdělení“. Statistika a pravděpodobnostní dopisy, 23 (1) 21–25
- ^ A b C d http://web.ipac.caltech.edu/staff/fmasci/home/statistics_refs/UsefulDistribution.pdf
- ^ Terrell GR (1986) „Pearsonovo pravidlo pro výběrové mediány“. Technická zpráva 86-2[úplná citace nutná ]
- ^ Banneheka BMSG, Ekanayake GEMUPD (2009) Nový bodový odhad pro medián distribuce gama. Viyodaya J Science 14: 95–103
- ^ Ferguson T. „Asymptotická společná distribuce průměrů vzorků a vzorků kvantilů“, Nepublikováno
- ^ Choi KP (1994) „O mediánu distribuce gama a rovnici Ramanujan“. Proc Amer Math Soc 121 (1) 245–251
- ^ A b Pearson K (1895) Příspěvky k matematické teorii evoluce - II. Šikmá variace homogenního materiálu. Phil Trans Roy Soc A. 186: 343–414
- ^ Stuart A, Ord JK (1994) Kendallova pokročilá teorie statistiky. Vol 1. Teorie distribuce. 6. vydání. Edward Arnold, Londýn
- ^ Vztah mezi průměrem, mediánem, režimem a směrodatnou odchylkou v unimodálním rozdělení
- ^ von Hippel, Paul T. (2005) „Mean, Median a Skew: Oprava pravidla učebnice“, Journal of Statistics Education, 13(2)
- ^ A b Dharmadhikari SW, Joag-dev K (1983) Mean, Median, Mode III. Statistica Neerlandica, 33: 165–168
- ^ Bottomly, H. (2002,2006) „Vztah mezi průměrem, mediánem, režimem a směrodatnou odchylkou v unimodálním rozdělení“ Osobní webová stránka
- ^ Menší LM (2005)."Dopis editorovi" , [komentář k von Hippel (2005)]. Journal of Statistics Education 13(2).
- ^ Doodson AT (1917) „Vztah módu, mediánu a střední hodnoty ve frekvenčních funkcích“. Biometrika, 11 (4) 425–429 doi:10.1093 / biomet / 11.4.425
- ^ Haldane JBS (1942) „Režim a medián téměř normálního rozdělení s danými kumulanty“. Biometrika, 32: 294–299
- ^ A b Hall P (1980) „O omezujícím chování režimu a mediánu součtu nezávislých náhodných proměnných“. Annals of Probability 8: 419–430
- ^ Kendall M.G., Stuart A. (1958) Pokročilá teorie statistiky. p53 sv. 1. Griffin. Londýn
- ^ Gauss C.F. Theoria Combinationis Observationum Erroribus Minimis Obnoxiae. Pars Prior. Pars posterior. Supplementum. Teorie kombinace pozorování, která byla nejméně předmětem chyb. První část. Část dvě. Doplněk. 1995. Přeložil G.W. Stewart. Classics in Applied Mathematics Series, Society for Industrial and Applied Mathematics, Philadelphia
- ^ MacGillivray HL (1981) Průměr, medián, nerovnost režimů a šikmost pro třídu hustot. Aust J Stat 23 (2) 247–250
- ^ Groeneveld RA (1986) Šikmý pro rodinu Weibull. Statistica Neerlandica 40: 135–140
- ^ Johnson NL, Rogers CA (1951) „Momentální problém pro unimodální distribuce“. Annals of Mathematical Statistics, 22 (3) 433–439
- ^ van Zwet W.R. (1979) „Mean, median, mode II“. Statistica Neerlandica 33(1) 1–5
- ^ Abdous B, Theodorescu R (1998) Průměr, medián, mód IV. Statistica Neerlandica. 52 (3) 356–359
- ^ van Zwet, W. R. (1964) „Konvexní transformace náhodných proměnných“. Matematické centrum, 7, Mathematisch Centrum, Amsterdam
- ^ Durtschi C, Hillison W, Pacini C (2004) Efektivní využívání Benfordova zákona na pomoc při odhalování podvodů v účetních datech. J Forenzní účetnictví 5: 17–34
- ^ Bowley AL (1920) Statistické údaje. New York: Synové Charlese Scribnera
- ^ Hinkley DV (1975) O transformacích výkonu na symetrii. Biometrika 62: 101–111
- ^ Groeneveld RA, Meeden G (1984) Měření šikmosti a špičatosti. Statistik, 33: 391–399