Kurtosis - Kurtosis
v teorie pravděpodobnosti a statistika, špičatost (z řecký: κυρτός, kyrtos nebo kurtos, což znamená "zakřivený, vyklenutý") je měřítkem "sledovatelnosti" rozdělení pravděpodobnosti a nemovitý -hodnota náhodná proměnná. Jako šikmost „kurtosis popisuje tvar rozdělení pravděpodobnosti a existují různé způsoby jeho kvantifikace pro teoretické rozdělení a odpovídající způsoby jeho odhadu ze vzorku z populace. Různá měřítka špičatosti se mohou lišit interpretace.
Standardní míra špičatosti distribuce, pocházející z Karl Pearson,[1] je zmenšená verze čtvrtého okamžik distribuce. Toto číslo souvisí s ocasy distribuce, nikoli s jejím vrcholem;[2] proto je někdy viditelná charakteristika špičatosti jako „vrcholnosti“ nesprávná. U tohoto opatření odpovídá vyšší špičatost větší končetině odchylky (nebo odlehlé hodnoty ), a nikoli konfigurace dat blízko průměru.
Špičatost jakéhokoli univariate normální distribuce je 3. Je běžné porovnávat špičatost distribuce s touto hodnotou. Distribuce s špičatostí menší než 3 jsou údajně platykurtic, i když to neznamená, že distribuce je „plochá“, jak se někdy uvádí. Spíše to znamená, že distribuce produkuje méně a méně extrémních odlehlých hodnot než normální distribuce. Příkladem platykurtické distribuce je rovnoměrné rozdělení, který neprodukuje odlehlé hodnoty. Distribuce s špičatostí větší než 3 se považují za leptokurtic. Příkladem leptokurtické distribuce je Laplaceova distribuce, který má ocasy, které se asymptoticky přibližují k nule pomaleji než Gaussian, a proto produkují více odlehlých hodnot než normální rozdělení. Je také běžnou praxí používat upravenou verzi Pearsonovy kurtosy, přebytečné kurtosy, což je kurtosis minus 3, aby se poskytlo srovnání se standardem normální distribuce. Někteří autoři používají „kurtosis“ jako takovou k označení nadměrné kurtosy. Pro přehlednost a obecnost se však tento článek řídí konvencí nepřekročení a výslovně označuje, kde je míněna nadměrná špičatost.
Alternativní opatření ke špičatosti jsou: L-kurtosis, což je zmenšená verze čtvrtého L-moment; opatření založená na čtyřech populacích nebo vzorku kvantily.[3] Jsou obdobou alternativních opatření šikmost které nejsou založeny na běžných okamžicích.[3]
Pearsonovy momenty
Kurtosis je čtvrtá standardizovaný moment, definováno jako
kde μ4 je čtvrtý centrální moment a σ je standardní odchylka. V literatuře se k označení špičatosti používá několik písmen. Velmi častá volba je κ, což je v pořádku, pokud je zřejmé, že neodkazuje na a kumulant. Mezi další možnosti patří y2, aby byl podobný zápisu pro šikmost, i když někdy je to místo toho vyhrazeno pro nadbytečnou špičatost.
Kurtosis je ohraničena dole na druhou šikmost plus 1:[4]:432
kde μ3 je třetí centrální moment. Dolní mez je realizována pomocí Bernoulliho distribuce. Křivost obecného rozdělení pravděpodobnosti nemá horní limit a může být nekonečná.
Důvodem, proč někteří autoři upřednostňují nadměrnou špičatost, je to, že kumulanty jsou rozsáhlý. Vzorce vztahující se k rozsáhlé vlastnosti jsou přirozenější vyjádřeny jako nadměrná špičatost. Například pojďme X1, ..., Xn být nezávislé náhodné proměnné, pro které existuje čtvrtý okamžik, a nechat Y být náhodná proměnná definovaná součtem Xi. Nadměrná špičatost Y je
kde je směrodatná odchylka . Zejména pokud všechny Xi mají stejnou odchylku, pak se to zjednoduší na
Důvod, proč neodečíst 3, je ten, že holý čtvrtý okamžik lépe zobecňuje na vícerozměrné distribuce, zvláště když se nepředpokládá nezávislost. The cokurtosis mezi páry proměnných je řád čtyři tenzor. Pro dvojrozměrné normální rozdělení má tenzor cokurtosis mimo diagonální členy, které obecně nejsou ani 0, ani 3, takže pokus o „korekci“ přebytku je matoucí. Je pravda, že společné kumulanty stupně větší než dva pro všechny vícerozměrné normální rozdělení jsou nula.
U dvou náhodných proměnných X a Y, nemusí být nutně nezávislý, špičatost součtu, X + Y, je
Všimněte si, že binomické koeficienty se objeví ve výše uvedené rovnici.
Výklad
Přesná interpretace Pearsonovy míry špičatosti (nebo nadměrné špičatosti) bývala sporná, ale nyní je vyřešena. Jak poznamenává Westfall v roce 2014[2], „... jeho jediná jednoznačná interpretace je ve smyslu ocasní končetiny; tj. buď existující odlehlé hodnoty (pro vzorovou špičatost) nebo sklon k vytváření odlehlých hodnot (pro špičatost rozdělení pravděpodobnosti).“ Logika je jednoduchá: Kurtosis je průměr (nebo očekávaná hodnota ) z standardizovaná data zvýšil na čtvrtou sílu. Jakékoli standardizované hodnoty, které jsou menší než 1 (tj. Data v rámci jedné standardní odchylky průměru, kde by byl „vrchol“), nepřispívají ke špičatosti prakticky nic, protože zvýšení čísla, které je menší než 1 na čtvrtou mocninu, to činí blíže k nule. Jediné datové hodnoty (pozorované nebo pozorovatelné), které jakýmkoli smysluplným způsobem přispívají ke špičatosti, jsou hodnoty mimo oblast píku; tj. odlehlé hodnoty. Kurtosis proto měří pouze odlehlé hodnoty; neměří nic o „vrcholu“.
Bylo poskytnuto mnoho nesprávných interpretací kurtosy, které zahrnují pojmy špičkovosti. Jedním z nich je, že špičatost měří jak „vrcholnost“ distribuce, tak i těžkost jeho ocasu.[5] Byly navrženy různé jiné nesprávné interpretace, například „nedostatek ramen“ (kde „rameno“ je neurčitě definováno jako oblast mezi vrcholem a ocasem, nebo konkrétněji jako oblast kolem jednoho standardní odchylka ze střední hodnoty) nebo „bimodalita“.[6] Balanda a MacGillivray tvrdí, že standardní definice špičatosti „je špatná míra špičatosti, špiček nebo váhy ocasu distribuce“[5]:114 a místo toho navrhnout „neurčitě definovat kurtosu jako pohyb bez umístění a bez měřítka pravděpodobnostní hmotnost z ramena distribuce do jeho středu a ocasy ".[5]
Maurův výklad
V roce 1986 Moors podal výklad kurtosy.[7] Nechat
kde X je náhodná proměnná, μ je průměr a σ je směrodatná odchylka.
Nyní podle definice špičatosti a známou identitou
- .
Na špičatost lze nyní pohlížet jako na míru rozptylu Z2 kolem jeho očekávání. Alternativně to lze považovat za míru rozptylu Z kolem +1 a -1. κ dosáhne své minimální hodnoty v symetrickém dvoubodovém rozdělení. Pokud jde o původní proměnnou Xje kurtóza měřítkem rozptylu X kolem dvou hodnot μ ± σ.
Vysoké hodnoty κ vznikají za dvou okolností:
- kde je pravděpodobnostní hmotnost soustředěna kolem střední hodnoty a proces generování dat produkuje příležitostné hodnoty daleko od střední hodnoty,
- kde je pravděpodobnostní hmota koncentrována v ocasu distribuce.
Nadměrná špičatost
The nadměrná špičatost je definována jako kurtosis minus 3. Existují 3 odlišné režimy, jak je popsáno níže.
Mezokurtic
Distribuce s nulovou nadměrnou špičatostí se nazývají mezokurticnebo mesokurtotické. Nejvýznamnějším příkladem mesokurtic distribuce je rodina normální distribuce, bez ohledu na hodnoty jeho parametry. Několik dalších dobře známých distribucí může být mesokurtic, v závislosti na hodnotách parametrů: například binomická distribuce je mesokurtic pro .
Leptokurtic
Distribuce s pozitivní nazývá se nadměrná špičatost leptokurticnebo leptokurtotický. „Lepto-“ znamená „štíhlý“.[8] Pokud jde o tvar, leptokurtic distribuce má tlustší ocasy. Mezi příklady leptokurtických distribucí patří Studentova t-distribuce, Rayleighova distribuce, Laplaceova distribuce, exponenciální rozdělení, Poissonovo rozdělení a logistická distribuce. Takové distribuce se někdy nazývají super Gaussian.[9]
Platykurtic

Distribuce s negativní nazývá se nadměrná špičatost platykurticnebo platykurtotické. „Platy-“ znamená „široký“.[10] Pokud jde o tvar, má platykurtic distribuce tenčí ocasy. Příklady platykurtických distribucí zahrnují kontinuální a diskrétní rovnoměrné rozdělení a zvýšená kosinová distribuce. Nejrozsáhlejší distribucí ze všech je Bernoulliho distribuce s p = 1/2 (například kolikrát člověk získá „hlavy“ při jednom otočení mince, a Hod mincí ), u kterého je nadměrná špičatost −2. Takové distribuce se někdy nazývají sub gaussovské rozdělení, původně navržený uživatelem Jean-Pierre Kahane[11] a dále popsali Buldygin a Kozachenko.[12]
Grafické příklady
Rodina Pearson typu VII


Účinky kurtosy jsou ilustrovány pomocí a parametrická rodina distribucí, jejichž křivost lze upravit, zatímco jejich momenty a kumulanty nižšího řádu zůstávají konstantní. Zvažte Rodina Pearson typu VII, což je zvláštní případ Rodina Pearson typu IV omezeno na symetrické hustoty. The funkce hustoty pravděpodobnosti darováno
kde A je parametr měřítka a m je parametr tvaru.
Všechny hustoty v této rodině jsou symetrické. The ktento okamžik existuje za předpokladu m > (k + 1) / 2. Aby mohla být kurtosa, potřebujeme m > 5/2. Pak průměr a šikmost existují a jsou shodně nulové. Nastavení A2 = 2m - 3 činí rozptyl rovný jednotě. Jediným volným parametrem je m, který ovládá čtvrtý okamžik (a kumulant) a tudíž i špičatost. Lze změnit parametry pomocí , kde je nadměrná špičatost, jak je definována výše. Tím se získá jednoparametrická leptokurtická rodina s nulovým průměrem, jednotkovou odchylkou, nulovou šikmostí a libovolným nezáporným přebytkem špičatosti. Upravená hustota je
V limitu jako jeden získá hustotu
který se na obrázcích vpravo zobrazuje jako červená křivka.
V opačném směru jako jeden získá standardní normální hustota jako mezní distribuce, zobrazená jako černá křivka.
Na obrázcích vpravo představuje modrá křivka hustotu s přebytkem špičatosti 2. Horní obrázek ukazuje, že leptokurtické hustoty v této rodině mají vyšší vrchol než mezokurtická normální hustota, i když tento závěr platí pouze pro tuto vybranou rodinu distribucí. Poměrně tlustší ocasy leptokurtových hustot jsou znázorněny na druhém obrázku, který vykresluje přirozený logaritmus hustoty typu Pearson typu VII: černá křivka je logaritmus standardní normální hustoty, což je parabola. Je vidět, že normální hustota přiděluje malou pravděpodobnostní hmotu oblastem daleko od průměru („má tenké ocasy“), ve srovnání s modrou křivkou leptokurické hustoty typu Pearson VII s přebytkem špičatosti 2. Mezi modrou křivkou a černé jsou jiné hustoty typu Pearson typu VII s y2 = 1, 1/2, 1/4, 1/8 a 1/16. Červená křivka opět ukazuje horní hranici rodiny Pearson typu VII, s (což přísně vzato znamená, že čtvrtý okamžik neexistuje). Červená křivka klesá nejpomaleji, když se člověk pohybuje od počátku („má tučné ocasy“).
Další známé distribuce


Zde je srovnáváno několik známých, unimodálních a symetrických distribucí z různých parametrických rodin. Každý z nich má střední hodnotu a šikmost nula. Parametry byly vybrány tak, aby vedly k rozptylu rovnému 1 v každém případě. Obrázky vpravo ukazují křivky následujících sedmi hustot, na a lineární měřítko a logaritmická stupnice:
- D: Laplaceova distribuce, známé také jako dvojité exponenciální rozdělení, červená křivka (dvě přímé linie v grafu v měřítku logu), nadměrná špičatost = 3
- S: hyperbolická sekánová distribuce, oranžová křivka, nadměrná špičatost = 2
- L: logistická distribuce, zelená křivka, nadměrná špičatost = 1,2
- N: normální distribuce, černá křivka (obrácená parabola v grafu v měřítku logu), nadměrná špičatost = 0
- C: zvýšená kosinová distribuce, azurová křivka, nadměrná špičatost = -0,593762 ...
- Ž: Distribuce půlkruhu Wigner, modrá křivka, nadměrná špičatost = −1
- U: rovnoměrné rozdělení, purpurová křivka (pro přehlednost je na obou obrázcích zobrazena jako obdélník), nadměrná špičatost = -1,2.
Všimněte si, že v těchto případech jsou platykurtické hustoty ohraničené Podpěra, podpora, zatímco hustoty s kladnou nebo nulovou nadměrnou špičatostí jsou podporovány jako celek skutečná linie.
Nelze odvodit, že vysoká nebo nízká distribuce špičatosti mají vlastnosti uvedené v těchto příkladech. Existují platykurtické hustoty s nekonečnou podporou,
- např., exponenciální distribuce energie s dostatečně velkým tvarovým parametrem b
a existují leptokurtové hustoty s konečnou podporou.
- např. rozdělení rovnoměrné mezi −3 a −0,3, mezi −0,3 a 0,3 a mezi 0,3 a 3, se stejnou hustotou v intervalech (−3, −0,3) a (0,3, 3), ale s 20 krát větší hustotu v intervalu (-0,3; 0,3)
Existují také platykurtické hustoty s nekonečnou špičkou,
- např. stejná směs beta distribuce s parametry 0,5 a 1 s odrazem asi 0,0
a existují leptokurtické hustoty, které vypadají jako ploché,
- např. směs distribuce, která je jednotná mezi -1 a 1 s T (4.0000001) Studentova t-distribuce, s pravděpodobností míchání 0,999 a 0,001.
Ukázková špičatost
Definice
Pro vzorek z n hodnoty vzorek přebytečné špičatosti je
kde m4 je čtvrtý vzorek moment o průměru, m2 je druhý ukázkový okamžik o průměru (tj rozptyl vzorku ), Xi je ith hodnota a je průměr vzorku.
Tento vzorec má jednodušší zastoupení,
Kde hodnoty jsou standardizované hodnoty dat pomocí směrodatné odchylky definované pomocí n spíše než n - 1 ve jmenovateli.
Předpokládejme například, že datové hodnoty jsou 0, 3, 4, 1, 2, 3, 0, 2, 1, 3, 2, 0, 2, 2, 3, 2, 5, 2, 3, 999.
Pak hodnoty jsou −0,239, −0,225, −0,221, −0,234, −0,230, −0,225, −0,239, −0,230, −0,234, −0,225, −0,230, −0,239, −0,230, −0,230, −0,225, −0,230 −0,216, −0,230, −0,225, 4,359
a hodnoty jsou 0,003, 0,003, 0,002, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,003, 0,002, 0,003, 0,003, 360,976.
Průměr těchto hodnot je 18,05 a nadměrná špičatost je tedy 18,05 - 3 = 15,05. Tento příklad objasňuje, že data poblíž „středu“ nebo „vrcholu“ distribuce nepřispívají ke statistice kurtosy, proto kurtosis neměřuje „špičku“. Je to prostě míra odlehlé hodnoty, 999 v tomto příkladu.
Horní hranice
Horní mez pro vzorovou špičatost n (n > 2) reálná čísla jsou[13]
kde je ukázková šikmost .
Rozptyl za normality
Rozptyl vzorové špičatosti vzorku velikosti n z normální distribuce je[14]
Uvedeno jinak, za předpokladu, že podkladová náhodná proměnná je normálně distribuován, lze to ukázat .[15]:Je potřeba číslo stránky
Odhady populační špičatosti
Vzhledem k podskupině vzorků z populace je výše uvedená kurtosis nadbytečné a zkreslený odhad populace převyšuje špičatost. Alternativní odhad populační nadměrné špičatosti je definován takto:
kde k4 je jedinečný symetrický objektivní odhad čtvrtého kumulant, k2 je nestranný odhad druhého kumulantu (shodný s nezaujatým odhadem rozptylu vzorku), m4 je čtvrtý ukázkový moment o průměru, m2 je druhý ukázkový moment o průměru, Xi je ith hodnota a je průměr vzorku. Bohužel, je sám o sobě obecně zaujatý. Pro normální distribuce je to nezaujaté.[3]
Aplikace
![]() | Tato sekce potřebuje expanzi. Můžete pomoci přidávat k tomu. (Prosince 2009) |
Ukázková špičatost je užitečným měřítkem toho, zda je v datové sadě problém s odlehlými hodnotami. Větší špičatost naznačuje závažnější problém s mimořádnými hodnotami a může vést výzkumníka k volbě alternativních statistických metod.
D'Agostinův K-kvadrát test je dobrota test normality na základě kombinace vzorové šikmosti a vzorové špičatosti, jako je Jarque – Bera test za normálnost.
U nenormálních vzorků závisí rozptyl rozptylu vzorku na špičatosti; podrobnosti viz rozptyl.
Pearsonova definice kurtosy se používá jako indikátor přerušovanosti v turbulence.[16]
Konkrétním příkladem je následující lemma od He, Zhang a Zhang[17]: Předpokládejme náhodnou proměnnou má očekávání rozptyl a špičatost Předpokládejme, že ochutnáme mnoho nezávislých kopií. Pak
- .
To ukazuje, že s mnoho vzorků, uvidíme jeden, který je nad očekávání alespoň s pravděpodobností Jinými slovy: Pokud je špičatost velká, můžeme vidět mnoho hodnot buď pod, nebo nad průměrem.
Kurtosis konvergence
Přihlašování pásmové filtry na digitální obrázky, hodnoty špičatosti bývají jednotné, nezávisle na rozsahu filtru. Toto chování, pojmenované kurtosis konvergence, lze použít k detekci sestřihu obrazu v forenzní analýza.[18]
Další opatření
Jiné měřítko „kurtosy“ poskytuje použití L-momenty místo obyčejných okamžiků.[19][20]
Viz také
Reference
- ^ Pearson, Karl (1905), „Das Fehlergesetz und seine Verallgemeinerungen durch Fechner und Pearson. Rejoinder“ [Chybový zákon a jeho zobecnění Fechnerem a Pearsonem. Rejoinder], Biometrika, 4 (1–2): 169–212, doi:10.1093 / biomet / 4.1-2.169, JSTOR 2331536
- ^ A b Westfall, Peter H. (2014), „Kurtosis as Peakedness, 1905 - 2014. R.I.P.", Americký statistik, 68 (3): 191–195, doi:10.1080/00031305.2014.917055, PMC 4321753, PMID 25678714
- ^ A b C Joanes, Derrick N .; Gill, Christine A. (1998), „Srovnání míry vzorkové šikmosti a špičatosti“, Journal of the Royal Statistical Society, Series D, 47 (1): 183–189, doi:10.1111/1467-9884.00122, JSTOR 2988433
- ^ Pearson, Karl (1916), „Matematické příspěvky k teorii evoluce. - XIX. Druhý dodatek ke vzpomínce na variantu Skew.“, Filozofické transakce Královské společnosti v Londýně A, 216 (546): 429–457, doi:10.1098 / rsta.1916.0009, JSTOR 91092
- ^ A b C Balanda, Kevin P .; MacGillivray, Helen L. (1988), „Kurtosis: A Critical Review“, Americký statistik, 42 (2): 111–119, doi:10.2307/2684482, JSTOR 2684482
- ^ Darlington, Richard B. (1970), „Je Kurtosis opravdu„ vrcholnost “?“, Americký statistik, 24 (2): 19–22, doi:10.1080/00031305.1970.10478885, JSTOR 2681925
- ^ Moors, J. J. A. (1986), „The sense of curtosis: Darlington reexamined“, Americký statistik, 40 (4): 283–284, doi:10.1080/00031305.1986.10475415, JSTOR 2684603
- ^ „Lepto-“.
- ^ Benveniste, Albert; Goursat, Maurice; Ruget, Gabriel (1980), „Robustní identifikace neminimálního fázového systému: Slepá úprava lineárního ekvalizéru v datové komunikaci“, Transakce IEEE na automatickém ovládání, 25 (3): 385–399, doi:10.1109 / tac.1980.1102343
- ^ http://www.yourdictionary.com/platy-prefix
- ^ Kahane, Jean-Pierre (1960), „Propriétés locales des fonctions à séries de Fourier aléatoires“ [Místní vlastnosti funkcí z hlediska náhodných Fourierových řad], Studia Mathematica (francouzsky), 19 (1): 1–25, doi:10,4064 / sm-19-1-1-25
- ^ Buldygin, Valerii V .; Kozachenko, Yuriy V. (1980), „Subgaussovské náhodné proměnné“, Ukrajinský matematický deník, 32 (6): 483–489, doi:10.1007 / BF01087176
- ^ Sharma, Rajesh; Bhandari, Rajeev K. (2015), „Šikmost, špičatost a Newtonova nerovnost“, Rocky Mountain Journal of Mathematics, 45 (5): 1639–1643, doi:10.1216 / RMJ-2015-45-5-1639
- ^ Fisher, Ronald A. (1930), „Okamžiky distribuce pro normální vzorky opatření odchylky od normality“, Sborník královské společnosti A, 130 (812): 16–28, doi:10.1098 / rspa.1930.0185, JSTOR 95586
- ^ Kendall, Maurice G .; Stuart, Alan, Pokročilá teorie statistiky, svazek 1: Teorie distribuce (3. vydání), Londýn, Velká Británie: Charles Griffin & Company Limited, ISBN 0-85264-141-9
- ^ Sandborn, Virgil A. (1959), „Měření přerušovanosti turbulentního pohybu v mezní vrstvě“, Journal of Fluid Mechanics, 6 (2): 221–240, doi:10.1017 / S0022112059000581
- ^ On je.; Zhang, J .; Zhang, S. (2010). „Hranice pravděpodobnosti malé odchylky: přístup čtvrtého okamžiku“. Matematika operačního výzkumu. 35 (1): 208–232. doi:10,1287 / měsíc 1090,0438.
- ^ Pan, Xunyu; Zhang, Xing; Lyu, Siwei (2012), „Exposing Image Splicing with Inconsistent Local Noise Varencies“, 2012 IEEE International Conference on Computational Photography (ICCP), 28. - 29. dubna 2012; Seattle, WA, USA: IEEE, doi:10.1109 / ICCPhot.2012.6215223CS1 maint: umístění (odkaz)
- ^ Hosking, Jonathan R. M. (1992), „Moments or L momenty? Příklad porovnávající dvě míry distribučního tvaru ", Americký statistik, 46 (3): 186–189, doi:10.1080/00031305.1992.10475880, JSTOR 2685210
- ^ Hosking, Jonathan R. M. (2006), „K charakterizaci distribucí jejich L-mamy ", Journal of Statistical Planning and Inference, 136 (1): 193–198, doi:10.1016 / j.jspi.2004.06.004
Další čtení
- Kim, Tae-Hwan; White, Halbert (2003). „Podrobnější odhad šikmosti a kurtosy: Simulace a aplikace v indexu S & P500“. Finanční výzkumné dopisy. 1: 56–70. doi:10.1016 / S1544-6123 (03) 00003-5. Alternativní zdroj (Porovnání odhadů kurtosy)
- Seier, E .; Bonett, D.G. (2003). "Dvě rodiny opatření kurtosy". Metrika. 58: 59–70. doi:10,1007 / s001840200223.
externí odkazy
- "Přebytečný koeficient", Encyclopedia of Mathematics, Stiskněte EMS, 2001 [1994]
- Kalkulačka kurtosy
- Online software zdarma (kalkulačka) počítá různé typy statistik šikmosti a špičatosti pro jakoukoli datovou sadu (zahrnuje malé a velké ukázkové testy).
- Kurtosis na Nejdříve známá použití některých slov matematiky
- Oslavujeme 100 let kurtosy historie tématu s různými měřítky špičatosti.