Pearsonova distribuce - Pearson distribution

The Pearsonova distribuce je rodina kontinuální rozdělení pravděpodobnosti. Poprvé to vydalo Karl Pearson v roce 1895 a následně jej rozšířil v letech 1901 a 1916 v sérii článků o biostatistika.
Dějiny
Systém Pearson byl původně navržen ve snaze modelovat viditelně zkosený pozorování. V té době bylo dobře známo, jak upravit teoretický model tak, aby odpovídal prvním dvěma kumulanty nebo momenty pozorovaných údajů: libovolné rozdělení pravděpodobnosti lze přímo rozšířit a vytvořit rodina v měřítku polohy. Až na patologické v případech lze vytvořit rodinu místního měřítka tak, aby odpovídala pozorovaným znamenat (první kumulant) a rozptyl (druhý kumulant) libovolně dobře. Nebylo však známo, jak konstruovat rozdělení pravděpodobnosti, ve kterém šikmost (standardizovaný třetí kumulant) a špičatost (standardizovaný čtvrtý cumulant) lze nastavit stejně volně. Tato potřeba se ukázala při pokusu přizpůsobit známé teoretické modely pozorovaným údajům, které vykazovaly šikmost. Pearsonovy příklady zahrnují údaje o přežití, které jsou obvykle asymetrické.
Ve svém původním příspěvku Pearson (1895, s. 360) identifikoval kromě klasifikace také čtyři typy distribucí (číslovaných I až IV). normální distribuce (který byl původně známý jako typ V). Klasifikace závisela na tom, zda jsou distribuce podporováno na ohraničeném intervalu, na půlřádce nebo na celku skutečná linie; a zda byly potenciálně zkosené nebo nutně symetrické. Druhý dokument (Pearson 1901) opravil dvě opomenutí: předefinoval distribuci typu V (původně jen normální distribuce, ale teď inverzní gama distribuce ) a zavedla distribuci typu VI. První dva články společně pokrývají pět hlavních typů systému Pearson (I, III, IV, V a VI). Ve třetím článku Pearson (1916) představil další speciální případy a podtypy (VII až XII).
Rhind (1909, s. 430–432) vymyslel jednoduchý způsob vizualizace parametrického prostoru systému Pearson, který následně převzal Pearson (1916, deska 1 a str. 430 a dále, 448 a násl.). Pearsonovy typy se vyznačují dvěma veličinami, běžně označovanými jako β1 a β2. První je čtverec šikmost: kde γ1 je šikmost, nebo třetí standardizovaný moment. Druhý je tradiční špičatost nebo čtvrtý standardizovaný moment: β2 = γ2 + 3. (Moderní léčba definuje kurtosu γ2 pokud jde o kumulanty místo momentů, takže pro normální rozdělení máme γ2 = 0 a β2 = 3. Zde následujeme historický precedens a použijeme β2.) Diagram vpravo ukazuje, který typ Pearson zadal dané konkrétní rozdělení (identifikované bodem (β1, β2)) patří.
Mnoho zešikmených a / nebomezokurtic distribuce, které jsou nám dnes známé, byly na počátku 90. let 20. století stále neznámé. Co je nyní známé jako beta distribuce byl použit uživatelem Thomas Bayes jako zadní distribuce parametru a Bernoulliho distribuce ve své práci z roku 1763 inverzní pravděpodobnost. Distribuce Beta získala důležitost díky členství v systému Pearson a byla známá až do 40. let jako distribuce typu Pearson I.[1] (Pearsonova distribuce typu II je zvláštním případem typu I, ale obvykle již není vybrána.) gama distribuce vznikl z Pearsonovy práce (Pearson 1893, s. 331; Pearson 1895, s. 357, 360, 373–376) a byl známý jako distribuce typu Pearson typu III, než získal své moderní jméno ve 30. a 40. letech.[2] Pearsonův článek z roku 1895 představil distribuci typu IV, která obsahuje Studentské t-rozdělení jako zvláštní případ, predating William Sealy Gosset následné použití o několik let. Jeho papír z roku 1901 představil inverzní gama distribuce (typ V) a beta prime distribuce (typ VI).
Definice
Pearson hustota p je definováno jako jakékoli platné řešení diferenciální rovnice (srov. Pearson 1895, s. 381)
s:
Podle Ord,[3] Pearson vymyslel základní formu rovnice (1) na základě zaprvé vzorce pro derivaci logaritmu hustotní funkce normální distribuce (který dává lineární funkci) a zadruhé z relace opakování pro hodnoty v funkce pravděpodobnostní hmotnosti z hypergeometrická distribuce (což poskytuje lineárně dělenou kvadratickou strukturu).
V rovnici (1) parametr A určuje a stacionární bod, a tedy za určitých podmínek a režimu distribuce, protože
vyplývá přímo z diferenciální rovnice.
Protože jsme konfrontováni s lineární diferenciální rovnice prvního řádu s proměnnými koeficienty, jeho řešení je jednoduché:
Integrál v tomto řešení značně zjednodušuje, když se uvažuje o určitých zvláštních případech integrand. Pearson (1895, s. 367) rozlišoval dva hlavní případy, určené znakem diskriminující (a tedy počet skutečných kořeny ) z kvadratická funkce
Zvláštní typy distribuce
Případ 1, negativní diskriminace
Distribuce typu IV Pearson
Pokud je diskriminátor kvadratické funkce (2) záporný (), nemá žádné skutečné kořeny. Poté definujte
Dodržujte to α je dobře definované reálné číslo a α ≠ 0, protože podle předpokladu a proto b2 ≠ 0. Použitím těchto substitucí se kvadratická funkce (2) transformuje na
Z této formulace je zřejmá absence skutečných kořenů, protože α2 je nutně pozitivní.
Nyní vyjádříme řešení diferenciální rovnice (1) jako funkci y:
Pearson (1895, s. 362) to nazval „trigonometrický případ“, protože integrál
zahrnuje inverzní trigonometrický arktanová funkce. Pak
Nakonec nechte
Použitím těchto substitucí získáme parametrickou funkci:
Tato nenormalizovaná hustota má Podpěra, podpora v celku skutečná linie. Záleží na a parametr měřítka α> 0 a parametry tvaru m > 1/2 aν. Jeden parametr byl ztracen, když jsme se rozhodli najít řešení diferenciální rovnice (1) jako funkci y spíše než X. Znovu proto zavádíme čtvrtý parametr, a to parametr umístění λ. Odvodili jsme tedy hustotu Distribuce typu Pearson IV:
The normalizační konstanta zahrnuje komplex Funkce gama (Γ) a Funkce Beta (B). Všimněte si, že parametr umístění λ zde není stejný jako původní parametr umístění zavedený v obecné formulaci, ale souvisí prostřednictvím
Distribuce typu Pearson typu VII

Parametr tvaru ν distribuce typu Pearson IV řídí jeho šikmost. Pokud fixujeme jeho hodnotu na nulu, získáme symetrickou tříparametrovou rodinu. Tento zvláštní případ je znám jako Distribuce typu Pearson typu VII (srov. Pearson 1916, s. 450). Jeho hustota je
kde B je Funkce Beta.
Alternativní parametrizace (a mírná specializace) distribuce typu VII se získá letováním
což vyžaduje m > 3/2. To s sebou nese malou ztrátu obecnosti, ale zajišťuje to rozptyl distribuce existuje a rovná se σ2. Nyní parametr m ovládá pouze špičatost distribuce. Li m se blíží k nekonečnu jako λ a σ jsou konstantní, normální distribuce vzniká jako zvláštní případ:
Toto je hustota normálního rozdělení se střední hodnotou λ a směrodatná odchylka σ.
Je vhodné to vyžadovat m > 5/2 a nechat
Toto je další specializace a zaručuje, že existují první čtyři momenty distribuce. Přesněji řečeno, distribuce Pearsonova typu VII parametrizována z hlediska (λ, σ, γ2) má průměr z λ, standardní odchylka z σ, šikmost nula a nadměrná špičatost γ2.
Studentské t-rozdělení
Distribuce typu Pearson typu VII je ekvivalentní nestandardizované Studentské t-rozdělení s parametry ν> 0, μ, σ2 použitím následujících substitucí na původní parametrizaci:
Dodržujte toto omezení m > 1/2 je spokojen.
Výsledná hustota je
který je snadno rozpoznatelný jako hustota studenta t-rozdělení.
To znamená, že distribuce typu Pearson typu VII zahrnuje standard Studentské t-rozdělení a také standard Cauchyovo rozdělení. Zejména standardní Student t-distribuce vzniká jako subcase, když μ = 0 a σ2 = 1, což odpovídá následujícím substitucím:
Hustota této omezené rodiny s jedním parametrem je standardní Studentova t:
Případ 2, nezáporný diskriminační
Pokud má kvadratická funkce (2) nezáporný diskriminátor (), má skutečné kořeny A1 a A2 (nemusí být nutně odlišné):
Za přítomnosti skutečných kořenů lze kvadratickou funkci (2) zapsat jako
a řešení diferenciální rovnice tedy je
Pearson (1895, s. 362) to nazval „logaritmický případ“, protože integrál
zahrnuje pouze logaritmus funkce a ne arktanová jako v předchozím případě.
Použití substituce
získáme následující řešení diferenciální rovnice (1):
Vzhledem k tomu, že tato hustota je známá pouze do skryté konstanty proporcionality, lze tuto konstantu změnit a hustotu zapsat takto:
Distribuce typu Pearson I.
The Pearsonova distribuce typu I. (zobecnění beta distribuce ) vzniká, když jsou kořeny kvadratické rovnice (2) opačného znaménka, to znamená, . Pak řešení p je podporován na intervalu . Použijte náhradu
kde , což přináší řešení ve smyslu y který je podporován v intervalu (0, 1):
Lze definovat:
Přeskupením konstant a parametrů se to zjednoduší na:
Tím pádem následuje a s . Ukázalo se, že m1, m2 > −1 je nutné a dostatečné pro p být správnou funkcí hustoty pravděpodobnosti.
Distribuce typu Pearson typu II
The Pearsonova distribuce typu II je speciální případ rodiny Pearson typu I omezený na symetrické distribuce.
Pro křivku Pearson typu II,[4]
kde
Souřadnice, y, je frekvence . Křivka Pearson typu II se používá při výpočtu tabulky významných korelačních koeficientů pro Spearmanovův korelační koeficient když je počet položek v sérii menší než 100 (nebo 30, v závislosti na některých zdrojích). Poté distribuce napodobuje standard Studentova t-distribuce. V tabulce hodnot se určité hodnoty používají jako konstanty v předchozí rovnici:
Okamžiky X použité jsou
Distribuce typu Pearson III
Definování
je . Distribuce typu Pearson typu III je a zobecněná distribuce gama nebo distribuce chí-kvadrát.
Distribuce typu Pearson typu V.
Definování nových parametrů:
následuje . Distribuce typu Pearson typu V je inverzní gama distribuce.
Distribuce Pearsonova typu VI
Definování
následuje a . Distribuce typu Pearson VI je a beta prime distribuce nebo F-rozdělení.
Vztah k jiným distribucím
Rodina Pearson zahrnuje mimo jiné následující distribuce:
- Distribuce beta (typ I)
- Distribuce beta verze (typ VI)
- Cauchyovo rozdělení (typ IV)
- Distribuce chí-kvadrát (typ III)
- Kontinuální rovnoměrné rozdělení (limit typu I)
- Exponenciální rozdělení (typ III)
- Distribuce gama (typ III)
- F-rozdělení (typ VI)
- Inverzní-chi-kvadrát distribuce (typ V)
- Distribuce inverzní gama (typ V)
- Normální distribuce (limit typu I, III, IV, V nebo VI)
- Studentské t-rozdělení (typ VII, což je nezkosený podtyp typu IV)
Aplikace
Tyto modely se používají na finančních trzích vzhledem k jejich schopnosti parametrizovat způsobem, který má pro obchodníky na trhu intuitivní význam. V současné době se používá řada modelů, které zachycují stochastickou povahu volatility sazeb, akcií atd.,[který? ][Citace je zapotřebí ] a tato rodina distribucí se může ukázat jako jedna z důležitějších.
Ve Spojených státech je výchozí distribucí pro analýzu povodňové frekvence Log-Pearson III.[5][Citace je zapotřebí ].
V poslední době došlo k mnoha pokrokům v zobecňování Pearsonových distribucí, aby byla flexibilnější a nazývá se Metalog Distribuce[6]
Poznámky
- ^ Miller, Jeff; et al. (09.07.2006). „Beta distribuce“. Nejstarší známá použití některých slov matematiky. Citováno 2006-12-09.
- ^ Miller, Jeff; et al. (07.12.2006). „Gamma distribution“. Nejstarší známá použití některých slov matematiky. Citováno 2006-12-09.
- ^ Ord J.K. (1972), str. 2
- ^ Ramsey, Philip H. (01.09.1989). "Kritické hodnoty pro Spearmanovu korelaci pořadí objednávek". Journal of Educational Statistics. 14 (3): 245–253. JSTOR 1165017.
- ^ „Pokyny pro stanovení frekvence toku povodní“ (PDF). USGS Voda. Březen 1982. Citováno 2019-06-14.
- ^ „Distribuce metalogů“.
Zdroje
Primární zdroje
- Pearson, Karl (1893). „Příspěvky k matematické evoluční teorii [abstrakt]“. Sborník Královské společnosti. 54 (326–330): 329–333. doi:10.1098 / rspl.1893.0079. JSTOR 115538.
- Pearson, Karl (1895). „Příspěvky k matematické evoluční teorii, II: Zkosená variace homogenního materiálu“ (PDF). Filozofické transakce královské společnosti. 186: 343–414. Bibcode:1895RSPTA.186..343P. doi:10.1098 / rsta.1895.0010. JSTOR 90649.
- Pearson, Karl (1901). „Mathematical comments to the theory of evolution, X: Supplement to a memoir on skew variation“. Filozofické transakce královské společnosti A. 197 (287–299): 443–459. Bibcode:1901RSPTA.197..443P. doi:10.1098 / rsta.1901.0023. JSTOR 90841.
- Pearson, Karl (1916). „Matematické příspěvky k evoluční teorii, XIX: Druhý dodatek ke monografii o odchylce odchylky“. Filozofické transakce královské společnosti A. 216 (538–548): 429–457. Bibcode:1916RSPTA.216..429P. doi:10.1098 / rsta.1916.0009. JSTOR 91092.
- Rhind, A. (červenec – říjen 1909). „Tabulky pro usnadnění výpočtu pravděpodobných chyb hlavních konstant rozložení zkreslení frekvence“. Biometrika. 7 (1/2): 127–147. doi:10.1093 / biomet / 7.1-2.127. JSTOR 2345367.
Sekundární zdroje
- Milton Abramowitz a Irene A. Stegun (1964). Příručka matematických funkcí se vzorci, grafy a matematickými tabulkami. Národní úřad pro standardy.
- Eric W. Weisstein et al. Distribuce typu Pearson typu III. Z MathWorld.
Reference
- Elderton, Sir W.P, Johnson, N.L. (1969) Systémy frekvenčních křivek. Cambridge University Press.
- Ord J.K. (1972) Rodiny frekvenčních distribucí. Griffin, Londýn.