Složené rozdělení pravděpodobnosti - Compound probability distribution
v pravděpodobnost a statistika, a složené rozdělení pravděpodobnosti (také známý jako distribuce směsi nebo nakažlivá distribuce) je rozdělení pravděpodobnosti vyplývá z předpokladu, že a náhodná proměnná je distribuováno podle některé parametrizované distribuce, přičemž (některé) parametry této distribuce jsou samy o sobě náhodné proměnné. parametr měřítka, výsledná směs se také nazývá a šupinová směs.
Složené rozdělení („bezpodmínečné rozdělení“) je výsledkem opomíjení (integrace) přes latentní náhodné proměnné představující parametry parametrizovaného rozdělení („podmíněné rozdělení“).
Definice
A složené rozdělení pravděpodobnosti je rozdělení pravděpodobnosti, které vyplývá z předpokladu, že náhodná proměnná je distribuován podle nějaké parametrizované distribuce s neznámým parametrem který je opět distribuován podle nějaké jiné distribuce . Výsledná distribuce je považována za distribuci, která je výsledkem složení s . Distribuce parametru se také nazývá směšovací distribuce nebo latentní distribuce. Technicky vzato bezpodmínečný rozdělení výsledky z opomíjení přes , tj. z integrace neznámých parametrů . Své funkce hustoty pravděpodobnosti darováno:
Stejný vzorec platí analogicky, pokud jsou některé nebo všechny proměnné vektory.
Z výše uvedeného vzorce je vidět, že složená distribuce je v podstatě speciální případ a mezní rozdělení: společná distribuce z a je dána , a výsledkem sloučeniny je její okrajové rozdělení:Pokud doména je diskrétní, pak je distribuce opět zvláštním případem a distribuce směsi.
Vlastnosti
Složená distribuce v mnoha ohledech se podobá původní distribuci který jej vygeneroval, ale obvykle má větší rozptyl a často těžké ocasy také. The Podpěra, podpora z je stejná jako podpora a často je tvar velmi podobný. Parametry zahrnout všechny parametry nebo které nebyly odsunuty na okraj.
První dva složené distribuce momenty jsou dány
a
Aplikace
Testování
Distribuce společného statistika testů výsledek jako složené distribuce v rámci jejich nulové hypotézy, například v Studentův t-test (kde statistika zkoušky vychází jako poměr a normální a a chi-kvadrát náhodná proměnná) nebo v F-test (kde statistika testu je poměr dvou chi-kvadrát náhodné proměnné).
Overdisperzní modelování
Sloučené distribuce jsou užitečné pro modelování výsledků nadměrný rozptyl, tj. větší variabilita, než by se dalo očekávat u určitého modelu. Například údaje o počtu se běžně modelují pomocí Poissonovo rozdělení, jehož rozptyl se rovná jeho průměru. Distribuci lze zobecnit povolením její variability parametr rychlosti, implementováno prostřednictvím a gama distribuce, což má za následek marginální negativní binomické rozdělení. Toto rozdělení má podobný tvar jako Poissonovo rozdělení, ale umožňuje větší odchylky. Podobně, a binomická distribuce lze zobecnit, aby se umožnila další variabilita smícháním s a beta distribuce pro jeho parametr pravděpodobnosti úspěchu, jehož výsledkem je a beta-binomická distribuce.
Bayesovský závěr
Kromě všudypřítomných okrajových distribucí, které lze považovat za zvláštní případy složených distribucí, v Bayesovský závěr, složené distribuce vznikají, když ve výše uvedeném zápisu F představuje rozdělení budoucích pozorování a G je zadní distribuce parametrů F, vzhledem k informacím v souboru pozorovaných údajů. To dává zadní prediktivní distribuce. Odpovídajícím způsobem pro předchozí prediktivní distribuce, F je distribuce nového datového bodu while G je předchozí distribuce parametrů.
Konvoluce
Konvoluce rozdělení pravděpodobnosti (k odvození rozdělení pravděpodobnosti součtů náhodných proměnných) lze také považovat za zvláštní případ složení; zde rozdělení součtu v zásadě vyplývá z uvažování jednoho součtu jako náhodného parametr umístění na druhou částku.[1]
Výpočet
Složené distribuce odvozené z exponenciální rodina distribuce mají často uzavřenou formu. Pokud analytická integrace není možná, mohou být nutné numerické metody.
Složené distribuce lze relativně snadno zkoumat pomocí Metody Monte Carlo, tj. generováním náhodných vzorků. Generování náhodných čísel z distribucí je často snadné stejně jako a pak je využít k výkonu zhroutil Gibbsův odběr vzorků generovat vzorky z .
Distribuci sloučeniny lze obvykle také dostatečně přiblížit pomocí a distribuce směsi pomocí konečného počtu složek směsi, což umožňuje odvodit přibližnou hustotu, distribuční funkci atd.[1]
Odhad parametrů (maximální pravděpodobnost nebo maximálně a posteriori odhad) v rámci modelu složené distribuce může být někdy zjednodušeno využitím Algoritmus EM.[2]
Příklady
- Směsi v Gaussově měřítku:[3]
- Složení a normální distribuce s rozptyl distribuováno podle inverzní rozdělení gama (nebo ekvivalentně s přesnost distribuováno jako gama distribuce ) poskytuje nestandardizované Studentova t-distribuce.[4] Toto rozdělení má stejný symetrický tvar jako normální rozdělení se stejným středovým bodem, ale má větší rozptyl a těžké ocasy.
- Složení a Gaussovo rozdělení s rozptylem distribuovaným podle exponenciální rozdělení (nebo se směrodatnou odchylkou podle a Rayleighova distribuce ) výnosy a Laplaceova distribuce.
- Složení a Gaussovo rozdělení s rozptylem distribuovaným podle exponenciální rozdělení jehož parametr rychlosti je sám distribuován podle a gama distribuce výnosy a Normální-exponenciální-gama rozdělení. (Jedná se o dvě fáze skládání. Samotná odchylka poté následuje a Distribuce Lomax; viz. níže.)
- Složení a Gaussovo rozdělení se směrodatnou odchylkou distribuovanou podle a (standardní) inverzní rovnoměrné rozdělení výnosy a Lomítko distribuce.
- další Gaussovy směsi:
- Složení a Gaussovo rozdělení s znamenat distribuovány podle jiného Gaussovo rozdělení výnosy (opět) a Gaussovo rozdělení.
- Složení a Gaussovo rozdělení s znamenat distribuovány podle posunutého exponenciální rozdělení výnosy exponenciálně modifikované Gaussovo rozdělení.
- Složení a binomická distribuce s pravděpodobností úspěchu rozdělené podle a beta distribuce výnosy a beta-binomická distribuce. Má tři parametry, parametr (počet vzorků) z binomické distribuce a parametry tvaru a z distribuce beta.[5][6]
- Složení a multinomiální distribuce s vektorem pravděpodobnosti distribuovaným podle a Dirichletova distribuce výnosy a Dirichletovo-multinomické rozdělení.
- Složení a Poissonovo rozdělení s parametr rychlosti distribuováno podle a gama distribuce výnosy a negativní binomické rozdělení.[7][8]
- Složení an exponenciální rozdělení s jeho parametr rychlosti distribuováno podle a gama distribuce výnosy a Distribuce Lomax.[9]
- Složení a gama distribuce s parametr inverzní stupnice distribuovány podle jiného gama distribuce získá tři parametry beta prime distribuce.[10]
- Složení a poloviční normální rozdělení s jeho parametr měřítka distribuováno podle a Rayleighova distribuce výnosy exponenciální rozdělení. Toto bezprostředně vyplývá z Laplaceova distribuce výsledkem je a normální šupinová směs; viz výše. Lze zde také vyměnit role podmíněných a směšovacích distribucí; v důsledku toho složení a Rayleighova distribuce s jeho parametrem měřítka distribuovaným podle a poloviční normální rozdělení taky výnosy exponenciální rozdělení.
- A Gama (k = 2, θ) - distribuováno náhodná proměnná, jejíž parametr měřítka θ opět je jednotně distribuován okrajově výnosy exponenciální rozdělení.
Viz také
- Distribuce směsi
- Okrajové rozdělení
- Podmíněné rozdělení, Společná distribuce
- Složené Poissonovo rozdělení, Složený Poissonův proces
- Konvoluce
- Overdisperze
- Algoritmus EM
Reference
- ^ A b Röver, C .; Friede, T. (2017). "Diskrétní aproximace distribuce směsi pomocí omezené divergence". Journal of Computational and Graphical Statistics. 26 (1): 217–222. arXiv:1602.04060. doi:10.1080/10618600.2016.1276840.
- ^ Gelman, A .; Carlin, J. B .; Stern, H .; Rubin, D. B. (1997). „9.5 Nalezení marginálních posteriorních režimů pomocí EM a souvisejících algoritmů". Bayesovská analýza dat (1. vyd.). Boca Raton: Chapman & Hall / CRC. p. 276.
- ^ Gneiting, T. (1997). "Směsi v normálním měřítku a duální hustoty pravděpodobnosti". Journal of Statistical Computation and Simulation. 59 (4): 375–384. doi:10.1080/00949659708811867.
- ^ Mood, A. M .; Graybill, F. A .; Boes, D. C. (1974). Úvod do teorie statistiky (3. vyd.). New York: McGraw-Hill.
- ^ Johnson, N.L .; Kemp, A. W .; Kotz, S. (2005). „6.2.2“. Univariate diskrétní distribuce (3. vyd.). New York: Wiley. p. 253.
- ^ Gelman, A .; Carlin, J. B .; Stern, H .; Dunson, D. B .; Vehtari, A .; Rubin, D. B. (2014). Bayesovská analýza dat (3. vyd.). Boca Raton: Chapman & Hall / CRC.
- ^ Lawless, J.F. (1987). "Negativní binomická a smíšená Poissonova regrese". Canadian Journal of Statistics. 15 (3): 209–225. doi:10.2307/3314912. JSTOR 3314912.
- ^ Teich, M. C .; Diament, P. (1989). "Znásobte stochastické reprezentace distribucí K a jejich Poissonových transformací". Journal of the Optical Society of America A. 6 (1): 80–91. Bibcode:1989JOSAA ... 6 ... 80T. CiteSeerX 10.1.1.64.596. doi:10.1364 / JOSAA.6.000080.
- ^ Johnson, N.L .; Kotz, S .; Balakrishnan, N. (1994). „20 Pareto distribuce". Kontinuální jednorozměrné distribuce. 1 (2. vyd.). New York: Wiley. p. 573.
- ^ Dubey, S. D. (1970). "Složené rozdělení gama, beta a F". Metrika. 16: 27–31. doi:10.1007 / BF02613934.
Další čtení
- Lindsay, B. G. (1995), Modely směsí: teorie, geometrie a aplikaceSérie regionálních konferencí NSF-CBMS v oblasti pravděpodobnosti a statistiky, 5„Hayward, CA, USA: Ústav matematické statistiky, s. I – 163, ISBN 978-0-940600-32-4, JSTOR 4153184
- Seidel, W. (2010), „Mixture models“, v Lovric, M. (ed.), Mezinárodní encyklopedie statistických věd, Heidelberg: Springer, str. 827–829, doi:10.1007/978-3-642-04898-2_368, ISBN 978-3-642-04898-2
- Mood, A. M .; Graybill, F. A .; Boes, D. C. (1974), „III.4.3 Nakažlivé distribuce a zkrácené distribuce", Úvod do teorie statistiky (3. vyd.), New York: McGraw-Hill, ISBN 978-0-07-042864-5
- Johnson, N.L .; Kemp, A. W .; Kotz, S. (2005), "8 Distribuce směsi", Univariate diskrétní distribuce, New York: Wiley, ISBN 978-0-471-27246-5