Funkce pravděpodobnostní hmotnosti  |
Funkce kumulativní distribuce  |
Parametry | n ∈ N0 - počet pokusů
(nemovitý )
(nemovitý ) |
---|
Podpěra, podpora | k ∈ { 0, …, n } |
---|
PMF |  |
---|
CDF |
kde 3F2(A,b, k) je generalizovaná hypergeometrická funkce  |
---|
Znamenat |  |
---|
Rozptyl |  |
---|
Šikmost |  |
---|
Př. špičatost | Viz text |
---|
MGF |  |
---|
CF |
|
---|
PGF |  |
---|
v teorie pravděpodobnosti a statistika, beta-binomická distribuce je rodina diskrétních rozdělení pravděpodobnosti na konečnou Podpěra, podpora nezáporných celých čísel vznikajících, když je pravděpodobnost úspěchu v každém pevném nebo známém počtu Bernoulliho zkoušky je neznámý nebo náhodný. Beta-binomická distribuce je binomická distribuce ve kterém je pravděpodobnost úspěchu u každého z n pokusy nejsou opraveny, ale jsou náhodně vybrány z a beta distribuce. Často se používá v Bayesovské statistiky, empirické Bayesovy metody a klasická statistika zachytit nadměrný rozptyl v binomickém typu distribuovaných dat.
Snižuje se na Bernoulliho distribuce jako zvláštní případ, kdy n = 1. Pro α = β = 1, to je diskrétní rovnoměrné rozdělení od 0 don. Rovněž přibližuje binomická distribuce libovolně dobře pro velké α aβ. Podobně obsahuje negativní binomické rozdělení v limitu s velkými β a n. Beta-binomický je jednorozměrná verze Dirichletovo-multinomické rozdělení protože binomická a beta distribuce jsou jednorozměrné verze multinomiální a Dirichletovy distribuce resp.
Motivace a derivace
Jako složená distribuce
The Distribuce beta je distribuce konjugátu z binomická distribuce. Tato skutečnost vede k analyticky přijatelnému výsledku složená distribuce kde lze myslet na
parametr v binomické distribuci jako náhodně vylosovaný z beta distribuce. Jmenovitě, pokud

pak

kde Bin (n,str) je zkratka pro binomická distribuce, a kde str je náhodná proměnná s beta distribuce.
![{ displaystyle { begin {aligned} pi (p mid alpha, beta) & = mathrm {Beta} ( alpha, beta) [5pt] & = { frac {p ^ { alpha -1} (1-p) ^ { beta -1}} { mathrm {B} ( alpha, beta)}} quad { text {pro}} 0 leq p leq 1, konec {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b774219c2be5e5ef2db8114187ce996587b10529)
pak je distribuce sloučeniny dána vztahem
![{ displaystyle { begin {zarovnáno} f (k mid n, alpha, beta) & = int _ {0} ^ {1} L (p mid k) pi (p mid alpha, beta) , dp [6pt] & = {n vyberte k} { frac {1} { mathrm {B} ( alpha, beta)}} int _ {0} ^ {1} p ^ {k + alpha -1} (1-p) ^ {n-k + beta -1} , dp [6pt] & = {n vyberte k} { frac { mathrm {B} ( k + alpha, n-k + beta)} { mathrm {B} ( alpha, beta)}}. end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6509c3d1e2dda9163ef5353ad514af33e0f9ae96)
Pomocí vlastností funkce beta, toto lze alternativně napsat

Beta-binomický model urny
Distribuci beta-binomií lze také motivovat prostřednictvím urnový model pro pozitivní celé číslo hodnoty α a β, známý jako Model urny Pólya. Konkrétně si představte urnu obsahující α červené koule a β černé koule, kde se náhodně losují. Pokud je pozorována červená koule, jsou dvě červené koule vráceny do urny. Podobně, pokud je nakreslena černá koule, jsou dvě černé koule vráceny do urny. Pokud se to opakuje n čas, pak pravděpodobnost pozorování k červené koule následuje beta-binomické rozdělení s parametry n, α aβ.
Pokud jsou náhodné losování s jednoduchou výměnou (do urny se nepřidávají žádné koule nad a nad pozorovanou kouli), pak rozdělení následuje binomické rozdělení a pokud jsou náhodné losování provedeny bez náhrady, rozdělení následuje a hypergeometrická distribuce.
Okamžiky a vlastnosti
První tři syrové momenty jsou
![{ begin {aligned} mu _ {1} & = { frac {n alpha} { alpha + beta}} [8pt] mu _ {2} & = { frac {n alpha [n (1+ alpha) + beta]} {( alpha + beta) (1+ alpha + beta)}} [8pt] mu _ {3} & = { frac {n alpha [n ^ {{2}} (1+ alpha) (2+ alpha) + 3n (1+ alpha) beta + beta ( beta - alpha)]} {( alpha + beta) (1+ alpha + beta) (2+ alpha + beta)}} end {zarovnáno}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d8b08123d7cc1c1b79069bd5d3d3f78776de5945)
a špičatost je
![beta_2 = frac {( alpha + beta) ^ 2 (1+ alpha + beta)} {n alpha beta ( alpha + beta + 2) ( alpha + beta + 3) ( alpha + beta + n)} left [( alpha + beta) ( alpha + beta - 1 + 6n) + 3 alpha beta (n - 2) + 6n ^ 2 - frac {3 alpha beta n (6-n)} { alpha + beta} - frac {18 alpha beta n ^ {2}} {( alpha + beta) ^ 2} vpravo].](https://wikimedia.org/api/rest_v1/media/math/render/svg/8a0a324a1e2fa8215447cc6cf5761738050f371f)
Pronájem
poznamenáváme sugestivně, že průměr lze zapsat jako

a rozptyl jako
![sigma ^ {2} = { frac {n alpha beta ( alpha + beta + n)} {( alpha + beta) ^ {2} ( alpha + beta +1)}} = n pi (1- pi) { frac { alpha + beta + n} { alpha + beta +1}} = n pi (1- pi) [1+ (n-1) rho] !](https://wikimedia.org/api/rest_v1/media/math/render/svg/991ce686abc74a57c81097ad07c2b8eca60b5178)
kde
. Parametr
je známá jako korelace „uvnitř třídy“ nebo „uvnitř klastru“. Právě tato pozitivní korelace vede k nadměrnému rozptylu.
Bodové odhady
Metoda momentů
The metoda momentů odhady lze získat uvedením prvního a druhého momentu beta-binomia
![{ displaystyle { begin {aligned} mu _ {1} & = { frac {n alpha} { alpha + beta}} [6pt] mu _ {2} & = { frac { n alpha [n (1+ alpha) + beta]} {( alpha + beta) (1+ alpha + beta)}} end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8823da9a5ad741ae07796e17e601c4f0d325013b)
a nastavení těchto surových momentů rovných prvnímu a druhému surovému ukázkové momenty resp
![{ displaystyle { begin {aligned} { widehat { mu}} _ {1} &: = m_ {1} = { frac {1} {N}} sum _ {i = 1} ^ {N } X_ {i} [6pt] { widehat { mu}} _ {2} &: = m_ {2} = { frac {1} {N}} sum _ {i = 1} ^ { N} X_ {i} ^ {2} end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8ecd69c69958e11798bf6777604329cf654f18da)
a řešení pro α a β dostaneme
![{ displaystyle { begin {aligned} { widehat { alpha}} & = { frac {nm_ {1} -m_ {2}} {n ({ frac {m_ {2}} {m_ {1} }} - m_ {1} -1) + m_ {1}}} [5pt] { widehat { beta}} & = { frac {(n-m_ {1}) (n - { frac {m_ {2}} {m_ {1}}})}} n ({ frac {m_ {2}} {m_ {1}}} - m_ {1} -1) + m_ {1}}}. end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/74abfcda5a1906399e3218f8a67446428ad1d557)
Tyto odhady mohou být nesmyslově negativní, což je důkazem toho, že data jsou v porovnání s binomickým rozdělením buď nedispergovaná, nebo nedispergována. V tomto případě je binomické rozdělení a hypergeometrická distribuce jsou alternativní kandidáti.
Odhad maximální pravděpodobnosti
V uzavřené formě odhady maximální věrohodnosti jsou nepraktické, protože pdf se skládá z běžných funkcí (funkce gama a / nebo beta), lze je snadno najít pomocí přímé numerické optimalizace. Odhady maximální pravděpodobnosti z empirických dat lze vypočítat pomocí obecných metod pro přizpůsobení multinomálních distribucí Pólya, jejichž metody jsou popsány v (Minka 2003). The R balíček VGAM prostřednictvím funkce vglm, s maximální pravděpodobností, usnadňuje montáž glm modely typu s odpověďmi distribuovanými podle beta-binomické distribuce. Neexistuje požadavek, aby n bylo v průběhu pozorování fixováno.
Příklad
Následující údaje uvádějí počet mužských dětí mezi prvními 12 dětmi velikosti rodiny 13 v 6 115 rodinách převzatých z nemocničních záznamů v 19. století Sasko (Sokal a Rohlf, str. 59 od Lindsey). 13. dítě je ignorováno, aby se utlumil účinek rodin, které se náhodně nezastaví, když je dosaženo požadovaného pohlaví.
Muži | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Rodiny | 3 | 24 | 104 | 286 | 670 | 1033 | 1343 | 1112 | 829 | 478 | 181 | 45 | 7 |
První dva ukázkové momenty jsou

a proto je metoda odhadů momentů

The maximální pravděpodobnost odhady lze najít numericky

a maximální logaritmická pravděpodobnost je

ze kterého najdeme AIC

AIC pro konkurenční binomický model je AIC = 25070,34, a proto vidíme, že beta-binomický model poskytuje lepší přizpůsobení datům, tj. Existují důkazy o nadměrné disperzi. Trivers a Willard předpokládají teoretické zdůvodnění heterogenity (známé také jako „roztržení ") v genderové náchylnosti mezi savčí potomstvo (tj. přehnanost).
Vynikající střih je patrný zejména mezi ocasy
Muži | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Pozorované rodiny | 3 | 24 | 104 | 286 | 670 | 1033 | 1343 | 1112 | 829 | 478 | 181 | 45 | 7 |
Fitted Expected (Beta-Binomial) | 2.3 | 22.6 | 104.8 | 310.9 | 655.7 | 1036.2 | 1257.9 | 1182.1 | 853.6 | 461.9 | 177.9 | 43.8 | 5.2 |
Fitted Expected (Binomial str = 0.519215) | 0.9 | 12.1 | 71.8 | 258.5 | 628.1 | 1085.2 | 1367.3 | 1265.6 | 854.2 | 410.0 | 132.8 | 26.1 | 2.3 |
Další Bayesovské úvahy
Je vhodné změnit parametry distribucí tak, aby očekávaný průměr předchozí hodnoty byl jediný parametr: Let
![{ displaystyle { begin {zarovnaný} pi ( theta mid mu, M) & = operatorname {Beta} (M mu, M (1- mu)) [6pt] & = { frac { Gamma (M)} { Gamma (M mu) Gamma (M (1- mu))}} theta ^ {M mu -1} (1- theta) ^ {M (1 - mu) -1} end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9513115288dd1d5b478ac26cdae886a65641f368)
kde
![{ displaystyle { begin {aligned} mu & = { frac { alpha} { alpha + beta}} [6pt] M & = alpha + beta end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0710866719b771618db2827f0fd6bca15a88b1b7)
aby
![{ displaystyle { begin {aligned} operatorname {E} ( theta mid mu, M) & = mu [6pt] operatorname {Var} ( theta mid mu, M) & = { frac { mu (1- mu)} {M + 1}}. end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a60de1264421c9162224d9e63974b79c9c5f1c1c)
The zadní distribuce ρ(θ | k) je také distribucí beta verze:
![{ displaystyle { begin {zarovnáno} rho ( theta mid k) & propto ell (k mid theta) pi ( theta mid mu, M) [6pt] & = operatorname {Beta} (k + M mu, n-k + M (1- mu)) [6pt] & = { frac { Gamma (M)} { Gamma (M mu) Gamma (M (1- mu))}} {n zvolte k} theta ^ {k + M mu -1} (1- theta) ^ {n-k + M (1- mu) -1 } end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c43077d17fa635bd89822f79b4d7edd66616ce39)
A

zatímco okrajové rozdělení m(k|μ, M) darováno
![{ displaystyle { begin {zarovnáno} m (k mid mu, M) & = int _ {0} ^ {1} ell (k mid theta) pi ( theta mid mu, M) , d theta [6pt] & = { frac { Gamma (M)} { Gamma (M mu) Gamma (M (1- mu))}} {n vyberte k } int _ {0} ^ {1} theta ^ {k + M mu -1} (1- theta) ^ {n-k + M (1- mu) -1} , d theta [6pt] & = { frac { Gamma (M)} { Gamma (M mu) Gamma (M (1- mu))}} {n vyberte k} { frac { Gamma (k + M mu) Gamma (n-k + M (1- mu))} { Gamma (n + M)}}. end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/eaa1e1bd62615cdbe3fef46e7a187b5237404ffa)
Nahrazení zpět M a μ, pokud jde o
a
, toto se stává:

což je očekávané beta-binomické rozdělení s parametry
a
.
Můžeme také použít metodu iterovaných očekávání k nalezení očekávaná hodnota okrajových momentů. Napíšeme náš model jako dvoustupňový složený vzorkovací model. Nechat ki být počet úspěchů z ni zkoušky pro událost i:
![{ displaystyle { begin {aligned} k_ {i} & sim operatorname {Bin} (n_ {i}, theta _ {i}) [6pt] theta _ {i} & sim operatorname {Beta} ( mu, M), mathrm {iid} end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/21d6d5bcb66e8ee3097d5b0fbae6ebea6e69d28e)
Můžeme najít iterované odhady momentů pro průměr a rozptyl pomocí momentů pro distribuce ve dvoustupňovém modelu:
![{ displaystyle operatorname {E} left ({ frac {k} {n}} right) = operatorname {E} left [ operatorname {E} left ( left. { frac {k} {n}} right | theta right) right] = operatorname {E} ( theta) = mu}](https://wikimedia.org/api/rest_v1/media/math/render/svg/9a111b29de189969aa34cc5790268d6bf7b03c49)
![{ displaystyle { begin {zarovnáno} operatorname {var} left ({ frac {k} {n}} right) & = operatorname {E} left [ operatorname {var} left ( left . { frac {k} {n}} right | theta right) right] + operatorname {var} left [ operatorname {E} left ( left. { frac {k} {n }} right | theta right) right] [6pt] & = operatorname {E} left [ left ( left. { frac {1} {n}} right) theta ( 1- theta) right | mu, M right] + operatorname {var} left ( theta mid mu, M right) [6pt] & = { frac {1} {n }} left ( mu (1- mu) right) + { frac {n-1} {n}} { frac {( mu (1- mu))} {M + 1}} [6pt] & = { frac { mu (1- mu)} {n}} vlevo (1 + { frac {n-1} {M + 1}} vpravo). End { zarovnaný}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/24f1793e7dd1ca9ebddb7e8986ba819b64c96cb1)
(Zde jsme použili zákon úplného očekávání a zákon totální odchylky.)
Chceme bodové odhady pro
a
. Odhadovaný průměr
se počítá ze vzorku

Odhad hyperparametru M se získá pomocí okamžitých odhadů pro rozptyl dvoustupňového modelu:
![{ displaystyle s ^ {2} = { frac {1} {N}} sum _ {i = 1} ^ {N} operatorname {var} left ({ frac {k_ {i}} {n_ {i}}} right) = { frac {1} {N}} sum _ {i = 1} ^ {N} { frac {{ widehat { mu}} (1 - { widehat { mu}})} {n_ {i}}} vlevo [1 + { frac {n_ {i} -1} {{ widehat {M}} + 1}} vpravo]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bab04920b21118ce1c9e163ac2f8769fb699cdb3)
Řešení:

kde

Protože nyní máme odhady bodových parametrů,
a
, pro podkladovou distribuci bychom chtěli najít bodový odhad
pro pravděpodobnost úspěchu události i. Toto je vážený průměr odhadu události
a
. Vzhledem k našim bodovým odhadům pro předchozí můžeme nyní tyto hodnoty připojit, abychom našli bodový odhad pro zadní část

Faktory smrštění
Můžeme napsat zadní odhad jako vážený průměr:

kde
se nazývá faktor smrštění.

Související distribuce
kde
je diskrétní rovnoměrné rozdělení.
Viz také
Reference
externí odkazy
|
---|
Diskrétní univariate s konečnou podporou | |
---|
Diskrétní univariate s nekonečnou podporou | |
---|
Kontinuální univariate podporováno v omezeném intervalu | |
---|
Kontinuální univariate podporováno v poloneomezeném intervalu | |
---|
Kontinuální univariate podporováno na celé reálné linii | |
---|
Kontinuální univariate s podporou, jejíž typ se liší | |
---|
Smíšený spojitý-diskrétní univariate | |
---|
Vícerozměrný (společný) | |
---|
Směrový | |
---|
Degenerovat a jednotné číslo | |
---|
Rodiny | |
---|