Konjugujte před - Conjugate prior

v Bayesovská pravděpodobnost teorie, pokud zadní distribuce p(θ | X) jsou stejné pravděpodobnostní distribuční rodina jako předchozí rozdělení pravděpodobnosti p(θ), jsou volány předchozí a zadní konjugované distribuce, a předchozí se nazývá a před konjugátem pro funkce pravděpodobnosti p(x | θ). Například Gaussian rodina je konjugovaná sama se sebou (nebo vlastní konjugát) s ohledem na Gaussovu pravděpodobnostní funkci: je-li pravděpodobnostní funkce Gaussian, výběr Gaussianovy priority před střední hodnotou zajistí, že zadní rozdělení bude také Gaussian. To znamená, že Gaussovo rozdělení je konjugát před pravděpodobností, která je také Gaussova. Koncept, stejně jako pojem „před konjugátem“, představil Howard Raiffa a Robert Schlaifer ve své práci na Bayesovská teorie rozhodování.^[1] Podobný koncept objevil nezávisle George Alfred Barnard.^[2]

Uvažujme o obecném problému odvození (spojitého) rozdělení parametru θ vzhledem k určitému datu nebo datům X. Z Bayesova věta, zadní distribuce se rovná součinu funkce pravděpodobnosti ${ Displaystyle theta mapsto p (x mid theta) !}$ a předchozí ${ displaystyle p ( theta) !}$ , normalizováno (děleno) pravděpodobností dat ${ displaystyle p (x) !}$ :

{ displaystyle { begin {zarovnaný} p ( theta mid x) & = { frac {p (x mid theta) , p ( theta)} {p (x)}} & = { frac {p (x mid theta) , p ( theta)} { int _ { theta '} p (x, theta') , d theta '}} & = { frac {p (x mid theta) , p ( theta)} { int _ { theta '} p (x mid theta') , p ( theta ') , d theta '}} end {zarovnáno}}}

Nechť je funkce pravděpodobnosti považována za pevnou; funkce pravděpodobnosti je obvykle dobře určena z prohlášení o procesu generování dat^{[potřebný příklad ]}. Je jasné, že různé možnosti předchozí distribuce p(θ) může integrál více či méně obtížně vypočítat a produkt p(X|θ) × p(θ) může mít jednu nebo druhou algebraickou formu. Pro určité volby předchozího má zadní část stejnou algebraickou formu jako předchozí (obvykle s různými hodnotami parametrů). Taková volba je a před konjugátem.

Konjugát prior je algebraické pohodlí, dávající a uzavřený výraz pro zadní; v opačném případě numerická integrace může být nutné. Dále, konjugované priority mohou dát intuici tím, že transparentněji ukazují, jak funkce pravděpodobnosti aktualizuje předchozí distribuci.

Všichni členové exponenciální rodina mít předchůdce konjugátu.^[3]

Příklad

Formu předchozího konjugátu lze obecně zjistit kontrolou hustota pravděpodobnosti nebo funkce pravděpodobnostní hmotnosti distribuce. Zvažte například a náhodná proměnná který se skládá z počtu úspěchů ${ displaystyle s}$ v ${ displaystyle n}$ Bernoulliho zkoušky s neznámou pravděpodobností úspěchu ${ displaystyle q}$ v [0,1]. Tato náhodná proměnná bude následovat binomická distribuce, s pravděpodobnostní hromadnou funkcí formuláře

{ displaystyle p (s) = {n zvolit s} q ^ {s} (1-q) ^ {n-s}}

Obvyklý předchozí konjugát je beta distribuce s parametry ( ${ displaystyle alpha}$ , ${ displaystyle beta}$ ):

{ displaystyle p (q) = {q ^ { alfa -1} (1-q) ^ { beta -1} nad mathrm {B} ( alfa, beta)}}

kde ${ displaystyle alpha}$ a ${ displaystyle beta}$ jsou vybrány tak, aby odrážely jakoukoli existující víru nebo informace ( ${ displaystyle alpha}$ = 1 a ${ displaystyle beta}$ = 1 by dal a rovnoměrné rozdělení ) a Β( ${ displaystyle alpha}$ , ${ displaystyle beta}$ ) je Funkce Beta jednající jako normalizační konstanta.

V tomto kontextu, ${ displaystyle alpha}$ a ${ displaystyle beta}$ jsou nazývány hyperparametry (parametry předchozího), aby se odlišily od parametrů základního modelu (zde q). Typickým znakem konjugovaných předků je, že rozměrnost hyperparametrů je o jednu větší než u parametrů původní distribuce. Pokud jsou všechny parametry skalární hodnoty, znamená to, že bude o jeden hyperparametr více než parametr; ale to platí i pro parametry s vektorovou a maticovou hodnotou. (Viz obecný článek o exponenciální rodina, a zvažte také Wishart distribuce, konjugovat před kovarianční matice a vícerozměrné normální rozdělení, například v případě velké dimenze.)

Pokud potom vybereme tuto náhodnou proměnnou a dostaneme s úspěchy a F selhání, máme

{ displaystyle { begin {zarovnáno} P (s, f mid q = x) & = {s + f vybrat s} x ^ {s} (1-x) ^ {f}, P (q = x) & = {x ^ { alpha -1} (1-x) ^ { beta -1} over mathrm {B} ( alpha, beta)}, P (q = x mid s, f) & = { frac {P (s, f mid x) P (x)} { int P (s, f mid y) P (y) dy}} & = {{ {s + f zvolit s} x ^ {s + alfa -1} (1-x) ^ {f + beta -1} / mathrm {B} ( alfa, beta)} přes int _ { y = 0} ^ {1} left ({s + f select s} y ^ {s + alpha -1} (1-y) ^ {f + beta -1} / mathrm {B} ( alpha , beta) right) dy} & = {x ^ {s + alpha -1} (1-x) ^ {f + beta -1} over mathrm {B} (s + alpha, f + beta)}, end {zarovnáno}}}

což je další distribuce Beta s parametry ( ${ displaystyle alpha}$ + s, ${ displaystyle beta}$ + F). Tato zadní distribuce by pak mohla být použita jako předchozí pro více vzorků, přičemž hyperparametry jednoduše přidaly každou další informaci, jak přichází.

Pseudo pozorování

Často je užitečné považovat hyperparametry konjugované předchozí distribuce za odpovídající pozorování určitého počtu pseudo pozorování s vlastnostmi určenými parametry. Například hodnoty ${ displaystyle alpha}$ a ${ displaystyle beta}$ a beta distribuce lze považovat za odpovídající ${ displaystyle alpha -1}$ úspěchy a ${ displaystyle beta -1}$ - selhání, pokud je k výběru optimálního nastavení parametrů použit zadní režim, nebo ${ displaystyle alpha}$ úspěchy a ${ displaystyle beta}$ selhání, pokud se k výběru optimálního nastavení parametrů použije zadní průměr. Obecně platí, že pro téměř všechny předchozí distribuce konjugátu lze hyperparametry interpretovat pomocí pseudo pozorování. To může pomoci jak při poskytování intuice za často chaotickými aktualizačními rovnicemi, tak při výběru rozumných hyperparametrů pro předchozí.

Výklady

Analogie s vlastními funkcemi^{[Citace je zapotřebí ]}

Konjugované priority jsou analogické k vlastní funkce v teorie operátorů, v tom, že se jedná o distribuce, na které „operátor klimatizace“ působí dobře srozumitelným způsobem a myslí na proces změny z předchozího na zadní jako operátora.

V obou vlastních funkcích a předchůdcích konjugátu existuje a konečně-dimenzionální prostor, který je zachován operátorem: výstup má stejnou formu (ve stejném prostoru) jako vstup. To značně zjednodušuje analýzu, protože jinak uvažuje o nekonečně dimenzionálním prostoru (prostor všech funkcí, prostor všech distribucí).

Procesy jsou však pouze analogické, ne identické: podmínění není lineární, protože prostor distribucí není uzavřen lineární kombinace, pouze konvexní kombinace a zadní je pouze stejné formulář jako předchozí, nikoli skalární násobek.

Stejně jako lze snadno analyzovat, jak se lineární kombinace vlastních funkcí vyvíjí při použití operátoru (protože s ohledem na tyto funkce je operátor diagonalizováno ), lze snadno analyzovat, jak se konvexní kombinace konjugovaných předků vyvíjí při kondicionování; nazývá se to pomocí a hyperprior, a odpovídá použití a hustota směsi spíše než jediného předchozího konjugátu.

Dynamický systém

Jeden může myslet na podmíněnost konjugovaných předchůdců jako definování druhu (diskrétního času) dynamický systém: z dané sady hyperparametrů příchozí data tyto hyperparametry aktualizují, takže změnu hyperparametrů lze vnímat jako jakýsi „časový vývoj“ systému, odpovídající „učení“. Počínaje různými body se v průběhu času získají různé toky. To je opět analogické s dynamickým systémem definovaným lineárním operátorem, ale všimněte si, že jelikož různé vzorky vedou k různým závěrům, nezávisí to jen na čase, ale spíše na datech v čase. Související přístupy viz Rekurzivní Bayesiánský odhad a Asimilace dat.

Praktický příklad

Předpokládejme, že ve vašem městě funguje autopůjčovna. Řidiči mohou odjet a vyzvednout si auta kdekoli uvnitř městských omezení. Auta můžete najít a pronajmout pomocí aplikace.

Předpokládejme, že chcete zjistit pravděpodobnost, že v kteroukoli denní dobu najdete půjčené auto v krátké vzdálenosti od adresy bydliště.

Během tří dnů se podíváte na aplikaci v náhodných časech dne a v krátké vzdálenosti od adresy bydliště najdete následující počet aut: ${ displaystyle mathbf {x} = [3,4,1]}$

Pokud předpokládáme, že data pocházejí z a Poissonovo rozdělení, můžeme vypočítat maximální pravděpodobnost odhad parametrů modelu, který je ${ textstyle lambda = { frac {3 + 4 + 1} {3}} přibližně 2,67.}$ Pomocí tohoto odhadu maximální pravděpodobnosti můžeme vypočítat pravděpodobnost, že bude k dispozici alespoň jedno auto: ${ textstyle p (x> 0) = 1-p (x = 0) = 1 - { frac {2,67 ^ {0} e ^ {- 2,67}} {0!}} přibližně 0,93}$

Toto je Poissonovo rozdělení the s největší pravděpodobností vygenerovala pozorovaná data ${ displaystyle mathbf {x}}$ . Data však mohla pocházet také z jiné Poissonovy distribuce, např. jeden s ${ displaystyle lambda = 3}$ nebo ${ displaystyle lambda = 2}$ Ve skutečnosti existuje nekonečné množství poissonových distribucí mohl generovali pozorovaná data a s relativně malým počtem datových bodů bychom si měli být docela jisti, které přesné rozdělení poissonu tato data vygenerovalo. Intuitivně bychom místo toho měli vzít vážený průměr pravděpodobnosti ${ displaystyle p (x> 0)}$ pro každou z těchto Poissonových distribucí, váženou podle toho, jak je pravděpodobné, vzhledem k datům, která jsme pozorovali ${ displaystyle mathbf {x}}$ .

Obecně je toto množství známé jako zadní prediktivní distribuce ${ displaystyle p (x | mathbf {x}) = int _ { theta} p (x | theta) p ( theta | mathbf {x}) d theta ,,}$ kde ${ displaystyle x}$ je nový datový bod, ${ displaystyle mathbf {x}}$ jsou pozorované údaje a ${ displaystyle theta}$ jsou parametry modelu. Použitím Bayesova věta můžeme se rozšířit ${ displaystyle p ( theta | mathbf {x}) = { frac {p ( mathbf {x} | theta) p ( theta)} {p ( mathbf {x})}}} }$ takhle ${ displaystyle p (x | mathbf {x}) = int _ { theta} p (x | theta) { frac {p ( mathbf {x} | theta) p ( theta)} { p ( mathbf {x})}} d theta ,.}$ Obecně je tento integrál těžko vypočítatelný. Pokud však zvolíte konjugát před distribucí ${ displaystyle p ( theta)}$ , lze odvodit uzavřený výraz. Toto je zadní prediktivní sloupec v níže uvedených tabulkách.

Vrátíme-li se k našemu příkladu, vybereme-li Distribuce gama jako naše předchozí distribuce nad rychlostí poissonových distribucí, pak zadní predikce je negativní binomické rozdělení jak je patrné z posledního sloupce v tabulce níže. Distribuce gama je parametrizována dvěma hyperparametry ${ displaystyle alpha, beta}$ které si musíme vybrat. Při pohledu na grafy rozdělení gama vybereme ${ displaystyle alpha = beta = 2}$ , což se zdá být rozumným předpokladem pro průměrný počet automobilů. Volba předchozích hyperparametrů je ve své podstatě subjektivní a vychází z předchozích znalostí.

Vzhledem k předchozím hyperparametrům ${ displaystyle alpha}$ a ${ displaystyle beta}$ můžeme vypočítat zadní hyperparametry ${ textstyle alpha '= alfa + součet _ {i} x_ {i} = 2 + 3 + 4 + 1 = 10}$ a ${ textstyle beta '= beta + n = 2 + 3 = 5}$

Vzhledem k zadním hyperparametrům můžeme konečně vypočítat zadní predikci ${ textstyle p (x> 0 | mathbf {x}) = 1-p (x = 0 | mathbf {x}) = 1-NB left (0 , | , 10, { frac {1 } {1 + 5}} vpravo) přibližně 0,84}$

Tento mnohem konzervativnější odhad odráží nejistotu v parametrech modelu, kterou bere v úvahu zadní predikce.

Tabulka distribucí konjugátů

Nechat n označte počet pozorování. Ve všech níže uvedených případech se předpokládá, že se jedná o data n bodů ${ displaystyle x_ {1}, ldots, x_ {n}}$ (který bude náhodné vektory ve vícerozměrných případech).

Pokud funkce pravděpodobnosti patří k exponenciální rodina, potom existuje konjugát před, často také v exponenciální rodině; vidět Exponenciální rodina: Konjugované distribuce.

Když je funkce pravděpodobnosti diskrétní distribuce

Pravděpodobnost	Parametry modelu	Konjugujte předchozí distribuci	Předchozí hyperparametry	Zadní hyperparametry^{[poznámka 1]}	Interpretace hyperparametrů	Zadní prediktivní^{[poznámka 2]}
Bernoulli	p (pravděpodobnost)	Beta	${ displaystyle alpha, , beta !}$	${ displaystyle alpha + sum _ {i = 1} ^ {n} x_ {i}, , beta + n- sum _ {i = 1} ^ {n} x_ {i} !}$	${ displaystyle alpha}$ úspěchy, ${ displaystyle beta}$ selhání^{[Poznámka 3]}	${ displaystyle p ({ tilde {x}} = 1) = { frac { alpha '} { alpha' + beta '}}}$
Binomický	p (pravděpodobnost)	Beta	${ displaystyle alpha, , beta !}$	${ displaystyle alpha + sum _ {i = 1} ^ {n} x_ {i}, , beta + sum _ {i = 1} ^ {n} N_ {i} - sum _ {i = 1} ^ {n} x_ {i} !}$	${ displaystyle alpha}$ úspěchy, ${ displaystyle beta}$ selhání^{[Poznámka 3]}	${ displaystyle operatorname {BetaBin} ({ tilde {x}} \| alpha ', beta')}$ (beta-binomický )
Negativní binomický se známým číslem poruchy, r	p (pravděpodobnost)	Beta	${ displaystyle alpha, , beta !}$	${ displaystyle alpha + sum _ {i = 1} ^ {n} x_ {i}, , beta + rn !}$	${ displaystyle alpha}$ celkové úspěchy, ${ displaystyle beta}$ selhání^{[Poznámka 3]} (tj., ${ displaystyle { frac { beta} {r}}}$ experimenty, za předpokladu ${ displaystyle r}$ zůstává fixní)	${ displaystyle operatorname {BetaNegBin} ({ tilde {x}} \| alpha ', beta')}$ (beta-negativní binomický)
jed	λ (hodnotit)	Gama	${ displaystyle k, , theta !}$	${ displaystyle k + sum _ {i = 1} ^ {n} x_ {i}, { frac { theta} {n theta +1}} !}$	${ displaystyle k}$ celkový výskyt v ${ displaystyle { frac {1} { theta}}}$ intervaly	${ displaystyle operatorname {NB} left ({ tilde {x}} mid k ', { frac { theta'} { theta '+1}} right)}$ (negativní binomický )
jed	λ (hodnotit)	Gama	${ displaystyle alpha, , beta !}$ ^{[poznámka 4]}	${ displaystyle alpha + sum _ {i = 1} ^ {n} x_ {i}, beta + n !}$	${ displaystyle alpha}$ celkový výskyt v ${ displaystyle beta}$ intervaly	${ displaystyle operatorname {NB} left ({ tilde {x}} mid alpha ', { frac {1} {1+ beta'}} right)}$ (negativní binomický )
Kategorický	p (vektor pravděpodobnosti), k (počet kategorií; tj. velikost p)	Dirichlet	${ displaystyle { boldsymbol { alpha}} !}$	${ displaystyle { boldsymbol { alpha}} + (c_ {1}, ldots, c_ {k}),}$ kde ${ displaystyle c_ {i}}$ je počet pozorování v kategorii i	${ displaystyle alpha _ {i}}$ výskyty kategorie ${ displaystyle i}$ ^{[Poznámka 3]}	${ displaystyle { begin {aligned} p ({ tilde {x}} = i) & = { frac {{ alpha _ {i}} '} { sum _ {i} { alpha _ {i }} '}} & = { frac { alpha _ {i} + c_ {i}} { sum _ {i} alpha _ {i} + n}} end {zarovnáno}}}$
Multinomiální	p (vektor pravděpodobnosti), k (počet kategorií; tj. velikost p)	Dirichlet	${ displaystyle { boldsymbol { alpha}} !}$	${ displaystyle { boldsymbol { alpha}} + sum _ {i = 1} ^ {n} mathbf {x} _ {i} !}$	${ displaystyle alpha _ {i}}$ výskyty kategorie ${ displaystyle i}$ ^{[Poznámka 3]}	${ displaystyle operatorname {DirMult} ({ tilde { mathbf {x}}} mid { boldsymbol { alpha}} ')}$ (Dirichlet-multinomiální )
Hypergeometrické se známou celkovou velikostí populace, N	M (počet cílových členů)	Beta-binomický^[4]	${ displaystyle n = N, alfa, , beta !}$	${ displaystyle alpha + sum _ {i = 1} ^ {n} x_ {i}, , beta + sum _ {i = 1} ^ {n} N_ {i} - sum _ {i = 1} ^ {n} x_ {i} !}$	${ displaystyle alpha}$ úspěchy, ${ displaystyle beta}$ selhání^{[Poznámka 3]}
Geometrický	p₀ (pravděpodobnost)	Beta	${ displaystyle alpha, , beta !}$	${ displaystyle alpha + n, , beta + součet _ {i = 1} ^ {n} x_ {i} !}$	${ displaystyle alpha}$ experimenty, ${ displaystyle beta}$ totální selhání^{[Poznámka 3]}

Když je funkce pravděpodobnosti spojitá distribuce

Pravděpodobnost	Parametry modelu	Konjugujte předchozí distribuci	Předchozí hyperparametry	Zadní hyperparametry^{[poznámka 1]}	Interpretace hyperparametrů	Zadní prediktivní^{[poznámka 5]}
Normální se známou odchylkou σ²	μ (znamenat)	Normální	${ displaystyle mu _ {0}, , sigma _ {0} ^ {2} !}$	${ displaystyle { frac {1} {{ frac {1} { sigma _ {0} ^ {2}}} + { frac {n} { sigma ^ {2}}}}}} vlevo ( { frac { mu _ {0}} { sigma _ {0} ^ {2}}} + { frac { sum _ {i = 1} ^ {n} x_ {i}} { sigma ^ {2}}} right), left ({ frac {1} { sigma _ {0} ^ {2}}} + { frac {n} { sigma ^ {2}}} right) ^ {- 1}}$	průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) ${ displaystyle 1 / sigma _ {0} ^ {2}}$ a s průměrem vzorku ${ displaystyle mu _ {0}}$	${ displaystyle { mathcal {N}} ({ tilde {x}} \| mu _ {0} ', { sigma _ {0} ^ {2}}' + sigma ^ {2})}$ ^[5]
Normální se známou přesností τ	μ (znamenat)	Normální	${ displaystyle mu _ {0}, , tau _ {0} !}$	${ displaystyle { frac { tau _ {0} mu _ {0} + tau sum _ {i = 1} ^ {n} x_ {i}} { tau _ {0} + n tau }}, , tau _ {0} + n tau}$	průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) ${ displaystyle tau _ {0}}$ a s průměrem vzorku ${ displaystyle mu _ {0}}$	${ displaystyle { mathcal {N}} left ({ tilde {x}} mid mu _ {0} ', { frac {1} { tau _ {0}'}} + { frac {1} { tau}} vpravo)}$ ^[5]
Normální se známým průměrem μ	σ² (odchylka)	Inverzní gama	${ displaystyle mathbf { alpha, , beta}}$ ^{[poznámka 6]}	${ displaystyle mathbf { alpha} + { frac {n} {2}}, , mathbf { beta} + { frac { sum _ {i = 1} ^ {n} {(x_ { i} - mu) ^ {2}}} {2}}}$	odchylka byla odhadnuta z ${ displaystyle 2 alpha}$ pozorování s rozptylem vzorku ${ displaystyle beta / alfa}$ (tj. se součtem čtvercové odchylky ${ displaystyle 2 beta}$ , kde jsou odchylky od známého průměru ${ displaystyle mu}$ )	${ displaystyle t_ {2 alpha '} ({ tilde {x}} \| mu, sigma ^ {2} = beta' / alpha ')}$ ^[5]
Normální se známým průměrem μ	σ² (odchylka)	Škálovaný inverzní chi-kvadrát	${ displaystyle nu, , sigma _ {0} ^ {2} !}$	${ displaystyle nu + n, , { frac { nu sigma _ {0} ^ {2} + součet _ {i = 1} ^ {n} (x_ {i} - mu) ^ { 2}} { nu + n}} !}$	odchylka byla odhadnuta z ${ displaystyle nu}$ pozorování s rozptylem vzorku ${ displaystyle sigma _ {0} ^ {2}}$	${ displaystyle t _ { nu '} ({ tilde {x}} \| mu, { sigma _ {0} ^ {2}}')}$ ^[5]
Normální se známým průměrem μ	τ (přesnost)	Gama	${ displaystyle alpha, , beta !}$ ^{[poznámka 4]}	${ displaystyle alpha + { frac {n} {2}}, , beta + { frac { součet _ {i = 1} ^ {n} (x_ {i} - mu) ^ {2 }} {2}} !}$	přesnost byla odhadnuta z ${ displaystyle 2 alpha}$ pozorování s rozptylem vzorku ${ displaystyle beta / alfa}$ (tj. se součtem čtvercové odchylky ${ displaystyle 2 beta}$ , kde jsou odchylky od známého průměru ${ displaystyle mu}$ )	${ displaystyle t_ {2 alpha '} ({ tilde {x}} mid mu, sigma ^ {2} = beta' / alpha ')}$ ^[5]
Normální^{[poznámka 7]}	μ a σ² Za předpokladu zaměnitelnost	Normálně inverzní gama	${ displaystyle mu _ {0}, , nu, , alfa, , beta}$	${ displaystyle { frac { nu mu _ {0} + n { bar {x}}} { nu + n}}, , nu + n, , alpha + { frac {n } {2}}, ,}$ ${ displaystyle beta + { tfrac {1} {2}} součet _ {i = 1} ^ {n} (x_ {i} - { bar {x}}) ^ {2} + { frac {n nu} { nu + n}} { frac {({ bar {x}} - mu _ {0}) ^ {2}} {2}}}$ ${ displaystyle { bar {x}}}$ je průměr vzorku	průměr byl odhadnut z ${ displaystyle nu}$ pozorování s průměrem vzorku ${ displaystyle mu _ {0}}$ ; odchylka byla odhadnuta z ${ displaystyle 2 alpha}$ pozorování s průměrem vzorku ${ displaystyle mu _ {0}}$ a součet čtvercové odchylky ${ displaystyle 2 beta}$	${ displaystyle t_ {2 alpha '} left ({ tilde {x}} mid mu', { frac { beta '( nu' +1)} { nu ' alpha'}} že jo)}$ ^[5]
Normální	μ a τ Za předpokladu zaměnitelnost	Normální gama	${ displaystyle mu _ {0}, , nu, , alfa, , beta}$	${ displaystyle { frac { nu mu _ {0} + n { bar {x}}} { nu + n}}, , nu + n, , alpha + { frac {n } {2}}, ,}$ ${ displaystyle beta + { tfrac {1} {2}} součet _ {i = 1} ^ {n} (x_ {i} - { bar {x}}) ^ {2} + { frac {n nu} { nu + n}} { frac {({ bar {x}} - mu _ {0}) ^ {2}} {2}}}$ ${ displaystyle { bar {x}}}$ je průměr vzorku	průměr byl odhadnut z ${ displaystyle nu}$ pozorování s průměrem vzorku ${ displaystyle mu _ {0}}$ a přesnost byla odhadnuta z ${ displaystyle 2 alpha}$ pozorování s průměrem vzorku ${ displaystyle mu _ {0}}$ a součet čtvercové odchylky ${ displaystyle 2 beta}$	${ displaystyle t_ {2 alpha '} left ({ tilde {x}} mid mu', { frac { beta '( nu' +1)} { alpha ' nu'}} že jo)}$ ^[5]
Vícerozměrné normální se známou kovarianční maticí Σ	μ (střední vektor)	Vícerozměrné normální	${ displaystyle { boldsymbol { boldsymbol { mu}}} _ {0}, , { boldsymbol { Sigma}} _ {0}}$	${ displaystyle left ({ boldsymbol { Sigma}} _ {0} ^ {- 1} + n { boldsymbol { Sigma}} ^ {- 1} right) ^ {- 1} left ({ boldsymbol { Sigma}} _ {0} ^ {- 1} { boldsymbol { mu}} _ {0} + n { boldsymbol { Sigma}} ^ {- 1} mathbf { bar {x }} že jo),}$ ${ displaystyle left ({ boldsymbol { Sigma}} _ {0} ^ {- 1} + n { boldsymbol { Sigma}} ^ {- 1} right) ^ {- 1}}$ ${ displaystyle mathbf { bar {x}}}$ je průměr vzorku	průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) ${ displaystyle { boldsymbol { Sigma}} _ {0} ^ {- 1}}$ a se střední hodnotou vzorku ${ displaystyle { boldsymbol { mu}} _ {0}}$	${ displaystyle { mathcal {N}} ({ tilde { mathbf {x}}} mid {{ boldsymbol { mu}} _ {0}} ', {{ boldsymbol { Sigma}} _ {0}} '+ { boldsymbol { Sigma}})}$ ^[5]
Vícerozměrné normální se známou přesnou maticí Λ	μ (střední vektor)	Vícerozměrné normální	${ displaystyle mathbf { boldsymbol { mu}} _ {0}, , { boldsymbol { Lambda}} _ {0}}$	${ displaystyle left ({ boldsymbol { Lambda}} _ {0} + n { boldsymbol { Lambda}} right) ^ {- 1} left ({ boldsymbol { Lambda}} _ {0 } { boldsymbol { mu}} _ {0} + n { boldsymbol { Lambda}} mathbf { bar {x}} doprava), , doleva ({ boldsymbol { Lambda}} _ {0} + n { boldsymbol { Lambda}} vpravo)}$ ${ displaystyle mathbf { bar {x}}}$ je průměr vzorku	průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) ${ displaystyle { boldsymbol { Lambda}} _ {0}}$ a s průměrem vzorku ${ displaystyle { boldsymbol { mu}} _ {0}}$	${ displaystyle { mathcal {N}} left ({ tilde { mathbf {x}}} mid {{ boldsymbol { mu}} _ {0}} ', ({{{ boldsymbol { Lambda}} _ {0}} '} ^ {- 1} + { boldsymbol { Lambda}} ^ {- 1}) ^ {- 1} vpravo)}$ ^[5]
Vícerozměrné normální se známým průměrem μ	Σ (kovarianční matice)	Inverse-Wishart	${ displaystyle nu, , { boldsymbol { Psi}}}$	${ displaystyle n + nu, , { boldsymbol { Psi}} + sum _ {i = 1} ^ {n} ( mathbf {x_ {i}} - { boldsymbol { mu}}) ( mathbf {x_ {i}} - { boldsymbol { mu}}) ^ {T}}$	kovarianční matice byla odhadnuta z ${ displaystyle nu}$ pozorování se součtem produktů párových odchylek ${ displaystyle { boldsymbol { Psi}}}$	${ displaystyle t _ { nu '-p + 1} left ({ tilde { mathbf {x}}} \| { boldsymbol { mu}}, { frac {1} { nu' -p + 1}} { boldsymbol { Psi}} ' vpravo)}$ ^[5]
Vícerozměrné normální se známým průměrem μ	Λ (přesná matice)	Wishart	${ displaystyle nu, , mathbf {V}}$	${ displaystyle n + nu, , left ( mathbf {V} ^ {- 1} + sum _ {i = 1} ^ {n} ( mathbf {x_ {i}} - { boldsymbol { mu}}) ( mathbf {x_ {i}} - { boldsymbol { mu}}) ^ {T} vpravo) ^ {- 1}}$	kovarianční matice byla odhadnuta z ${ displaystyle nu}$ pozorování se součtem produktů párových odchylek ${ displaystyle mathbf {V} ^ {- 1}}$	${ displaystyle t _ { nu '-p + 1} left ({ tilde { mathbf {x}}} mid { boldsymbol { mu}}, { frac {1} { nu' -p +1}} { mathbf {V} '} ^ {- 1} vpravo)}$ ^[5]
Vícerozměrné normální	μ (střední vektor) a Σ (kovarianční matice)	normální-inverzní-Wishart	${ displaystyle { boldsymbol { mu}} _ {0}, , kappa _ {0}, , nu _ {0}, , { boldsymbol { Psi}}}$	${ displaystyle { frac { kappa _ {0} { boldsymbol { mu}} _ {0} + n mathbf { bar {x}}} { kappa _ {0} + n}}, , kappa _ {0} + n, , nu _ {0} + n, ,}$ ${ displaystyle { boldsymbol { Psi}} + mathbf {C} + { frac { kappa _ {0} n} { kappa _ {0} + n}} ( mathbf { bar {x} } - { boldsymbol { mu}} _ {0}) ( mathbf { bar {x}} - { boldsymbol { mu}} _ {0}) ^ {T}}$ ${ displaystyle mathbf { bar {x}}}$ je průměr vzorku ${ displaystyle mathbf {C} = součet _ {i = 1} ^ {n} ( mathbf {x_ {i}} - mathbf { bar {x}}) ( mathbf {x_ {i}} - mathbf { bar {x}}) ^ {T}}$	průměr byl odhadnut z ${ displaystyle kappa _ {0}}$ pozorování s průměrem vzorku ${ displaystyle { boldsymbol { mu}} _ {0}}$ ; kovarianční matice byla odhadnuta z ${ displaystyle nu _ {0}}$ pozorování s průměrem vzorku ${ displaystyle { boldsymbol { mu}} _ {0}}$ a se součtem produktů párových odchylek ${ displaystyle { boldsymbol { Psi}} = nu _ {0} { boldsymbol { Sigma}} _ {0}}$	${ displaystyle t _ {{ nu _ {0}} '- p + 1} left ({ tilde { mathbf {x}}} \| {{ boldsymbol { mu}} _ {0}}', { frac {{ kappa _ {0}} '+ 1} {{ kappa _ {0}}' ({ nu _ {0}} '- p + 1)}} { boldsymbol { Psi} }'že jo)}$ ^[5]
Vícerozměrné normální	μ (střední vektor) a Λ (přesná matice)	normální-Wishart	${ displaystyle { boldsymbol { mu}} _ {0}, , kappa _ {0}, , nu _ {0}, , mathbf {V}}$	${ displaystyle { frac { kappa _ {0} { boldsymbol { mu}} _ {0} + n mathbf { bar {x}}} { kappa _ {0} + n}}, , kappa _ {0} + n, , nu _ {0} + n, ,}$ ${ displaystyle left ( mathbf {V} ^ {- 1} + mathbf {C} + { frac { kappa _ {0} n} { kappa _ {0} + n}} ( mathbf { bar {x}} - { boldsymbol { mu}} _ {0}) ( mathbf { bar {x}} - { boldsymbol { mu}} _ {0}) ^ {T} vpravo ) ^ {- 1}}$ ${ displaystyle mathbf { bar {x}}}$ je průměr vzorku ${ displaystyle mathbf {C} = součet _ {i = 1} ^ {n} ( mathbf {x_ {i}} - mathbf { bar {x}}) ( mathbf {x_ {i}} - mathbf { bar {x}}) ^ {T}}$	průměr byl odhadnut z ${ displaystyle kappa _ {0}}$ pozorování s průměrem vzorku ${ displaystyle { boldsymbol { mu}} _ {0}}$ ; kovarianční matice byla odhadnuta z ${ displaystyle nu _ {0}}$ pozorování s průměrem vzorku ${ displaystyle { boldsymbol { mu}} _ {0}}$ a se součtem produktů párových odchylek ${ displaystyle mathbf {V} ^ {- 1}}$	${ displaystyle t _ {{ nu _ {0}} '- p + 1} left ({ tilde { mathbf {x}}} mid {{ boldsymbol { mu}} _ {0}}' , { frac {{ kappa _ {0}} '+ 1} {{ kappa _ {0}}' ({ nu _ {0}} '- p + 1)}} { mathbf {V} '} ^ {- 1} vpravo)}$ ^[5]
Jednotný	${ displaystyle U (0, theta) !}$	Pareto	${ displaystyle x_ {m}, , k !}$	${ displaystyle max {, x_ {1}, ldots, x_ {n}, x _ { mathrm {m}} }, , k + n !}$	${ displaystyle k}$ pozorování s maximální hodnotou ${ displaystyle x_ {m}}$
Pareto se známým minimem X_m	k (tvar)	Gama	${ displaystyle alpha, , beta !}$	${ displaystyle alpha + n, , beta + součet _ {i = 1} ^ {n} ln { frac {x_ {i}} {x _ { mathrm {m}}}}}!$	${ displaystyle alpha}$ pozorování se součtem ${ displaystyle beta}$ z řádově každého pozorování (tj. logaritmus poměru každého pozorování k minimu ${ displaystyle x_ {m}}$ )
Weibulle se známým tvarem β	θ (měřítko)	Inverzní gama^[4]	${ displaystyle a, b !}$	${ displaystyle a + n, , b + součet _ {i = 1} ^ {n} x_ {i} ^ { beta} !}$	${ displaystyle a}$ pozorování se součtem ${ displaystyle b}$ z β 'síla každého pozorování
Log-normální	Stejné jako u normálního rozdělení po umocnění dat
Exponenciální	λ (hodnotit)	Gama	${ displaystyle alpha, , beta !}$ ^{[poznámka 4]}	${ displaystyle alpha + n, , beta + součet _ {i = 1} ^ {n} x_ {i} !}$	${ displaystyle alpha -1}$ pozorování, která součet ${ displaystyle beta}$ ^[6]	${ displaystyle operatorname {Lomax} ({ tilde {x}} mid beta ', alpha')}$ (Distribuce Lomax )
Gama se známým tvarem α	β (hodnotit)	Gama	${ displaystyle alpha _ {0}, , beta _ {0} !}$	${ displaystyle alpha _ {0} + n alpha, , beta _ {0} + sum _ {i = 1} ^ {n} x_ {i} !}$	${ displaystyle alpha _ {0} / alpha}$ pozorování se součtem ${ displaystyle beta _ {0}}$	${ displaystyle operatorname {CG} ({ tilde { mathbf {x}}} mid alpha, { alpha _ {0}} ', { beta _ {0}}') = operatorname { beta '} ({ tilde { mathbf {x}}} \| alpha, { alpha _ {0}}', 1, { beta _ {0}} ')}$ ^{[poznámka 8]}
Inverzní gama se známým tvarem α	β (inverzní stupnice)	Gama	${ displaystyle alpha _ {0}, , beta _ {0} !}$	${ displaystyle alpha _ {0} + n alpha, , beta _ {0} + sum _ {i = 1} ^ {n} { frac {1} {x_ {i}}} ! }$	${ displaystyle alpha _ {0} / alpha}$ pozorování se součtem ${ displaystyle beta _ {0}}$
Gama se známou rychlostí β	α (tvar)	${ displaystyle propto { frac {a ^ { alpha -1} beta ^ { alpha c}} { Gamma ( alpha) ^ {b}}}}$	${ displaystyle a, , b, , c !}$	${ displaystyle a prod _ {i = 1} ^ {n} x_ {i}, , b + n, , c + n !}$	${ displaystyle b}$ nebo ${ displaystyle c}$ pozorování ( ${ displaystyle b}$ pro odhad ${ displaystyle alpha}$ , ${ displaystyle c}$ pro odhad ${ displaystyle beta}$ ) s produktem ${ displaystyle a}$
Gama ^[4]	α (tvar), β (inverzní stupnice)	${ displaystyle propto { frac {p ^ { alpha -1} e ^ {- beta q}} { Gamma ( alpha) ^ {r} beta ^ {- alfa s}}}}$	${ Displaystyle p, , q, , r, , s !}$	${ Displaystyle p prod _ {i = 1} ^ {n} x_ {i}, , q + součet _ {i = 1} ^ {n} x_ {i}, , r + n, , s + n !}$	${ displaystyle alpha}$ bylo odhadnuto z ${ displaystyle r}$ pozorování u produktu ${ displaystyle p}$ ; ${ displaystyle beta}$ bylo odhadnuto z ${ displaystyle s}$ pozorování se součtem ${ displaystyle q}$

Viz také

Beta-binomická distribuce

Poznámky

^ ^A ^b Označeno stejnými symboly jako předchozí hyperparametry s přidanými prvočísly ('). Například ${ displaystyle alpha}$ je označen ${ displaystyle alpha '}$
^ To je zadní prediktivní distribuce nového datového bodu ${ displaystyle { tilde {x}}}$ vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů.
^ ^A ^b ^C ^d ^E ^F ^G Přesná interpretace parametrů a beta distribuce pokud jde o počet úspěchů a neúspěchů, záleží na tom, jaká funkce se použije k získání bodového odhadu z distribuce. Průměr distribuce beta je ${ displaystyle { frac { alpha} { alpha + beta}},}$ což odpovídá ${ displaystyle alpha}$ úspěchy a ${ displaystyle beta}$ selhání, zatímco režim je ${ displaystyle { frac { alfa -1} { alpha + beta -2}},}$ což odpovídá ${ displaystyle alpha -1}$ úspěchy a ${ displaystyle beta -1}$ selhání. Bayesians obecně raději používat zadní průměr spíše než zadní režim jako bodový odhad, odůvodněný kvadratickou ztrátovou funkcí, a použití ${ displaystyle alpha}$ a ${ displaystyle beta}$ je pohodlnější matematicky, zatímco použití ${ displaystyle alpha -1}$ a ${ displaystyle beta -1}$ má tu výhodu, že uniformu ${ displaystyle { rm {Beta}} (1,1)}$ prior odpovídá 0 úspěchům a 0 poruchám. Stejné problémy platí pro Dirichletova distribuce.
^ ^A ^b ^C β je míra nebo inverzní stupnice. V parametrizaci gama distribuce,θ = 1/β a k = α.
^ To je zadní prediktivní distribuce nového datového bodu ${ displaystyle { tilde {x}}}$ vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů. ${ displaystyle { mathcal {N}}}$ a ${ displaystyle t_ {n}}$ odkazovat na normální distribuce a Studentova t-distribuce, respektive, nebo vícerozměrné normální rozdělení a vícerozměrná t-distribuce ve vícerozměrných případech.
^ Z hlediska inverzní gama, ${ displaystyle beta}$ je parametr měřítka
^ Odlišný předchozí konjugát pro neznámý průměr a rozptyl, ale s pevným lineárním vztahem mezi nimi, se nachází v normální odchylka-střední směs, s generalizovaná inverzní Gaussian jako distribuce míchání konjugátu.
^ ${ displaystyle operatorname {CG} ()}$ je složená gama distribuce; ${ displaystyle operatorname { beta '} ()}$ tady je zobecněná distribuce beta prime.

Reference

^ Howard Raiffa a Robert Schlaifer. Aplikovaná teorie statistického rozhodování. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
^ Jeff Miller a kol. Nejstarší známá použití některých slov matematiky, "konjugovat předchozí distribuce". Elektronický dokument, revize ze dne 13. listopadu 2005, získaná 2. prosince 2005.
^ Katalog viz Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Rubin, Donald B. (2003). Bayesovská analýza dat (2. vyd.). CRC Press. ISBN 1-58488-388-X.
^ ^A ^b ^C Fink, Daniel (květen 1997). „Kompendium priorit konjugátu“ (PDF). CiteSeerX 10.1.1.157.5540. Archivovány od originál (PDF) 29. května 2009.
^ ^A ^b ^C ^d ^E ^F ^G ^h ⁱ ^j ^k ^l ^m Murphy, Kevin P. (2007), Konjugovaná Bayesiánská analýza Gaussova rozdělení (PDF)
^ Statistické strojové učení, Han Liu a Larry Wasserman, 2014, str. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf

[posterior-hyperparameters-4] A ^b Označeno stejnými symboly jako předchozí hyperparametry s přidanými prvočísly ('). Například ${ displaystyle alpha}$ je označen ${ displaystyle alpha '}$

[postpred-5] To je zadní prediktivní distribuce nového datového bodu ${ displaystyle { tilde {x}}}$ vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů.

[beta-interp-6] A ^b ^C ^d ^E ^F ^G Přesná interpretace parametrů a beta distribuce pokud jde o počet úspěchů a neúspěchů, záleží na tom, jaká funkce se použije k získání bodového odhadu z distribuce. Průměr distribuce beta je ${ displaystyle { frac { alpha} { alpha + beta}},}$ což odpovídá ${ displaystyle alpha}$ úspěchy a ${ displaystyle beta}$ selhání, zatímco režim je ${ displaystyle { frac { alfa -1} { alpha + beta -2}},}$ což odpovídá ${ displaystyle alpha -1}$ úspěchy a ${ displaystyle beta -1}$ selhání. Bayesians obecně raději používat zadní průměr spíše než zadní režim jako bodový odhad, odůvodněný kvadratickou ztrátovou funkcí, a použití ${ displaystyle alpha}$ a ${ displaystyle beta}$ je pohodlnější matematicky, zatímco použití ${ displaystyle alpha -1}$ a ${ displaystyle beta -1}$ má tu výhodu, že uniformu ${ displaystyle { rm {Beta}} (1,1)}$ prior odpovídá 0 úspěchům a 0 poruchám. Stejné problémy platí pro Dirichletova distribuce.

[beta_rate-7] A ^b ^C β je míra nebo inverzní stupnice. V parametrizaci gama distribuce,θ = 1/β a k = α.

[ppredNt-9] To je zadní prediktivní distribuce nového datového bodu ${ displaystyle { tilde {x}}}$ vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů. ${ displaystyle { mathcal {N}}}$ a ${ displaystyle t_ {n}}$ odkazovat na normální distribuce a Studentova t-distribuce, respektive, nebo vícerozměrné normální rozdělení a vícerozměrná t-distribuce ve vícerozměrných případech.

[beta_scale-11] Z hlediska inverzní gama, ${ displaystyle beta}$ je parametr měřítka

[12] Odlišný předchozí konjugát pro neznámý průměr a rozptyl, ale s pevným lineárním vztahem mezi nimi, se nachází v normální odchylka-střední směs, s generalizovaná inverzní Gaussian jako distribuce míchání konjugátu.

[CG-14] ${ displaystyle operatorname {CG} ()}$ je složená gama distribuce; ${ displaystyle operatorname { beta '} ()}$ tady je zobecněná distribuce beta prime.

[raiffa_schlaifer-1] Howard Raiffa a Robert Schlaifer. Aplikovaná teorie statistického rozhodování. Division of Research, Graduate School of Business Administration, Harvard University, 1961.

[miller-2] Jeff Miller a kol. Nejstarší známá použití některých slov matematiky, "konjugovat předchozí distribuce". Elektronický dokument, revize ze dne 13. listopadu 2005, získaná 2. prosince 2005.

[gelman_et_al-3] Katalog viz Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Rubin, Donald B. (2003). Bayesovská analýza dat (2. vyd.). CRC Press. ISBN 1-58488-388-X.

[Fink-8] A ^b ^C Fink, Daniel (květen 1997). „Kompendium priorit konjugátu“ (PDF). CiteSeerX 10.1.1.157.5540. Archivovány od originál (PDF) 29. května 2009.

[murphy-10] A ^b ^C ^d ^E ^F ^G ^h ⁱ ^j ^k ^l ^m Murphy, Kevin P. (2007), Konjugovaná Bayesiánská analýza Gaussova rozdělení (PDF)

[13] Statistické strojové učení, Han Liu a Larry Wasserman, 2014, str. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf

[1]

[2]

[3]

[poznámka 1]

[poznámka 2]

[Poznámka 3]

[poznámka 4]

[4]

[poznámka 5]

[5]

[poznámka 6]

[poznámka 7]

[6]

[poznámka 8]