Konjugujte před - Conjugate prior

v Bayesovská pravděpodobnost teorie, pokud zadní distribuce p(θ | X) jsou stejné pravděpodobnostní distribuční rodina jako předchozí rozdělení pravděpodobnosti p(θ), jsou volány předchozí a zadní konjugované distribuce, a předchozí se nazývá a před konjugátem pro funkce pravděpodobnosti p(x | θ). Například Gaussian rodina je konjugovaná sama se sebou (nebo vlastní konjugát) s ohledem na Gaussovu pravděpodobnostní funkci: je-li pravděpodobnostní funkce Gaussian, výběr Gaussianovy priority před střední hodnotou zajistí, že zadní rozdělení bude také Gaussian. To znamená, že Gaussovo rozdělení je konjugát před pravděpodobností, která je také Gaussova. Koncept, stejně jako pojem „před konjugátem“, představil Howard Raiffa a Robert Schlaifer ve své práci na Bayesovská teorie rozhodování.[1] Podobný koncept objevil nezávisle George Alfred Barnard.[2]

Uvažujme o obecném problému odvození (spojitého) rozdělení parametru θ vzhledem k určitému datu nebo datům X. Z Bayesova věta, zadní distribuce se rovná součinu funkce pravděpodobnosti a předchozí , normalizováno (děleno) pravděpodobností dat :

Nechť je funkce pravděpodobnosti považována za pevnou; funkce pravděpodobnosti je obvykle dobře určena z prohlášení o procesu generování dat[potřebný příklad ]. Je jasné, že různé možnosti předchozí distribuce p(θ) může integrál více či méně obtížně vypočítat a produkt p(X|θ) × p(θ) může mít jednu nebo druhou algebraickou formu. Pro určité volby předchozího má zadní část stejnou algebraickou formu jako předchozí (obvykle s různými hodnotami parametrů). Taková volba je a před konjugátem.

Konjugát prior je algebraické pohodlí, dávající a uzavřený výraz pro zadní; v opačném případě numerická integrace může být nutné. Dále, konjugované priority mohou dát intuici tím, že transparentněji ukazují, jak funkce pravděpodobnosti aktualizuje předchozí distribuci.

Všichni členové exponenciální rodina mít předchůdce konjugátu.[3]

Příklad

Formu předchozího konjugátu lze obecně zjistit kontrolou hustota pravděpodobnosti nebo funkce pravděpodobnostní hmotnosti distribuce. Zvažte například a náhodná proměnná který se skládá z počtu úspěchů v Bernoulliho zkoušky s neznámou pravděpodobností úspěchu v [0,1]. Tato náhodná proměnná bude následovat binomická distribuce, s pravděpodobnostní hromadnou funkcí formuláře

Obvyklý předchozí konjugát je beta distribuce s parametry (, ):

kde a jsou vybrány tak, aby odrážely jakoukoli existující víru nebo informace ( = 1 a = 1 by dal a rovnoměrné rozdělení ) a Β() je Funkce Beta jednající jako normalizační konstanta.

V tomto kontextu, a jsou nazývány hyperparametry (parametry předchozího), aby se odlišily od parametrů základního modelu (zde q). Typickým znakem konjugovaných předků je, že rozměrnost hyperparametrů je o jednu větší než u parametrů původní distribuce. Pokud jsou všechny parametry skalární hodnoty, znamená to, že bude o jeden hyperparametr více než parametr; ale to platí i pro parametry s vektorovou a maticovou hodnotou. (Viz obecný článek o exponenciální rodina, a zvažte také Wishart distribuce, konjugovat před kovarianční matice a vícerozměrné normální rozdělení, například v případě velké dimenze.)

Pokud potom vybereme tuto náhodnou proměnnou a dostaneme s úspěchy a F selhání, máme

což je další distribuce Beta s parametry ( + s, + F). Tato zadní distribuce by pak mohla být použita jako předchozí pro více vzorků, přičemž hyperparametry jednoduše přidaly každou další informaci, jak přichází.

Pseudo pozorování

Často je užitečné považovat hyperparametry konjugované předchozí distribuce za odpovídající pozorování určitého počtu pseudo pozorování s vlastnostmi určenými parametry. Například hodnoty a a beta distribuce lze považovat za odpovídající úspěchy a - selhání, pokud je k výběru optimálního nastavení parametrů použit zadní režim, nebo úspěchy a selhání, pokud se k výběru optimálního nastavení parametrů použije zadní průměr. Obecně platí, že pro téměř všechny předchozí distribuce konjugátu lze hyperparametry interpretovat pomocí pseudo pozorování. To může pomoci jak při poskytování intuice za často chaotickými aktualizačními rovnicemi, tak při výběru rozumných hyperparametrů pro předchozí.

Výklady

Analogie s vlastními funkcemi[Citace je zapotřebí ]

Konjugované priority jsou analogické k vlastní funkce v teorie operátorů, v tom, že se jedná o distribuce, na které „operátor klimatizace“ působí dobře srozumitelným způsobem a myslí na proces změny z předchozího na zadní jako operátora.

V obou vlastních funkcích a předchůdcích konjugátu existuje a konečně-dimenzionální prostor, který je zachován operátorem: výstup má stejnou formu (ve stejném prostoru) jako vstup. To značně zjednodušuje analýzu, protože jinak uvažuje o nekonečně dimenzionálním prostoru (prostor všech funkcí, prostor všech distribucí).

Procesy jsou však pouze analogické, ne identické: podmínění není lineární, protože prostor distribucí není uzavřen lineární kombinace, pouze konvexní kombinace a zadní je pouze stejné formulář jako předchozí, nikoli skalární násobek.

Stejně jako lze snadno analyzovat, jak se lineární kombinace vlastních funkcí vyvíjí při použití operátoru (protože s ohledem na tyto funkce je operátor diagonalizováno ), lze snadno analyzovat, jak se konvexní kombinace konjugovaných předků vyvíjí při kondicionování; nazývá se to pomocí a hyperprior, a odpovídá použití a hustota směsi spíše než jediného předchozího konjugátu.

Dynamický systém

Jeden může myslet na podmíněnost konjugovaných předchůdců jako definování druhu (diskrétního času) dynamický systém: z dané sady hyperparametrů příchozí data tyto hyperparametry aktualizují, takže změnu hyperparametrů lze vnímat jako jakýsi „časový vývoj“ systému, odpovídající „učení“. Počínaje různými body se v průběhu času získají různé toky. To je opět analogické s dynamickým systémem definovaným lineárním operátorem, ale všimněte si, že jelikož různé vzorky vedou k různým závěrům, nezávisí to jen na čase, ale spíše na datech v čase. Související přístupy viz Rekurzivní Bayesiánský odhad a Asimilace dat.

Praktický příklad

Předpokládejme, že ve vašem městě funguje autopůjčovna. Řidiči mohou odjet a vyzvednout si auta kdekoli uvnitř městských omezení. Auta můžete najít a pronajmout pomocí aplikace.

Předpokládejme, že chcete zjistit pravděpodobnost, že v kteroukoli denní dobu najdete půjčené auto v krátké vzdálenosti od adresy bydliště.

Během tří dnů se podíváte na aplikaci v náhodných časech dne a v krátké vzdálenosti od adresy bydliště najdete následující počet aut:

Pokud předpokládáme, že data pocházejí z a Poissonovo rozdělení, můžeme vypočítat maximální pravděpodobnost odhad parametrů modelu, který je Pomocí tohoto odhadu maximální pravděpodobnosti můžeme vypočítat pravděpodobnost, že bude k dispozici alespoň jedno auto:

Toto je Poissonovo rozdělení the s největší pravděpodobností vygenerovala pozorovaná data . Data však mohla pocházet také z jiné Poissonovy distribuce, např. jeden s nebo Ve skutečnosti existuje nekonečné množství poissonových distribucí mohl generovali pozorovaná data a s relativně malým počtem datových bodů bychom si měli být docela jisti, které přesné rozdělení poissonu tato data vygenerovalo. Intuitivně bychom místo toho měli vzít vážený průměr pravděpodobnosti pro každou z těchto Poissonových distribucí, váženou podle toho, jak je pravděpodobné, vzhledem k datům, která jsme pozorovali .

Obecně je toto množství známé jako zadní prediktivní distribuce kde je nový datový bod, jsou pozorované údaje a jsou parametry modelu. Použitím Bayesova věta můžeme se rozšířit takhle Obecně je tento integrál těžko vypočítatelný. Pokud však zvolíte konjugát před distribucí , lze odvodit uzavřený výraz. Toto je zadní prediktivní sloupec v níže uvedených tabulkách.

Vrátíme-li se k našemu příkladu, vybereme-li Distribuce gama jako naše předchozí distribuce nad rychlostí poissonových distribucí, pak zadní predikce je negativní binomické rozdělení jak je patrné z posledního sloupce v tabulce níže. Distribuce gama je parametrizována dvěma hyperparametry které si musíme vybrat. Při pohledu na grafy rozdělení gama vybereme , což se zdá být rozumným předpokladem pro průměrný počet automobilů. Volba předchozích hyperparametrů je ve své podstatě subjektivní a vychází z předchozích znalostí.

Vzhledem k předchozím hyperparametrům a můžeme vypočítat zadní hyperparametry a

Vzhledem k zadním hyperparametrům můžeme konečně vypočítat zadní predikci

Tento mnohem konzervativnější odhad odráží nejistotu v parametrech modelu, kterou bere v úvahu zadní predikce.

Tabulka distribucí konjugátů

Nechat n označte počet pozorování. Ve všech níže uvedených případech se předpokládá, že se jedná o data n bodů (který bude náhodné vektory ve vícerozměrných případech).

Pokud funkce pravděpodobnosti patří k exponenciální rodina, potom existuje konjugát před, často také v exponenciální rodině; vidět Exponenciální rodina: Konjugované distribuce.

Když je funkce pravděpodobnosti diskrétní distribuce

PravděpodobnostParametry modeluKonjugujte předchozí distribuciPředchozí hyperparametryZadní hyperparametry[poznámka 1]Interpretace hyperparametrůZadní prediktivní[poznámka 2]
Bernoullip (pravděpodobnost)Beta úspěchy, selhání[Poznámka 3]
Binomickýp (pravděpodobnost)Beta úspěchy, selhání[Poznámka 3]
(beta-binomický )
Negativní binomický
se známým číslem poruchy, r
p (pravděpodobnost)Beta celkové úspěchy, selhání[Poznámka 3] (tj., experimenty, za předpokladu zůstává fixní)

(beta-negativní binomický)

jedλ (hodnotit)Gama celkový výskyt v intervaly
(negativní binomický )
[poznámka 4] celkový výskyt v intervaly
(negativní binomický )
Kategorickýp (vektor pravděpodobnosti), k (počet kategorií; tj. velikost p)Dirichlet kde je počet pozorování v kategorii i výskyty kategorie [Poznámka 3]
Multinomiálníp (vektor pravděpodobnosti), k (počet kategorií; tj. velikost p)Dirichlet výskyty kategorie [Poznámka 3]
(Dirichlet-multinomiální )
Hypergeometrické
se známou celkovou velikostí populace, N
M (počet cílových členů)Beta-binomický[4] úspěchy, selhání[Poznámka 3]
Geometrickýp0 (pravděpodobnost)Beta experimenty, totální selhání[Poznámka 3]

Když je funkce pravděpodobnosti spojitá distribuce

PravděpodobnostParametry modeluKonjugujte předchozí distribuciPředchozí hyperparametryZadní hyperparametry[poznámka 1]Interpretace hyperparametrůZadní prediktivní[poznámka 5]
Normální
se známou odchylkou σ2
μ (znamenat)Normálníprůměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a s průměrem vzorku [5]
Normální
se známou přesností τ
μ (znamenat)Normálníprůměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a s průměrem vzorku [5]
Normální
se známým průměrem μ
σ2 (odchylka)Inverzní gama [poznámka 6]odchylka byla odhadnuta z pozorování s rozptylem vzorku (tj. se součtem čtvercové odchylky , kde jsou odchylky od známého průměru )[5]
Normální
se známým průměrem μ
σ2 (odchylka)Škálovaný inverzní chi-kvadrátodchylka byla odhadnuta z pozorování s rozptylem vzorku [5]
Normální
se známým průměrem μ
τ (přesnost)Gama[poznámka 4]přesnost byla odhadnuta z pozorování s rozptylem vzorku (tj. se součtem čtvercové odchylky , kde jsou odchylky od známého průměru )[5]
Normální[poznámka 7]μ a σ2
Za předpokladu zaměnitelnost
Normálně inverzní gama
  • je průměr vzorku
průměr byl odhadnut z pozorování s průměrem vzorku ; odchylka byla odhadnuta z pozorování s průměrem vzorku a součet čtvercové odchylky [5]
Normálníμ a τ
Za předpokladu zaměnitelnost
Normální gama
  • je průměr vzorku
průměr byl odhadnut z pozorování s průměrem vzorku a přesnost byla odhadnuta z pozorování s průměrem vzorku a součet čtvercové odchylky [5]
Vícerozměrné normální se známou kovarianční maticí Σμ (střední vektor)Vícerozměrné normální
  • je průměr vzorku
průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a se střední hodnotou vzorku [5]
Vícerozměrné normální se známou přesnou maticí Λμ (střední vektor)Vícerozměrné normální
  • je průměr vzorku
průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a s průměrem vzorku [5]
Vícerozměrné normální se známým průměrem μΣ (kovarianční matice)Inverse-Wishartkovarianční matice byla odhadnuta z pozorování se součtem produktů párových odchylek [5]
Vícerozměrné normální se známým průměrem μΛ (přesná matice)Wishartkovarianční matice byla odhadnuta z pozorování se součtem produktů párových odchylek [5]
Vícerozměrné normálníμ (střední vektor) a Σ (kovarianční matice)normální-inverzní-Wishart
  • je průměr vzorku
průměr byl odhadnut z pozorování s průměrem vzorku ; kovarianční matice byla odhadnuta z pozorování s průměrem vzorku a se součtem produktů párových odchylek [5]
Vícerozměrné normálníμ (střední vektor) a Λ (přesná matice)normální-Wishart
  • je průměr vzorku
průměr byl odhadnut z pozorování s průměrem vzorku ; kovarianční matice byla odhadnuta z pozorování s průměrem vzorku a se součtem produktů párových odchylek [5]
JednotnýPareto pozorování s maximální hodnotou
Pareto
se známým minimem Xm
k (tvar)Gama pozorování se součtem z řádově každého pozorování (tj. logaritmus poměru každého pozorování k minimu )
Weibulle
se známým tvarem β
θ (měřítko)Inverzní gama[4] pozorování se součtem z β 'síla každého pozorování
Log-normálníStejné jako u normálního rozdělení po umocnění dat
Exponenciálníλ (hodnotit)Gama [poznámka 4] pozorování, která součet [6]
(Distribuce Lomax )
Gama
se známým tvarem α
β (hodnotit)Gama pozorování se součtem [poznámka 8]
Inverzní gama
se známým tvarem α
β (inverzní stupnice)Gama pozorování se součtem
Gama
se známou rychlostí β
α (tvar) nebo pozorování ( pro odhad , pro odhad ) s produktem
Gama [4]α (tvar), β (inverzní stupnice) bylo odhadnuto z pozorování u produktu ; bylo odhadnuto z pozorování se součtem

Viz také

Poznámky

  1. ^ A b Označeno stejnými symboly jako předchozí hyperparametry s přidanými prvočísly ('). Například je označen
  2. ^ To je zadní prediktivní distribuce nového datového bodu vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů.
  3. ^ A b C d E F G Přesná interpretace parametrů a beta distribuce pokud jde o počet úspěchů a neúspěchů, záleží na tom, jaká funkce se použije k získání bodového odhadu z distribuce. Průměr distribuce beta je což odpovídá úspěchy a selhání, zatímco režim je což odpovídá úspěchy a selhání. Bayesians obecně raději používat zadní průměr spíše než zadní režim jako bodový odhad, odůvodněný kvadratickou ztrátovou funkcí, a použití a je pohodlnější matematicky, zatímco použití a má tu výhodu, že uniformu prior odpovídá 0 úspěchům a 0 poruchám. Stejné problémy platí pro Dirichletova distribuce.
  4. ^ A b C β je míra nebo inverzní stupnice. V parametrizaci gama distribuce,θ = 1/β a k = α.
  5. ^ To je zadní prediktivní distribuce nového datového bodu vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů. a odkazovat na normální distribuce a Studentova t-distribuce, respektive, nebo vícerozměrné normální rozdělení a vícerozměrná t-distribuce ve vícerozměrných případech.
  6. ^ Z hlediska inverzní gama, je parametr měřítka
  7. ^ Odlišný předchozí konjugát pro neznámý průměr a rozptyl, ale s pevným lineárním vztahem mezi nimi, se nachází v normální odchylka-střední směs, s generalizovaná inverzní Gaussian jako distribuce míchání konjugátu.
  8. ^ je složená gama distribuce; tady je zobecněná distribuce beta prime.

Reference

  1. ^ Howard Raiffa a Robert Schlaifer. Aplikovaná teorie statistického rozhodování. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
  2. ^ Jeff Miller a kol. Nejstarší známá použití některých slov matematiky, "konjugovat předchozí distribuce". Elektronický dokument, revize ze dne 13. listopadu 2005, získaná 2. prosince 2005.
  3. ^ Katalog viz Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Rubin, Donald B. (2003). Bayesovská analýza dat (2. vyd.). CRC Press. ISBN  1-58488-388-X.
  4. ^ A b C Fink, Daniel (květen 1997). „Kompendium priorit konjugátu“ (PDF). CiteSeerX  10.1.1.157.5540. Archivovány od originál (PDF) 29. května 2009.
  5. ^ A b C d E F G h i j k l m Murphy, Kevin P. (2007), Konjugovaná Bayesiánská analýza Gaussova rozdělení (PDF)
  6. ^ Statistické strojové učení, Han Liu a Larry Wasserman, 2014, str. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf