Konjugujte před - Conjugate prior
v Bayesovská pravděpodobnost teorie, pokud zadní distribuce p(θ | X) jsou stejné pravděpodobnostní distribuční rodina jako předchozí rozdělení pravděpodobnosti p(θ), jsou volány předchozí a zadní konjugované distribuce, a předchozí se nazývá a před konjugátem pro funkce pravděpodobnosti p(x | θ). Například Gaussian rodina je konjugovaná sama se sebou (nebo vlastní konjugát) s ohledem na Gaussovu pravděpodobnostní funkci: je-li pravděpodobnostní funkce Gaussian, výběr Gaussianovy priority před střední hodnotou zajistí, že zadní rozdělení bude také Gaussian. To znamená, že Gaussovo rozdělení je konjugát před pravděpodobností, která je také Gaussova. Koncept, stejně jako pojem „před konjugátem“, představil Howard Raiffa a Robert Schlaifer ve své práci na Bayesovská teorie rozhodování.[1] Podobný koncept objevil nezávisle George Alfred Barnard.[2]
Uvažujme o obecném problému odvození (spojitého) rozdělení parametru θ vzhledem k určitému datu nebo datům X. Z Bayesova věta, zadní distribuce se rovná součinu funkce pravděpodobnosti a předchozí , normalizováno (děleno) pravděpodobností dat :
Nechť je funkce pravděpodobnosti považována za pevnou; funkce pravděpodobnosti je obvykle dobře určena z prohlášení o procesu generování dat[potřebný příklad ]. Je jasné, že různé možnosti předchozí distribuce p(θ) může integrál více či méně obtížně vypočítat a produkt p(X|θ) × p(θ) může mít jednu nebo druhou algebraickou formu. Pro určité volby předchozího má zadní část stejnou algebraickou formu jako předchozí (obvykle s různými hodnotami parametrů). Taková volba je a před konjugátem.
Konjugát prior je algebraické pohodlí, dávající a uzavřený výraz pro zadní; v opačném případě numerická integrace může být nutné. Dále, konjugované priority mohou dát intuici tím, že transparentněji ukazují, jak funkce pravděpodobnosti aktualizuje předchozí distribuci.
Všichni členové exponenciální rodina mít předchůdce konjugátu.[3]
Příklad
Formu předchozího konjugátu lze obecně zjistit kontrolou hustota pravděpodobnosti nebo funkce pravděpodobnostní hmotnosti distribuce. Zvažte například a náhodná proměnná který se skládá z počtu úspěchů v Bernoulliho zkoušky s neznámou pravděpodobností úspěchu v [0,1]. Tato náhodná proměnná bude následovat binomická distribuce, s pravděpodobnostní hromadnou funkcí formuláře
Obvyklý předchozí konjugát je beta distribuce s parametry (, ):
kde a jsou vybrány tak, aby odrážely jakoukoli existující víru nebo informace ( = 1 a = 1 by dal a rovnoměrné rozdělení ) a Β(, ) je Funkce Beta jednající jako normalizační konstanta.
V tomto kontextu, a jsou nazývány hyperparametry (parametry předchozího), aby se odlišily od parametrů základního modelu (zde q). Typickým znakem konjugovaných předků je, že rozměrnost hyperparametrů je o jednu větší než u parametrů původní distribuce. Pokud jsou všechny parametry skalární hodnoty, znamená to, že bude o jeden hyperparametr více než parametr; ale to platí i pro parametry s vektorovou a maticovou hodnotou. (Viz obecný článek o exponenciální rodina, a zvažte také Wishart distribuce, konjugovat před kovarianční matice a vícerozměrné normální rozdělení, například v případě velké dimenze.)
Pokud potom vybereme tuto náhodnou proměnnou a dostaneme s úspěchy a F selhání, máme
což je další distribuce Beta s parametry ( + s, + F). Tato zadní distribuce by pak mohla být použita jako předchozí pro více vzorků, přičemž hyperparametry jednoduše přidaly každou další informaci, jak přichází.
Pseudo pozorování
Často je užitečné považovat hyperparametry konjugované předchozí distribuce za odpovídající pozorování určitého počtu pseudo pozorování s vlastnostmi určenými parametry. Například hodnoty a a beta distribuce lze považovat za odpovídající úspěchy a - selhání, pokud je k výběru optimálního nastavení parametrů použit zadní režim, nebo úspěchy a selhání, pokud se k výběru optimálního nastavení parametrů použije zadní průměr. Obecně platí, že pro téměř všechny předchozí distribuce konjugátu lze hyperparametry interpretovat pomocí pseudo pozorování. To může pomoci jak při poskytování intuice za často chaotickými aktualizačními rovnicemi, tak při výběru rozumných hyperparametrů pro předchozí.
Výklady
Analogie s vlastními funkcemi[Citace je zapotřebí ]
Konjugované priority jsou analogické k vlastní funkce v teorie operátorů, v tom, že se jedná o distribuce, na které „operátor klimatizace“ působí dobře srozumitelným způsobem a myslí na proces změny z předchozího na zadní jako operátora.
V obou vlastních funkcích a předchůdcích konjugátu existuje a konečně-dimenzionální prostor, který je zachován operátorem: výstup má stejnou formu (ve stejném prostoru) jako vstup. To značně zjednodušuje analýzu, protože jinak uvažuje o nekonečně dimenzionálním prostoru (prostor všech funkcí, prostor všech distribucí).
Procesy jsou však pouze analogické, ne identické: podmínění není lineární, protože prostor distribucí není uzavřen lineární kombinace, pouze konvexní kombinace a zadní je pouze stejné formulář jako předchozí, nikoli skalární násobek.
Stejně jako lze snadno analyzovat, jak se lineární kombinace vlastních funkcí vyvíjí při použití operátoru (protože s ohledem na tyto funkce je operátor diagonalizováno ), lze snadno analyzovat, jak se konvexní kombinace konjugovaných předků vyvíjí při kondicionování; nazývá se to pomocí a hyperprior, a odpovídá použití a hustota směsi spíše než jediného předchozího konjugátu.
Dynamický systém
Jeden může myslet na podmíněnost konjugovaných předchůdců jako definování druhu (diskrétního času) dynamický systém: z dané sady hyperparametrů příchozí data tyto hyperparametry aktualizují, takže změnu hyperparametrů lze vnímat jako jakýsi „časový vývoj“ systému, odpovídající „učení“. Počínaje různými body se v průběhu času získají různé toky. To je opět analogické s dynamickým systémem definovaným lineárním operátorem, ale všimněte si, že jelikož různé vzorky vedou k různým závěrům, nezávisí to jen na čase, ale spíše na datech v čase. Související přístupy viz Rekurzivní Bayesiánský odhad a Asimilace dat.
Praktický příklad
Předpokládejme, že ve vašem městě funguje autopůjčovna. Řidiči mohou odjet a vyzvednout si auta kdekoli uvnitř městských omezení. Auta můžete najít a pronajmout pomocí aplikace.
Předpokládejme, že chcete zjistit pravděpodobnost, že v kteroukoli denní dobu najdete půjčené auto v krátké vzdálenosti od adresy bydliště.
Během tří dnů se podíváte na aplikaci v náhodných časech dne a v krátké vzdálenosti od adresy bydliště najdete následující počet aut:
Pokud předpokládáme, že data pocházejí z a Poissonovo rozdělení, můžeme vypočítat maximální pravděpodobnost odhad parametrů modelu, který je Pomocí tohoto odhadu maximální pravděpodobnosti můžeme vypočítat pravděpodobnost, že bude k dispozici alespoň jedno auto:
Toto je Poissonovo rozdělení the s největší pravděpodobností vygenerovala pozorovaná data . Data však mohla pocházet také z jiné Poissonovy distribuce, např. jeden s nebo Ve skutečnosti existuje nekonečné množství poissonových distribucí mohl generovali pozorovaná data a s relativně malým počtem datových bodů bychom si měli být docela jisti, které přesné rozdělení poissonu tato data vygenerovalo. Intuitivně bychom místo toho měli vzít vážený průměr pravděpodobnosti pro každou z těchto Poissonových distribucí, váženou podle toho, jak je pravděpodobné, vzhledem k datům, která jsme pozorovali .
Obecně je toto množství známé jako zadní prediktivní distribuce kde je nový datový bod, jsou pozorované údaje a jsou parametry modelu. Použitím Bayesova věta můžeme se rozšířit takhle Obecně je tento integrál těžko vypočítatelný. Pokud však zvolíte konjugát před distribucí , lze odvodit uzavřený výraz. Toto je zadní prediktivní sloupec v níže uvedených tabulkách.
Vrátíme-li se k našemu příkladu, vybereme-li Distribuce gama jako naše předchozí distribuce nad rychlostí poissonových distribucí, pak zadní predikce je negativní binomické rozdělení jak je patrné z posledního sloupce v tabulce níže. Distribuce gama je parametrizována dvěma hyperparametry které si musíme vybrat. Při pohledu na grafy rozdělení gama vybereme , což se zdá být rozumným předpokladem pro průměrný počet automobilů. Volba předchozích hyperparametrů je ve své podstatě subjektivní a vychází z předchozích znalostí.
Vzhledem k předchozím hyperparametrům a můžeme vypočítat zadní hyperparametry a
Vzhledem k zadním hyperparametrům můžeme konečně vypočítat zadní predikci
Tento mnohem konzervativnější odhad odráží nejistotu v parametrech modelu, kterou bere v úvahu zadní predikce.
Tabulka distribucí konjugátů
Nechat n označte počet pozorování. Ve všech níže uvedených případech se předpokládá, že se jedná o data n bodů (který bude náhodné vektory ve vícerozměrných případech).
Pokud funkce pravděpodobnosti patří k exponenciální rodina, potom existuje konjugát před, často také v exponenciální rodině; vidět Exponenciální rodina: Konjugované distribuce.
Když je funkce pravděpodobnosti diskrétní distribuce
![]() | Tato sekce potřebuje další citace pro ověření.Srpna 2020) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Pravděpodobnost | Parametry modelu | Konjugujte předchozí distribuci | Předchozí hyperparametry | Zadní hyperparametry[poznámka 1] | Interpretace hyperparametrů | Zadní prediktivní[poznámka 2] |
---|---|---|---|---|---|---|
Bernoulli | p (pravděpodobnost) | Beta | úspěchy, selhání[Poznámka 3] | |||
Binomický | p (pravděpodobnost) | Beta | úspěchy, selhání[Poznámka 3] | (beta-binomický ) | ||
Negativní binomický se známým číslem poruchy, r | p (pravděpodobnost) | Beta | celkové úspěchy, selhání[Poznámka 3] (tj., experimenty, za předpokladu zůstává fixní) | |||
jed | λ (hodnotit) | Gama | celkový výskyt v intervaly | (negativní binomický ) | ||
[poznámka 4] | celkový výskyt v intervaly | (negativní binomický ) | ||||
Kategorický | p (vektor pravděpodobnosti), k (počet kategorií; tj. velikost p) | Dirichlet | kde je počet pozorování v kategorii i | výskyty kategorie [Poznámka 3] | ||
Multinomiální | p (vektor pravděpodobnosti), k (počet kategorií; tj. velikost p) | Dirichlet | výskyty kategorie [Poznámka 3] | (Dirichlet-multinomiální ) | ||
Hypergeometrické se známou celkovou velikostí populace, N | M (počet cílových členů) | Beta-binomický[4] | úspěchy, selhání[Poznámka 3] | |||
Geometrický | p0 (pravděpodobnost) | Beta | experimenty, totální selhání[Poznámka 3] |
Když je funkce pravděpodobnosti spojitá distribuce
Pravděpodobnost | Parametry modelu | Konjugujte předchozí distribuci | Předchozí hyperparametry | Zadní hyperparametry[poznámka 1] | Interpretace hyperparametrů | Zadní prediktivní[poznámka 5] | |
---|---|---|---|---|---|---|---|
Normální se známou odchylkou σ2 | μ (znamenat) | Normální | průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a s průměrem vzorku | [5] | |||
Normální se známou přesností τ | μ (znamenat) | Normální | průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a s průměrem vzorku | [5] | |||
Normální se známým průměrem μ | σ2 (odchylka) | Inverzní gama | [poznámka 6] | odchylka byla odhadnuta z pozorování s rozptylem vzorku (tj. se součtem čtvercové odchylky , kde jsou odchylky od známého průměru ) | [5] | ||
Normální se známým průměrem μ | σ2 (odchylka) | Škálovaný inverzní chi-kvadrát | odchylka byla odhadnuta z pozorování s rozptylem vzorku | [5] | |||
Normální se známým průměrem μ | τ (přesnost) | Gama | [poznámka 4] | přesnost byla odhadnuta z pozorování s rozptylem vzorku (tj. se součtem čtvercové odchylky , kde jsou odchylky od známého průměru ) | [5] | ||
Normální[poznámka 7] | μ a σ2 Za předpokladu zaměnitelnost | Normálně inverzní gama |
| průměr byl odhadnut z pozorování s průměrem vzorku ; odchylka byla odhadnuta z pozorování s průměrem vzorku a součet čtvercové odchylky | [5] | ||
Normální | μ a τ Za předpokladu zaměnitelnost | Normální gama |
| průměr byl odhadnut z pozorování s průměrem vzorku a přesnost byla odhadnuta z pozorování s průměrem vzorku a součet čtvercové odchylky | [5] | ||
Vícerozměrné normální se známou kovarianční maticí Σ | μ (střední vektor) | Vícerozměrné normální |
| průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a se střední hodnotou vzorku | [5] | ||
Vícerozměrné normální se známou přesnou maticí Λ | μ (střední vektor) | Vícerozměrné normální |
| průměr byl odhadnut z pozorování s celkovou přesností (součet všech jednotlivých přesností) a s průměrem vzorku | [5] | ||
Vícerozměrné normální se známým průměrem μ | Σ (kovarianční matice) | Inverse-Wishart | kovarianční matice byla odhadnuta z pozorování se součtem produktů párových odchylek | [5] | |||
Vícerozměrné normální se známým průměrem μ | Λ (přesná matice) | Wishart | kovarianční matice byla odhadnuta z pozorování se součtem produktů párových odchylek | [5] | |||
Vícerozměrné normální | μ (střední vektor) a Σ (kovarianční matice) | normální-inverzní-Wishart |
| průměr byl odhadnut z pozorování s průměrem vzorku ; kovarianční matice byla odhadnuta z pozorování s průměrem vzorku a se součtem produktů párových odchylek | [5] | ||
Vícerozměrné normální | μ (střední vektor) a Λ (přesná matice) | normální-Wishart |
| průměr byl odhadnut z pozorování s průměrem vzorku ; kovarianční matice byla odhadnuta z pozorování s průměrem vzorku a se součtem produktů párových odchylek | [5] | ||
Jednotný | Pareto | pozorování s maximální hodnotou | |||||
Pareto se známým minimem Xm | k (tvar) | Gama | pozorování se součtem z řádově každého pozorování (tj. logaritmus poměru každého pozorování k minimu ) | ||||
Weibulle se známým tvarem β | θ (měřítko) | Inverzní gama[4] | pozorování se součtem z β 'síla každého pozorování | ||||
Log-normální | Stejné jako u normálního rozdělení po umocnění dat | ||||||
Exponenciální | λ (hodnotit) | Gama | [poznámka 4] | pozorování, která součet [6] | (Distribuce Lomax ) | ||
Gama se známým tvarem α | β (hodnotit) | Gama | pozorování se součtem | [poznámka 8] | |||
Inverzní gama se známým tvarem α | β (inverzní stupnice) | Gama | pozorování se součtem | ||||
Gama se známou rychlostí β | α (tvar) | nebo pozorování ( pro odhad , pro odhad ) s produktem | |||||
Gama [4] | α (tvar), β (inverzní stupnice) | bylo odhadnuto z pozorování u produktu ; bylo odhadnuto z pozorování se součtem |
Viz také
Poznámky
- ^ A b Označeno stejnými symboly jako předchozí hyperparametry s přidanými prvočísly ('). Například je označen
- ^ To je zadní prediktivní distribuce nového datového bodu vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů.
- ^ A b C d E F G Přesná interpretace parametrů a beta distribuce pokud jde o počet úspěchů a neúspěchů, záleží na tom, jaká funkce se použije k získání bodového odhadu z distribuce. Průměr distribuce beta je což odpovídá úspěchy a selhání, zatímco režim je což odpovídá úspěchy a selhání. Bayesians obecně raději používat zadní průměr spíše než zadní režim jako bodový odhad, odůvodněný kvadratickou ztrátovou funkcí, a použití a je pohodlnější matematicky, zatímco použití a má tu výhodu, že uniformu prior odpovídá 0 úspěchům a 0 poruchám. Stejné problémy platí pro Dirichletova distribuce.
- ^ A b C β je míra nebo inverzní stupnice. V parametrizaci gama distribuce,θ = 1/β a k = α.
- ^ To je zadní prediktivní distribuce nového datového bodu vzhledem k pozorovaným datovým bodům s parametry na okraji společnosti. Proměnné s prvočísly označují zadní hodnoty parametrů. a odkazovat na normální distribuce a Studentova t-distribuce, respektive, nebo vícerozměrné normální rozdělení a vícerozměrná t-distribuce ve vícerozměrných případech.
- ^ Z hlediska inverzní gama, je parametr měřítka
- ^ Odlišný předchozí konjugát pro neznámý průměr a rozptyl, ale s pevným lineárním vztahem mezi nimi, se nachází v normální odchylka-střední směs, s generalizovaná inverzní Gaussian jako distribuce míchání konjugátu.
- ^ je složená gama distribuce; tady je zobecněná distribuce beta prime.
Reference
- ^ Howard Raiffa a Robert Schlaifer. Aplikovaná teorie statistického rozhodování. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
- ^ Jeff Miller a kol. Nejstarší známá použití některých slov matematiky, "konjugovat předchozí distribuce". Elektronický dokument, revize ze dne 13. listopadu 2005, získaná 2. prosince 2005.
- ^ Katalog viz Gelman, Andrew; Carlin, John B .; Stern, Hal S .; Rubin, Donald B. (2003). Bayesovská analýza dat (2. vyd.). CRC Press. ISBN 1-58488-388-X.
- ^ A b C Fink, Daniel (květen 1997). „Kompendium priorit konjugátu“ (PDF). CiteSeerX 10.1.1.157.5540. Archivovány od originál (PDF) 29. května 2009.
- ^ A b C d E F G h i j k l m Murphy, Kevin P. (2007), Konjugovaná Bayesiánská analýza Gaussova rozdělení (PDF)
- ^ Statistické strojové učení, Han Liu a Larry Wasserman, 2014, str. 314: http://www.stat.cmu.edu/~larry/=sml/Bayes.pdf