Zadní prediktivní distribuce - Posterior predictive distribution
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
v Bayesovské statistiky, zadní prediktivní distribuce je rozdělení možných nepozorovaných hodnot podmíněné sledovanými hodnotami.[1][2]
Vzhledem k souboru N i.i.d. pozorování , nová hodnota bude čerpáno z distribuce, která závisí na parametru :
Může se zdát lákavé připojit jediný nejlepší odhad pro , ale to ignoruje nejistotu ohledně , a protože je zdroj nejistoty ignorován, bude předpokládané rozdělení příliš úzké. Extrémní hodnoty dojde častěji, než naznačuje zadní distribuce.
Zadní prediktivní distribuce odpovídá za nejistotu . Zadní rozdělení možné hodnoty závisí na :
A zadní prediktivní distribuce daný se počítá opomíjení distribuce daný nad zadní distribucí daný :
Protože to odpovídá nejistotě ohledně , zadní prediktivní distribuce bude obecně širší než prediktivní distribuce, která zapojí jeden nejlepší odhad pro .
Předchozí a zadní prediktivní rozdělení
The předchozí prediktivní distribuce, v Bayesovském kontextu, je distribuce datového bodu na okraji jeho předchozí distribuce. To je, pokud a , pak předchozí prediktivní distribuce je odpovídající distribuce , kde
To je podobné zadní prediktivní distribuci s tím rozdílem, že marginalizace (nebo ekvivalentně očekávání) je brána s ohledem na předchozí distribuci místo zadní distribuce.
Kromě toho, pokud předchozí distribuce je před konjugátem potom zadní prediktivní distribuce bude patřit do stejné rodiny distribucí jako předchozí prediktivní distribuce. To je snadné vidět. Pokud je předchozí distribuce je tedy konjugovaný
tj. zadní distribuce také patří ale jednoduše s jiným parametrem místo původního parametru Pak,
Zadní prediktivní distribuce tedy sleduje stejnou distribuci H jako předchozí prediktivní distribuce, ale se zadními hodnotami hyperparametrů nahrazených předchozími.
Předchozí prediktivní distribuce je ve formě a složená distribuce, a ve skutečnosti je často zvyklý definovat A složená distribuce, kvůli nedostatku jakýchkoli komplikujících faktorů, jako je závislost na datech a otázka konjugace. Například Studentova t-distribuce může být definovaný jako předchozí prediktivní distribuce a normální distribuce se známým znamenat μ ale neznámý rozptyl σX2, s konjugátem před distribuce v měřítku-inverze-chi-kvadrát umístěno na σX2s hyperparametry ν a σ2. Výsledná distribuce sloučeniny je skutečně nestandardizovaný Studentova t-distribuce, a sleduje jednu ze dvou nejběžnějších parametrizací této distribuce. Potom by odpovídající zadní prediktivní distribuce byla opět Studentova t, s aktualizovanými hyperparametry které se objevují v zadní distribuci, se také přímo objevují v zadní prediktivní distribuci.
V některých případech je vhodná složená distribuce definována pomocí jiné parametrizace, než je ta, která by byla nejpřirozenější pro prediktivní distribuce v aktuálním problému. To často vede k tomu, že předchozí distribuce použitá k definování složené distribuce se liší od předchozí distribuce použité v aktuálním problému. Například, jak je uvedeno výše, Studentova t-distribuce byl definován v pojmech a distribuce v měřítku-inverze-chi-kvadrát umístěn na rozptyl. Je však běžnější používat inverzní rozdělení gama jako konjugát před v této situaci. Ty dva jsou ve skutečnosti ekvivalentní, kromě parametrizace; tudíž Studentovu t-distribuci lze stále použít buď pro prediktivní distribuci, ale hyperparametry musí být před připojením znovu nastaveny.
V exponenciálních rodinách
Většina, ale ne všechny, běžné distribuční rodiny patří do exponenciální rodina distribucí. Exponenciální rodiny mají velké množství užitečných vlastností. Jedním z nich je, že všichni členové mají před konjugátem distribuce - zatímco jen velmi málo dalších distribucí má konjugované předchůdce.
Předchozí prediktivní rozdělení v exponenciálních rodinách
Další užitečnou vlastností je, že funkce hustoty pravděpodobnosti z složená distribuce odpovídající předchozímu prediktivnímu rozdělení an exponenciální rodina rozdělení na okraji společnosti přes jeho před konjugátem distribuci lze určit analyticky. Předpokládat, že je členem exponenciální rodiny s parametrem který je parametrizován podle přirozený parametr a je distribuován jako
zatímco je vhodný předchozí konjugát, distribuovaný jako
Pak předchozí prediktivní distribuce (výsledek složení s ) je
Poslední řádek vyplývá z předchozího rozpoznáním, že funkcí uvnitř integrálu je funkce hustoty náhodné proměnné distribuované jako , kromě normalizace funkce . Výsledkem integrace bude tedy převrácená hodnota normalizační funkce.
Výše uvedený výsledek je nezávislý na volbě parametrizace jako žádný z , a objeví se. ( je funkcí parametru, a proto bude mít různé formy v závislosti na volbě parametrizace.) Pro standardní volby a , je často snazší pracovat přímo s obvyklými parametry než přepisovat pomocí přirozené parametry.
Důvod, proč je integrál přitažlivý, je ten, že zahrnuje výpočet normalizační konstanta hustoty definované produktem a předchozí distribuce a a pravděpodobnost. Když jsou dva sdružené, produkt je a zadní distribuce, a za předpokladu, že je známa normalizační konstanta tohoto rozdělení. Jak je uvedeno výše, funkce hustoty distribuce sloučeniny následuje určitou formu, sestávající z produktu funkce který je součástí funkce hustoty pro , s podílem dvou forem normalizační „konstanty“ pro , jeden je odvozen z předchozí distribuce a druhý ze zadní distribuce. The beta-binomická distribuce je dobrým příkladem toho, jak tento proces funguje.
Navzdory analytické použitelnosti těchto distribucí samy o sobě obvykle nejsou členy exponenciální rodina. Například tři parametry Studentova distribuce, beta-binomická distribuce a Dirichletovo-multinomické rozdělení jsou všechna prediktivní distribuce distribucí exponenciální rodiny ( normální distribuce, binomická distribuce a multinomické distribuce ), ale žádný z nich není členem exponenciální rodiny. To lze vidět výše kvůli přítomnosti funkční závislosti na . V distribuci exponenciální rodiny musí být možné rozdělit celou funkci hustoty na multiplikativní faktory tří typů: (1) faktory obsahující pouze proměnné, (2) faktory obsahující pouze parametry a (3) faktory, jejichž logaritmus faktorizuje mezi proměnnými a parametry. Přítomnost někoho to znemožňuje, pokud funkce „normalizace“ není buď zcela ignoruje odpovídající argument, nebo jej použije pouze v exponentu výrazu.
Zadní prediktivní distribuce v exponenciálních rodinách
Když se používá konjugovaný prior, zadní prediktivní distribuce patří do stejné rodiny jako předchozí prediktivní distribuce a je určena jednoduše zapojením aktualizovaných hyperparametrů pro zadní distribuci parametrů (parametrů) do vzorce pro předchozí prediktivní distribuci . Použití obecné formy zadních aktualizačních rovnic pro distribuce exponenciální rodiny (viz příslušná část v článku exponenciální rodiny ), můžeme napsat explicitní vzorec pro zadní prediktivní rozdělení:
kde
To ukazuje, že zadní prediktivní distribuce řady pozorování v případě, že pozorování následují za exponenciální rodina s příslušným před konjugátem, má stejnou hustotu pravděpodobnosti jako složené rozdělení s parametry, jak je uvedeno výše. Samotná pozorování se zadávají pouze ve formě
Toto se nazývá dostatečná statistika pozorování, protože nám říká vše, co potřebujeme vědět o pozorováních, abychom na jejich základě mohli vypočítat zadní nebo zadní prediktivní distribuci (nebo, cokoli jiného, založeného na pravděpodobnost z pozorování, jako je mezní pravděpodobnost ).
Společné prediktivní rozdělení, mezní pravděpodobnost
Je také možné vzít v úvahu výsledek sloučení společného rozdělení na pevný počet nezávislé identicky distribuované vzorky s předchozí distribucí přes sdílený parametr. V bayesovském prostředí to přichází v různých kontextech: výpočet předchozího nebo zadního prediktivního rozdělení několika nových pozorování a výpočet mezní pravděpodobnost sledovaných údajů (jmenovatel v roce 2006) Bayesův zákon ). Když je distribuce vzorků z exponenciální rodiny a předchozí distribuce je konjugovaná, výsledná distribuce sloučeniny bude spojitelná a bude mít podobnou formu jako výše uvedený výraz. Je snadné ukázat, ve skutečnosti, že společné složené rozdělení sady pro pozorování je
Tento výsledek a výše uvedený výsledek pro jednu sloučeninu se triviálně rozšíří na případ distribuce přes pozorování s vektorovou hodnotou, jako je například vícerozměrná Gaussova distribuce.
Vztah k Gibbsovu vzorkování
Sbalení uzlu v a zhroutil Gibbsův vzorkovač je ekvivalentní k složení. Jako výsledek, když soubor nezávislé identicky distribuované (i.i.d.) uzly všechny závisí na stejném předchozím uzlu a tento uzel je sbalen, výsledný podmíněná pravděpodobnost jednoho uzlu vzhledem k ostatním stejně jako rodičům zhrouceného uzlu (ale není podmínkou pro jiné uzly, např. jakékoli podřízené uzly) je stejné jako zadní prediktivní distribuce všech zbývajících i.i.d. uzly (nebo přesněji dříve uzly i.i.d., protože kolaps zavádí závislosti mezi uzly). To znamená, že je obecně možné implementovat kolaps z uzlu jednoduše připojením všech rodičů uzlu přímo ke všem dětem a nahrazením dřívějšího podmíněného rozdělení pravděpodobnosti spojeného s každým dítětem odpovídajícím zadním prediktivním rozdělením pro dítě podmíněné jeho rodiče a druhý dříve iid uzly, které byly také potomky odstraněného uzlu. Například pro podrobnější diskusi a pro některá upozornění týkající se určitých složitých problémů viz Dirichletovo-multinomické rozdělení článek.
Viz také
Reference
- ^ „Zadní prediktivní distribuce“. SAS. Citováno 19. července 2014.
- ^ Gelman A, Carlin J. B., Stern H. S., Dunson D. B., Vehtari A., Rubin D. B. (2014) Bayesovská analýza dat, Chapman & Hall, str