Langevinův algoritmus upravený podle metropole - Metropolis-adjusted Langevin algorithm
v výpočetní statistika, Langevinův algoritmus upravený metropolí (MALA) nebo Langevin Monte Carlo (LMC) je Markovský řetězec Monte Carlo (MCMC) metoda získávání náhodné vzorky - sekvence náhodných pozorování - z a rozdělení pravděpodobnosti pro které je přímý odběr vzorků obtížný. Jak název napovídá, MALA používá kombinaci dvou mechanismů ke generování stavů a náhodná procházka který má cílové rozdělení pravděpodobnosti jako invariantní míra:
- nové státy se navrhují pomocí (přehnané ) Langevinova dynamika, které využívají hodnocení spád cíle funkce hustoty pravděpodobnosti;
- tyto návrhy jsou přijímány nebo odmítány pomocí Algoritmus Metropolis – Hastings, která využívá vyhodnocení cílové hustoty pravděpodobnosti (nikoli však její gradient).
Langevinova dynamika neformálně řídí náhodné procházky směrem k regionům s vysokou pravděpodobností ve způsobu gradientního toku, zatímco mechanismus přijetí / odmítnutí Metropolis – Hastings zlepšuje vlastnosti míchání a konvergence této náhodné procházky. MALA byla původně navržena Julian Besag v roce 1994,[1] a jeho vlastnosti byly podrobně prozkoumány Gareth Roberts dohromady s Richard Tweedie[2] a Jeff Rosenthal.[3] Od té doby bylo zavedeno mnoho variací a vylepšení, např. the potrubí varianta Girolami a Calderhead (2011).[4] Metoda je ekvivalentní použití Hamiltonské Monte Carlo algoritmus pouze s jediným diskrétním časovým krokem.[4]
Více podrobností
Nechat označit funkci hustoty pravděpodobnosti na , z nichž je žádoucí čerpat soubor nezávislé a identicky distribuované Vzorky. Uvažujeme o přehnaném Langevinovi Je to difúze
poháněn časovou derivací standardu Brownův pohyb . (Všimněte si, že další běžně používaná normalizace pro tuto difúzi je
který generuje stejnou dynamiku.) V limitu jako , toto rozdělení pravděpodobnosti z se blíží stacionární distribuci, která je také neměnná pod difúzí, kterou označujeme . Ukazuje se, že ve skutečnosti .
Přibližné cesty vzorku Langevinovy difúze lze generovat mnoha metodami diskrétního času. Jedním z nejjednodušších je Metoda Euler – Maruyama s pevným časovým krokem . Jsme si stanovili a poté rekurzivně definovat aproximaci ke skutečnému řešení podle
kde každý je nezávislé losování z a vícerozměrné normální rozdělení na s znamenat 0 a kovarianční matice rovná se matice identity. Všimněte si, že je normálně distribuován se střední hodnotou a kovariance rovna krát matice identity.
Na rozdíl od metody Euler – Maruyama pro simulaci Langevinovy difuze, která se vždy aktualizuje podle pravidla aktualizace
MALA zahrnuje další krok. Výše uvedené pravidlo aktualizace považujeme za definování a návrh pro nový stát,
Tento návrh je přijat nebo odmítnut podle sady algoritmů Metropolis-Hastings: set
kde
je hustota pravděpodobnosti přechodu z na (Všimněte si, že obecně ). Nechat být čerpány z kontinuální rovnoměrné rozdělení na intervalu . Li , pak je návrh přijat a my jsme stanovili ; jinak je návrh zamítnut a my jsme nastavili .
Kombinovaná dynamika Langevinovy difúze a algoritmu Metropolis – Hastings uspokojuje podrobný zůstatek podmínky nezbytné pro existenci jedinečného, neměnného, stacionárního rozdělení . Ve srovnání s naivní Metropolis – Hastings má MALA tu výhodu, že obvykle navrhuje přesun do vyšších oblastí pravděpodobnost, které pak budou s větší pravděpodobností přijaty. Na druhou stranu, když je silně anizotropní (tj. v některých směrech se mění mnohem rychleji než v jiných), je třeba se řídit za účelem správného zachycení Langevinovy dynamiky; použití pozitivního-definitivního předběžná úprava matice může pomoci zmírnit tento problém generováním návrhů podle
aby má průměr a kovariance .
V praktických aplikacích je optimální míra přijetí pro tento algoritmus ; pokud se zjistí, že je podstatně odlišný, by měl být odpovídajícím způsobem upraven.[3]
Reference
- ^ J. Besag (1994). "Komentáře k" Reprezentaci znalostí ve složitých systémech "od U. Grenandera a MI Millera." Journal of the Royal Statistical Society, Series B. 56: 591–592.
- ^ G. O. Roberts a R. L. Tweedie (1996). "Exponenciální konvergence Langevinových distribucí a jejich diskrétních aproximací". Bernoulli. 2 (4): 341–363. doi:10.2307/3318418. JSTOR 3318418.
- ^ A b G. O. Roberts a J. S. Rosenthal (1998). "Optimální škálování diskrétních aproximací na Langevinovy difuze". Journal of the Royal Statistical Society, Series B. 60 (1): 255–268. doi:10.1111/1467-9868.00123.
- ^ A b M. Girolami a B. Calderhead (2011). "Riemanské potrubí, metody Langevin a Hamiltonian Monte Carlo". Journal of the Royal Statistical Society, Series B. 73 (2): 123–214. CiteSeerX 10.1.1.190.580. doi:10.1111 / j.1467-9868.2010.00765.x.