Zobecněné filtrování - Generalized filtering
Zobecněné filtrování je obecný Bayesovské filtrování schéma pro nelineární stavové modely.[1] Je založen na a variační princip nejmenší akce, formulované do zobecněných souřadnic.[2] Všimněte si, že koncept "zobecněných souřadnic", jak se zde používá, se liší od konceptu zobecněné souřadnice pohybu, jak se používá při (vícebodové) dynamické analýze systémů. Zobecněná filtrace poskytuje zadní hustoty nad skrytými stavy (a parametry) a generuje pozorovaná data pomocí generalizovaného gradientního sestupu na variační volnou energii pod Laplaceův předpoklad. Na rozdíl od klasických (např. Kalman-Bucy nebo částice ) filtrování, generalizované filtrování se vyhýbá markovským předpokladům o náhodných výkyvech. Kromě toho funguje online a asimiluje data, aby se aproximovala zadní hustota nad neznámými veličinami, aniž by bylo nutné provádět zpětný průchod. Zvláštní případy zahrnují variační filtrování,[3] maximalizace dynamického očekávání[4] a zobecněné prediktivní kódování.
Definice
Definice: Obecné filtrování spočívá na n-tice :
- Ukázkový prostor z toho náhodné výkyvy Jsou kresleny
- Kontrolní stavy - které působí jako vnější příčiny, vstupy nebo vynucené výrazy
- Skryté stavy - které způsobují stavy snímače a závisí na stavech řízení
- Stavy senzoru - pravděpodobnostní mapování ze skrytých a kontrolních stavů
- Generativní hustota - přes smyslové, skryté a kontrolní stavy podle generativního modelu
- Variační hustota - přes skryté a kontrolní stavy se střední hodnotou
Zde ~ označuje proměnnou v obecných souřadnicích pohybu:
Zobecněné filtrování
Cílem je aproximovat zadní hustotu nad skrytými a kontrolními stavy, danými stavy senzorů a generativním modelem - a odhadnout (integrál cesty) modelový důkaz porovnat různé modely. To obecně zahrnuje neřešitelnou marginalizaci nad skrytými stavy, takže modelové důkazy (nebo mezní pravděpodobnost) jsou nahrazeny variačně vázanou volnou energií.[5] Vzhledem k následujícím definicím:
Označte Shannonova entropie hustoty podle . Potom můžeme napsat variační volnou energii dvěma způsoby:
Druhá rovnost ukazuje, že minimalizace variační volné energie (i) minimalizuje Kullback-Leiblerova divergence mezi variační a skutečnou zadní hustotou a (ii) činí variační volnou energii (vázanou aproximaci) negativním logickým důkazem (protože divergence nikdy nemůže být menší než nula).[6] Podle Laplaceova předpokladu variační hustota je Gaussova a přesnost, která minimalizuje volnou energii, je . To znamená, že volnou energii lze vyjádřit pomocí variačního průměru [7] (vynechání konstant):
Variační prostředky, které minimalizují (dráhový integrál) volné energie, lze nyní získat řešením zobecněného filtru:
kde je operátor derivace blokové matice identifikačních matic takový, že
Variační základ
Zobecněné filtrování je založeno na následujícím lemmatu: Samo-konzistentní řešení vyhovuje variačnímu princip stacionární činnosti kde akce je dráha integrální variační volné energie
Důkaz: konzistence sebe sama vyžaduje, aby pohyb průměru byl prostředkem pohybu a (podle základní lemma variačního počtu )
Zjednodušeně řečeno, malé poruchy na dráze průměru nemění variační volnou energii a má nejmenší účinek ze všech možných (místních) cest.
Poznámky: Heuristicky generalizované filtrování provádí gradientní sestup na variační volnou energii v pohyblivém referenčním rámci: , kde samotný rám minimalizuje variační volnou energii. Související příklad ve statistické fyzice viz Kerr a Graham [8] kteří používají dynamiku souboru v zobecněných souřadnicích k poskytnutí zobecněné verze Langevina ve fázovém prostoru a souvisejících Fokker-Planckových rovnic.
V praxi se používá zobecněné filtrování místní linearizace [9] v intervalech obnovit diskrétní aktualizace
Tím se aktualizují prostředky skrytých proměnných v každém intervalu (obvykle interval mezi pozorováními).
Generativní modely (stavový prostor) v zobecněných souřadnicích
Obvykle je generativní hustota nebo model specifikován jako nelineární model vstup-stav-výstup s kontinuálními nelineárními funkcemi:
Odpovídající zobecněný model (za místních předpokladů linearity) získá z pravidla řetězu
Gaussovské předpoklady o náhodných výkyvech poté předepíšete pravděpodobnost a empirické priority pohybu skrytých stavů
Kovariáty faktorizovat do kovariance mezi proměnnými a korelacemi mezi zobecněné fluktuace, které kódují jejich autokorelace:
Tady, je druhá derivace autokorelační funkce vyhodnocená na nulu. Toto je všudypřítomná míra drsnosti v teorii stochastické procesy.[10] Rozhodující je, že přesnost (inverzní rozptyl) derivátů vysokého řádu klesá na nulu poměrně rychle, což znamená, že pro jakoukoli danou nebo parametrizovanou autokorelační funkci je nutné pouze modelovat generalizovaný pohyb relativně nízkého řádu (obvykle mezi dvěma a osmi).
Speciální případy
Filtrování diskrétních časových řad
Když jsou časové řady pozorovány jako diskrétní posloupnost pozorování, je implicitní vzorkování považováno za součást generativního procesu, kde (pomocí Taylorova věta )
V zásadě lze celou sekvenci použít k odhadu skrytých proměnných v každém časovém okamžiku. Přesnost vzorků v minulosti i budoucnosti však rychle klesá a lze ji ignorovat. To umožňuje schématu asimilovat data online pomocí místních pozorování kolem každého časového bodu (obvykle mezi dvěma a osmi).
Zobecněné filtrování a parametry modelu
Pro všechny pomalu se měnící parametry modelu pohybových rovnic nebo přesnost zobecněné filtrování má následující formu (kde odpovídá variačnímu průměru parametrů)
Zde řešení minimalizuje variační volnou energii, když je pohyb střední hodnoty malý. To lze vidět na poznámce . Je jednoduché ukázat, že toto řešení odpovídá klasice Newtonova aktualizace.[11]
Vztah k Bayesiánské filtraci a prediktivnímu kódování
Zobecněné filtrování a Kalmanovo filtrování
Klasické filtrování podle Markovianových nebo Wienerových předpokladů je ekvivalentní předpokladu, že přesnost pohybu náhodných fluktuací je nulová. V tomto omezujícím případě je třeba vzít v úvahu pouze stavy a jejich první derivaci . To znamená, že zobecněné filtrování má formu Kalman-Bucyho filtru s predikčními a opravnými výrazy:
Nahrazení tohoto filtrování prvního řádu do výše uvedeného schématu diskrétní aktualizace poskytuje ekvivalent (rozšířeného) Kalmanova filtrování.[12]
Zobecněná filtrace a filtrace částic
Filtrování částic je schéma založené na vzorkování, které uvolňuje předpoklady o formě variační nebo přibližné zadní hustoty. Volá se odpovídající zobecněné filtrační schéma variační filtrování.[3] Při variační filtraci soubor částic difunduje přes krajinu volné energie v referenčním rámci, který se pohybuje s očekávaným (zobecněným) pohybem souboru. To poskytuje relativně jednoduché schéma, které se vyhýbá gaussovským (unimodálním) předpokladům. Na rozdíl od filtrování částic nevyžaduje hustotu nabídky - ani eliminaci nebo tvorbu částic.
Zobecněné filtrování a variační Bayes
Variační Bayes spočívá na středním rozdělení pole variační hustoty:
Tento oddíl indukuje variační aktualizaci nebo krok pro každou mezní hustotu - který je obvykle řešen analyticky pomocí předřazených konjugátů. Při generalizovaném filtrování to vede k maximalizace dynamického očekávání.[4] který zahrnuje D-krok, který optimalizuje dostatečnou statistiku neznámých stavů, E-krok pro parametry a M-krok pro přesnost.
Zobecněné filtrování a prediktivní kódování
Zobecněné filtrování se obvykle používá k invertování hierarchických modelů následujícího formuláře
Následný zobecněný gradientní sestup na volnou energii lze potom kompaktně vyjádřit pomocí chyb predikce, kde (s vynecháním výrazů vyššího řádu):
Tady, je přesnost náhodných výkyvů na i-tá úroveň. Toto je známé jako zobecněné prediktivní kódování [11], s lineární prediktivní kódování jako zvláštní případ.
Aplikace
Zobecněné filtrování bylo primárně aplikováno na biologická časosérie - zejména funkční zobrazování magnetickou rezonancí a elektrofyziologická data. To je obvykle v kontextu dynamické kauzální modelování dělat závěry o základních architekturách (neuronových) systémů generujících data.[13] Používá se také k simulaci závěrů z hlediska zobecněného (hierarchického) prediktivního kódování v mozku.[14]
Viz také
- Dynamická Bayesiánská síť
- Kalmanův filtr
- Lineární prediktivní kódování
- Optimální ovládání
- Filtr částic
- Rekurzivní Bayesiánský odhad
- Identifikace systému
- Variační Bayesovské metody
Reference
- ^ K. Friston, K. Stephan, B. Li a J. Daunizeau, "Zobecněné filtrování," Matematické problémy ve strojírenství, sv. sv. 2010, s. 621670, 2010.
- ^ B Balaji a K Friston, “Bayesovský odhad stavu pomocí zobecněných souřadnic „Proc. SPIE, s. 80501Y, 2011
- ^ A b K J Friston, “Variační filtrování „Neuroimage, sv. 41, č. 3, str. 747-66, 2008.
- ^ A b K. J. Friston, N. Trujillo-Barreto a J. Daunizeau, "DEM: Variační zpracování dynamických systémů „Neuroimage, sv. 41, č. 3, str. 849-85, 2008
- ^ R P Feynman, statistická mechanika. Čtení MA: Benjamin, 1972
- ^ M J Beal, “Variační algoritmy pro přibližnou Bayesovu inference „PhD. Práce, University College London, 2003.
- ^ K. Friston, J. Mattout, N. Trujillo-Barreto, J. Ashburner a W. Penny, "Variační volná energie a Laplaceova aproximace „NeuroImage, sv. 34, č. 1, str. 220-34, 2007
- ^ W C Kerr a A J Graham, “Zobecněná verze Langevinových rovnic a souvisejících Fokker-Planckových rovnic ve fázovém prostoru "Eur. Phys. J. B., sv. 15, str. 305-11, 2000.
- ^ T Ozaki, "Most mezi nelineárními modely časových řad a nelineárními stochastickými dynamickými systémy: přístup lokální linearizace „Statistica Sin., Sv. 2, str. 113-135, 1992
- ^ D R Cox a H D Miller, Teorie stochastických procesů. London: Methuen, 1965.
- ^ K. Friston, K. Stephan, B. Li a J. Daunizeau, „Generalized Filtering“, Mathematical Problems in Engineering, sv. sv. 2010, s. 621670, 2010.
- ^ K. J. Friston, N. Trujillo-Barreto a J. Daunizeau, „DEM: Variační zpracování dynamických systémů“, Neuroimage, sv. 41, č. 3, str. 849-85, 2008
- ^ J. Daunizeau, ó Davide, a K. E. Stephan, "Dynamické kauzální modelování: kritický přehled biofyzikálních a statistických základů Archivováno 2012-12-07 na Wayback Machine „Neuroimage, sv. 58, č. 2, str. 312-22, 2011
- ^ K. Friston, “Hierarchické modely v mozku „PLoS Comput. Biol., Sv. 4, č. 11, s. E1000211, 2008.