F-divergence - F-divergence
Tento článek obsahuje seznam obecných Reference, ale zůstává z velké části neověřený, protože postrádá dostatečné odpovídající vložené citace.Září 2015) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
v teorie pravděpodobnosti, an ƒ-divergence je funkce DF (P || Q), který měří rozdíl mezi dvěma rozdělení pravděpodobnosti P a Q. Pomáhá intuici myslet na divergence jako průměr vážený funkcí F, z poměr šancí dána P a Q[Citace je zapotřebí ].
Tyto odlišnosti zavedl Alfréd Rényi[1] ve stejném příspěvku, kde představil známé Rényiho entropie. Dokázal, že tyto divergence v roce klesají Markovovy procesy. F-divergence byly dále studovány nezávisle na sobě Csiszár (1963), Morimoto (1963) a Ali & Silvey (1966) a jsou někdy známé jako Csiszár ƒ-divergence, Csiszár-Morimoto divergence nebo Ali-Silvey vzdálenosti.
Definice
Nechat P a Q být dvě rozdělení pravděpodobnosti v prostoru Ω taková, že P je absolutně kontinuální s ohledem na Q. Pak pro konvexní funkce F takhle F(1) = 0, F-divergence P z Q je definován jako
Li P a Q jsou absolutně kontinuální s ohledem na referenční distribuci μ na Ω pak jejich hustoty pravděpodobnosti p a q uspokojit dP = p dμ a dQ = q dμ. V tomto případě F-divergence lze psát jako
F-divergence lze vyjádřit pomocí Taylorovy řady a přepsat pomocí váženého součtu vzdáleností typu chi (Nielsen & Nock (2013) ).
Případy F-rozdíly
Mnoho společných divergencí, jako např KL-divergence, Hellingerova vzdálenost, a celková variační vzdálenost, jsou speciální případy F-divergence, která se shoduje s konkrétním výběrem F. V následující tabulce je uvedeno mnoho běžných rozdílů mezi pravděpodobnostními distribucemi a F funkci, které odpovídají (srov. Liese & Vajda (2006) ).
Divergence | Odpovídající f (t) |
---|---|
KL-divergence | |
reverzní KL-divergence | |
na druhou Hellingerova vzdálenost | |
Celková variační vzdálenost | |
Pearson -divergence | |
Neyman -divergence (reverzní Pearson) | |
α-divergence | |
Jensen-Shannon Divergence | |
α-divergence (jiné označení) |
Funkce je definován až do součtu , kde je libovolná konstanta.
Vlastnosti
- Nezápornost: ƒ-divergence je vždy pozitivní; je to nula, pokud a pouze pokud opatření P a Q shodovat se. Toto bezprostředně vyplývá z Jensenova nerovnost:
- Monotónnost: pokud κ je libovolný pravděpodobnost přechodu který transformuje opatření P a Q do Pκ a Qκ tedy odpovídajícím způsobem
- Rovnost zde platí tehdy a jen tehdy, je-li přechod vyvolán z a dostatečná statistika s ohledem na {P, Q}.
- Společná konvexita: pro všechny 0 ≤ λ ≤ 1
Z monotónnosti vyplývá zejména, že pokud a Markov proces má kladné rovnovážné rozdělení pravděpodobnosti pak je monotónní (nerostoucí) funkce času, kde je rozdělení pravděpodobnosti je řešením Kolmogorovovy dopředné rovnice (nebo Hlavní rovnice ), který se používá k popisu časového vývoje rozdělení pravděpodobnosti v Markovově procesu. To znamená, že vše F-rozdíly jsou Lyapunovovy funkce Kolmogorovových dopředných rovnic. Rovněž platí reverzní tvrzení: Pokud je Lyapunovova funkce pro všechny Markovovy řetězce s pozitivní rovnováhou a má stopovou formu () pak , pro některé konvexní funkce F.[2][3] Například, Bregman divergence obecně nemají takovou vlastnost a mohou se zvýšit v Markovových procesech.[4]
Viz také
Reference
- Csiszár, I. (1963). „Eine informationstheoretische Ungleichung und ihre Anwendung auf den Beweis der Ergodizitat von Markoffschen Ketten“. Magyar. Tud. Akad. Rohož. Kutato Int. Kozl. 8: 85–108.
- Morimoto, T. (1963). „Markovovy procesy a H-věta“. J. Phys. Soc. Jpn. 18 (3): 328–331. Bibcode:1963JPSJ ... 18..328M. doi:10.1143 / JPSJ.18.328.
- Ali, S. M .; Silvey, S. D. (1966). Msgstr "Obecná třída koeficientů divergence jedné distribuce od druhé". Journal of the Royal Statistical Society, Řada B. 28 (1): 131–142. JSTOR 2984279. PAN 0196777.
- Csiszár, I. (1967). "Míra informačního typu rozdílu rozdělení pravděpodobnosti a nepřímého pozorování". Studia Scientiarum Mathematicarum Hungarica. 2: 229–318.
- Csiszár, I.; Shields, P. (2004). „Informační teorie a statistika: výuka“ (PDF). Základy a trendy v teorii komunikace a informací. 1 (4): 417–528. doi:10.1561/0100000004. Citováno 2009-04-08.
- Liese, F .; Vajda, I. (2006). "O divergencích a informacích ve statistice a teorii informací". Transakce IEEE na teorii informací. 52 (10): 4394–4412. doi:10.1109 / TIT.2006.881731.
- Nielsen, F .; Nock, R. (2013). "Na náměstí Chi a vyšších řádech vzdálenosti Chi pro přiblížení f-divergencí". Dopisy pro zpracování signálu IEEE. 21: 10–13. arXiv:1309.3029. Bibcode:2014ISPL ... 21 ... 10N. doi:10.1109 / LSP.2013.2288355.
- Coeurjolly, J-F .; Drouilhet, R. (2006). "Normalizované divergence založené na informacích". arXiv:matematika / 0604246.
- ^ Rényi, Alfréd (1961). O mírách entropie a informací (PDF). 4. Berkeley Symposium on Mathematics, Statistics and Probability, 1960. Berkeley, CA: University of California Press. str. 547–561. Rov. (4,20)
- ^ Gorban, Pavel A. (15. října 2003). "Monotónně ekvivalentní entropie a řešení rovnice aditivity". Physica A. 328 (3–4): 380–390. arXiv:cond-mat / 0304131. doi:10.1016 / S0378-4371 (03) 00578-8.
- ^ Amari, Shun'ichi (2009). Leung, C.S .; Lee, M .; Chan, J.H. (eds.). Divergence, optimalizace, geometrie. 16. mezinárodní konference o zpracování neurálních informací (ICONIP 20009), Bangkok, Thajsko, 1. – 5. Prosince 2009. Přednášky v informatice, sv. 5863. Berlín, Heidelberg: Springer. 185-193. doi:10.1007/978-3-642-10677-4_21.
- ^ Gorban, Alexander N. (29. dubna 2014). „Obecná H-věta a entropie, které porušují druhý zákon“. Entropie. 16 (5): 2408–2432. arXiv:1212.6767. doi:10,3390 / e16052408.