Bregmanova divergence - Bregman divergence
v matematika konkrétně statistika a informační geometrie, a Bregmanova divergence nebo Bregmanova vzdálenost je měřítkem vzdálenost mezi dvěma body, definované přísně konvexní funkce; tvoří důležitou třídu divergence. Když jsou body interpretovány jako rozdělení pravděpodobnosti - zejména jako buď hodnoty parametru a parametrický model nebo jako soubor dat pozorovaných hodnot - výsledná vzdálenost je a statistická vzdálenost. Nejzákladnější Bregmanovou divergencí je na druhou euklidovská vzdálenost.
Bregmanovy divergence jsou podobné metriky, ale nevyhovují ani nerovnost trojúhelníku (vůbec) ani symetrie (obecně). Splňují však zevšeobecnění Pythagorova věta a v informační geometrii odpovídající statistická rozmanitost je interpretován jako (duálně) ploché potrubí. To umožňuje mnoho technik teorie optimalizace zobecnit na Bregmanovy divergence, geometricky jako zobecnění nejmenší čtverce.
Bregmanovy divergence jsou pojmenovány po Lev M. Bregman, který představil koncept v roce 1967.
Definice
Nechat být přísně rozlišitelný konvexní funkce definováno na uzavřeném konvexní sada .
Bregmanova vzdálenost spojená s F pro body je rozdíl mezi hodnotou F v bodě str a hodnota prvního řádu Taylorova expanze z F kolem bodu q hodnoceno v bodě str:
Vlastnosti
- Nezápornost: pro všechna p, q. To je důsledek konvexity F.
- Konvexnost: je konvexní ve svém prvním argumentu, ale ne nutně ve druhém argumentu (viz [1])
- Linearita: Pokud uvažujeme o Bregmanově vzdálenosti jako operátorovi funkce F, pak je lineární s ohledem na nezáporné koeficienty. Jinými slovy, pro přísně konvexní a diferencovatelné a ,
- Dualita: Funkce F má a konvexní konjugát . Bregmanova vzdálenost definovaná s ohledem na má zajímavý vztah
- Tady, a jsou duální body odpovídající p a q.
- Znamená to jako minimalizátor: Klíčovým výsledkem Bregmanových divergencí je, že vzhledem k náhodnému vektoru střední vektor minimalizuje očekávanou Bregmanovu divergenci od náhodného vektoru. Tento výsledek zobecňuje výsledek učebnice, že průměr množiny minimalizuje celkovou čtvercovou chybu prvků v sadě. Tento výsledek byl pro vektorový případ prokázán (Banerjee et al. 2005) a rozšířen na případ funkcí / distribucí (Frigyik et al. 2008). Tento výsledek je důležitý, protože dále ospravedlňuje použití střední hodnoty jako zástupce náhodné množiny, zejména v bayesovském odhadu.
Příklady
- Čtvercová euklidovská vzdálenost je kanonický příklad Bregmanovy vzdálenosti generovaný konvexní funkcí
- Na druhou Mahalanobisova vzdálenost, který je generován konvexní funkcí . Lze to považovat za zevšeobecnění výše uvedené čtvercové euklidovské vzdálenosti.
- Zobecněný Kullback – Leiblerova divergence
- je generován záporem entropie funkce
- je generována konvexní funkcí
Zobecnění projektivní duality
Klíčový nástroj výpočetní geometrie je myšlenka projektivní dualita, který mapuje body na hyperplany a naopak, při zachování výskytu a vztahů pod a pod. Existuje mnoho analytických forem projektivního dvojího: jedna společná forma mapuje bod do nadroviny . Toto mapování lze interpretovat (identifikace hyperplánu s jeho normálem) jako konvexní mapování konjugátu, které vezme bod p do jeho dvojitého bodu , kde F definuje d-rozměrný paraboloid .
Pokud nyní nahradíme paraboloid libovolnou konvexní funkcí, získáme odlišné duální mapování, které si zachová incidenci a vlastnosti pod-pod standardní projektivní duální. To znamená, že přirozené duální pojmy ve výpočetní geometrii jsou podobné Voronoiovy diagramy a Delaunayovy triangulace zachovat jejich význam v prostorech vzdáleností definovaných libovolnou Bregmanovou divergencí. Algoritmy z „normální“ geometrie tedy zasahují přímo do těchto prostorů (Boissonnat, Nielsen a Nock, 2010)
Zobecnění Bregmanových divergencí
Bregmanovy divergence lze interpretovat jako mezní případy zkosení Jensenovy divergence (viz Nielsen a Boltz, 2011). Jensenovy divergence lze zobecnit pomocí komparativní konvexity a omezené případy těchto zkosených generalizací Jensenových divergencí přinesou zobecněnou Bregmanovu divergenci (viz Nielsen a Nock, 2017).[2] se získá tak, že namísto tečné čáry vezmeme akord.
Bregmanova divergence u jiných objektů
Bregmanovy divergence lze definovat také mezi maticemi, mezi funkcemi a mezi takty (distribucemi). Bregmanovy divergence mezi maticemi zahrnují Steinova ztráta a von Neumannova entropie. Bregmanovy divergence mezi funkcemi zahrnují celkovou druhou mocninu chyby, relativní entropii a druhou mocninu zkreslení; viz odkazy Frigyik et al. níže pro definice a vlastnosti. Podobně byly také definovány Bregmanovy divergence v množinách, a funkce submodulární sady který je známý jako diskrétní analog a konvexní funkce. Submodulární Bregmanovy divergence zahrnují řadu diskrétních měr vzdálenosti, jako je Hammingova vzdálenost, přesnost a odvolání, vzájemné informace a některá další měření vzdálenosti založená na sadě (viz Iyer & Bilmes, 2012), kde najdete další podrobnosti a vlastnosti submodulárního Bregmana.)
Seznam běžných maticových Bregmanových divergencí najdete v tabulce 15.1 v.[3]
Aplikace
Ve strojovém učení se Bregmanovy divergence používají k výpočtu dvou temperované logistické ztráty, která funguje lépe než funkce softmax s hlučnými datovými sadami.[4]
Reference
- ^ „Společná a oddělená konvexnost Bregmanovy vzdálenosti“, autor: H. Bauschke a J. Borwein, D. Butnariu, Y. Censor, a S. Reich, redaktoři, Inherentně paralelní algoritmy proveditelnosti a optimalizace a jejich aplikace, Elsevier 2001
- ^ Nielsen, Frank; Nock, Richard (2018). „Divergence Bregmanova akordu“. arXiv:1810.09113 [cs.LG ].
- ^ „Matrix Information Geometry“, R. Nock, B. Magdalou, E. Briys a F. Nielsen, pdf, z tohoto rezervovat
- ^ Ehsan Amid, Manfred K.Warmuth, Rohan Anil, Tomer Koren (2019). „Robustní dvou temperovaná logistická ztráta založená na Bregmanových divergencích“. Konference o systémech zpracování neurálních informací. 14987-14996. pdf
- Banerjee, Arindam; Merugu, Srujana; Dhillon, Inderjit S .; Ghosh, Joydeep (2005). „Shlukování s Bregmanovými divergencemi“. Journal of Machine Learning Research. 6: 1705–1749.
- Bregman, L. M. (1967). "Relaxační metoda hledání společných bodů konvexních množin a její aplikace na řešení problémů v konvexním programování". SSSR výpočetní matematika a matematická fyzika. 7 (3): 200–217. doi:10.1016/0041-5553(67)90040-7.
- Frigyik, Bela A .; Srivastava, Santosh; Gupta, Maya R. (2008). „Funkční Bregmanovy divergence a Bayesiánský odhad distribucí“ (PDF). Transakce IEEE na teorii informací. 54 (11): 5130–5139. arXiv:cs / 0611123. doi:10.1109 / TIT.2008.929943. Archivovány od originál (PDF) dne 12. 8. 2010.
- Iyer, Rishabh .; Bilmes, Jeff (2012). "Submodular-Bregman divergences and Lovász-Bregman divergences with Applications". Konference o systémech zpracování neurálních informací.
- Frigyik, Bela A .; Srivastava, Santosh; Gupta, Maya R. (2008). Úvod do funkčních derivátů (PDF). UWEE Tech Report 2008-0001. University of Washington, Department of Electrical Engineering. Archivovány od originál (PDF) dne 2017-02-17. Citováno 2014-03-20.
- Harremoës, Peter (2017). „Divergence a dostatečnost pro konvexní optimalizaci“. Entropie. 19 (5): 206. arXiv:1701.01010. Bibcode:2017Entrp..19..206H. doi:10,3390 / e19050206.
- Nielsen, Frank; Nock, Richard (2009). „Duální Voronoiovy diagramy s ohledem na reprezentativní Bregmanovy divergence“ (PDF). Proc. 6. mezinárodní symposium o Voronoiových diagramech. IEEE. doi:10.1109 / ISVD.2009.15.
- Nielsen, Frank; Nock, Richard (2007). „Na těžištích symetrizovaných Bregmanových divergencí“. arXiv:0711.3242 [cs.CG ].
- Nielsen, Frank; Boissonnat, Jean-Daniel; Nock, Richard (2007). „On Visualizing Bregman Voronoi diagrams“. Proc. 23. ACM Symposium on Computational Geometry (video stopa). doi:10.1145/1247069.1247089.[trvalý mrtvý odkaz ]
- Boissonnat, Jean-Daniel; Nielsen, Frank; Nock, Richard (2010). „Bregman Voronoi Diagrams“. Diskrétní a výpočetní geometrie. 44 (2): 281–307. doi:10.1007 / s00454-010-9256-1.
- Nielsen, Frank; Nock, Richard (2006). "Na přiblížení nejmenší obklopující Bregmanovy koule". Proc. 22. ACM Symposium on Computational Geometry. str. 485–486. doi:10.1145/1137856.1137931.
- Nielsen, Frank; Boltz, Sylvain (2011). „Centroidy Burbea-Rao a Bhattacharyya“. Transakce IEEE na teorii informací. 57 (8): 5455–5466. arXiv:1004.5049. doi:10.1109 / TIT.2011.2159046.
- Nielsen, Frank; Nock, Richard (2017). „Zobecnění divergencí Skew Jensen a Bregman Divergences se srovnávací konvexitou“. Dopisy pro zpracování signálu IEEE. 24 (8): 1123–1127. arXiv:1702.04877. Bibcode:2017ISPL ... 24.1123N. doi:10.1109 / LSP.2017.2712195.