Divergence (statistika) - Divergence (statistics)
v statistika a informační geometrie, divergence nebo a funkce kontrastu je funkce, která určuje "vzdálenost" jednoho rozdělení pravděpodobnosti druhému na a statistická rozmanitost. Divergence je slabší představou než divergence vzdálenost, zejména odchylka nemusí být symetrická (tj. obecně odchylka od str na q se nerovná odchylce od q na str) a nemusí uspokojovat nerovnost trojúhelníku.
Definice
Předpokládat S je prostorem všech rozdělení pravděpodobnosti se společnou podporou. Pak divergence na S je funkce D(· || ·): S × S → R uspokojující [1]
- D(str || q) ≥ 0 pro všechny str, q ∈ S,
- D(str || q) = 0 pouze a jen tehdy str = q,
The dvojí divergence D * je definován jako
Geometrické vlastnosti
Pokud omezíme, lze odvodit mnoho vlastností divergencí S být statistickým potrubím, což znamená, že jej lze parametrizovat pomocí konečně-rozměrného souřadného systému θ, takže pro distribuci str ∈ S můžeme psát str = str(θ).
Za pár bodů str, q ∈ S se souřadnicemi θstr a θq, označují dílčí deriváty D(str || q) tak jako
Nyní omezíme tyto funkce na úhlopříčku str = qa označit [2]
Podle definice funkce D(str || q) je minimalizován na str = q, a proto
kde matice G(D) je pozitivní semi-definitivní a definuje jedinečný Riemannova metrika na potrubí S.
Divergence D(· || ·) také definuje jedinečný kroucení -volný, uvolnit afinní spojení ∇(D) s koeficienty
a dvojí k tomuto spojení ∇ * je generováno dvojí divergencí D*.
Tedy divergence D(· || ·) generuje na statistickém potrubí jedinečnou dualistickou strukturu (G(D), ∇(D), ∇(D*)). Platí to i obráceně: každá dualistická struktura bez torzí na statistickém potrubí je indukována z nějaké globálně definované divergenční funkce (která však nemusí být jedinečná).[3]
Například když D je f-divergence pro nějakou funkci ƒ (·) pak vygeneruje metrický G(DF) = c · g a spojení ∇(DF) = ∇(α), kde G je kanonický Fisherova metrika informací, ∇(α) je α-připojení, C = ƒ ′ ′ (1), a α = 3 + 2ƒ ′ ′ ′ (1) / ƒ ′ ′ (1).
Příklady
Dvě nejdůležitější rozdíly jsou: relativní entropie (Kullback – Leiblerova divergence KL divergence), který je ústředním bodem pro teorie informace a statistiky a na druhou euklidovská vzdálenost (SED). Hlavním způsobem je minimalizace těchto dvou rozdílů lineární inverzní problém jsou řešeny prostřednictvím princip maximální entropie a nejmenší čtverce, zejména v logistická regrese a lineární regrese.[4]
Dvě nejdůležitější třídy divergencí jsou F-rozdíly a Bregman divergence; v literatuře se však setkáváme také s jinými typy divergenčních funkcí. Jediná divergence, která je obojí F-divergence a Bregmanova divergence je Kullback – Leiblerova divergence; čtvercová euklidovská divergence je Bregmanova divergence (odpovídá funkci ), ale ne F-divergence.
f-divergence
Tato rodina divergencí je generována prostřednictvím funkcí F(u), konvexní u > 0 a takhle F(1) = 0. Pak F-divergence je definována jako
Kullback – Leiblerova divergence: | |
na druhou Hellingerova vzdálenost: | |
Jeffreysova divergence: | |
Černoff α-divergence: | |
exponenciální divergence: | |
Kaganova divergence: | |
(α,β) - odchylka produktu: |
Pokud Markov proces má kladné rovnovážné rozdělení pravděpodobnosti pak je monotónní (nerostoucí) funkce času, kde je rozdělení pravděpodobnosti je řešením Kolmogorovovy dopředné rovnice (nebo Hlavní rovnice ), který se používá k popisu časového vývoje rozdělení pravděpodobnosti v Markovově procesu. To znamená, že vše F-divergence jsou Lyapunovovy funkce Kolmogorovových dopředných rovnic. Rovněž platí reverzní tvrzení: Pokud je Lyapunovova funkce pro všechny Markovovy řetězce s pozitivní rovnováhou a má stopovou formu () pak , pro některé konvexní funkce F.[5][6] Bregmanovy divergence obecně takovou vlastnost nemají a mohou se v markovských procesech zvýšit.
Bregman divergence
Bregmanovy divergence odpovídají konvexním funkcím na konvexních množinách. Vzhledem k tomu, přísně konvexní, průběžně rozlišitelná funkce F na konvexní sada, známý jako Bregmanův generátor, Bregmanova divergence měří konvexnost: chyby lineární aproximace F z q jako aproximace hodnoty při str:
Dvojí divergence k Bregmanově divergenci je divergence generovaná konvexní konjugát F* Bregmanova generátoru původní divergence. Například pro druhou euklidovskou vzdálenost je generátor , zatímco pro relativní entropii je generátor negativní entropie .
Dějiny
Termín „divergence“ pro statistickou vzdálenost byl neformálně používán v různých kontextech od c. 1910 až c. 1940. Jeho formální použití se datuje nejméně do Bhattacharyya (1943) , s názvem „O míře divergence mezi dvěma statistickými populacemi definovanými podle jejich rozdělení pravděpodobnosti“, která definovala Bhattacharyya vzdálenost, a Bhattacharyya (1946) s názvem „O míře divergence mezi dvěma multinomálními populacemi“, která definovala Bhattacharyya úhel. Termín byl propagován jeho použitím pro Kullback – Leiblerova divergence v Kullback & Leibler (1951) , jeho použití v učebnici Kullback (1959) a poté Ali & Silvey (1966) obecně pro třídu F-rozdíly. Termín „Bregmanova vzdálenost“ se stále nachází, ale nyní se dává přednost „Bregmanově divergenci“. V informační geometrii byly původně použity alternativní termíny, včetně „kvazi-vzdálenosti“ Amari (1982, str. 369) a „funkce kontrastu“ Eguchi (1985), ačkoli „divergence“ byla použita v Amari (1985) pro α-divergence a stala se standardem (např. Amari & Cichocki (2010) ).
Viz také
Reference
- ^ Eguchi (1985)
- ^ Eguchi (1992)
- ^ Matumoto (1993)
- ^ Csiszár 1991.
- ^ Gorban, Pavel A. (15. října 2003). "Monotónně ekvivalentní entropie a řešení rovnice aditivity". Physica A. 328 (3–4): 380–390. arXiv:cond-mat / 0304131. doi:10.1016 / S0378-4371 (03) 00578-8.
- ^ Amari, Shun'ichi (2009). Leung, C.S .; Lee, M .; Chan, J.H. (eds.). Divergence, optimalizace, geometrie. 16. mezinárodní konference o zpracování neurálních informací (ICONIP 20009), Bangkok, Thajsko, 1. – 5. Prosince 2009. Přednášky v informatice, sv. 5863. Berlín, Heidelberg: Springer. 185-193. doi:10.1007/978-3-642-10677-4_21.
- Amari, Shun-ichi; Nagaoka, Hiroshi (2000). Metody informační geometrie. Oxford University Press. ISBN 0-8218-0531-2.
- Eguchi, Shinto (1985). „Diferenciální geometrický přístup ke statistickým závěrům na základě funkcionálů kontrastu“. Hirošima Mathematical Journal. 15 (2): 341–391. doi:10,32917 / hmj / 1206130775.
- Eguchi, Shinto (1992). „Geometrie minimálního kontrastu“. Hirošima Mathematical Journal. 22 (3): 631–647. doi:10,32917 / hmj / 1206128508.
- Matumoto, Takao (1993). "Jakékoli statistické potrubí má kontrastní funkci - na C³ funkcích bere minimum na úhlopříčce potrubí produktu". Hirošima Mathematical Journal. 23 (2): 327–332. doi:10,32917 / hmj / 1206128255.