Rényiho entropie - Rényi entropy

v teorie informace, Rényiho entropie zobecňuje Hartleyova entropie, Shannonova entropie, kolizní entropie a min. entropie. Entropie kvantifikují rozmanitost, nejistotu nebo náhodnost systému. Entropie je pojmenována po Alfréd Rényi.[1] V kontextu fraktální dimenze odhad, Rényiho entropie tvoří základ konceptu zobecněné rozměry.[2]

Rényiho entropie je důležitá v ekologii a statistice index rozmanitosti. Rényiho entropie je také důležitá v kvantová informace, kde jej lze použít jako měřítko zapletení. V modelu spinového řetězce Heisenberg XY je Rényiho entropie jako funkce α lze vypočítat výslovně na základě skutečnosti, že se jedná o automatická funkce s ohledem na konkrétní podskupinu EU modulární skupina.[3][4] v teoretická informatika, min-entropie se používá v kontextu extraktory náhodnosti.

Definice

Rényiho entropie řádu , kde a , je definován jako

.[1]

Tady, je diskrétní náhodná proměnná s možnými výsledky a odpovídající pravděpodobnosti pro . The logaritmus se běžně považuje za základnu 2, zejména v kontextu teorie informace kde bity Pokud jsou pravděpodobnosti pro všechny , pak jsou všechny Rényiho entropie distribuce stejné: Obecně platí, že pro všechny diskrétní náhodné proměnné , je nerostoucí funkce v .

Aplikace často využívají následující vztah mezi Rényiho entropií a p-norma vektoru pravděpodobností:

.

Zde diskrétní rozdělení pravděpodobnosti je interpretován jako vektor v s a .

Rényiho entropie pro všechny je Schur konkávní.

Speciální případy

Rényiho entropie náhodné proměnné se dvěma možnými výsledky proti p1, kde P = (p1, 1 − p1). Zobrazené jsou H0, H1, H2 a Hv jednotkách shannony.

Tak jako α blíží se nule, Rényiho entropie stále více váží všechny možné události rovnoměrněji, bez ohledu na jejich pravděpodobnost. V limitu pro α → 0, Rényiho entropie je pouze logaritmem velikosti podpory X. Limit pro α → 1 je Shannonova entropie. Tak jako α blíží nekonečno, Rényiho entropie je stále více určována událostmi s nejvyšší pravděpodobností.

Hartley nebo max-entropie

Pokud jsou pravděpodobnosti nenulové,[5] je logaritmus mohutnost z X, někdy nazývaný Hartleyova entropie z X,

Shannonova entropie

Mezní hodnota tak jako α → 1 je Shannonova entropie:[6]

Kolizní entropie

Kolizní entropie, někdy jen nazývaný „Rényiho entropie“, odkazuje na případ α = 2,

kde X a Y jsou nezávislé a identicky distribuované.

Min. Entropie

V limitu jako , Rényiho entropie konverguje k min. entropie :

Ekvivalentně, min-entropie je největší reálné číslo b tak, že všechny události nastanou s největší pravděpodobností .

Název min. entropie vyplývá ze skutečnosti, že se jedná o nejmenší míru entropie v rodině Rényiho entropií. v tomto smyslu jde o nejsilnější způsob měření informačního obsahu diskrétní náhodné proměnné. Zejména min-entropie nikdy není větší než Shannonova entropie.

Min-entropie má důležité aplikace pro extraktory náhodnosti v teoretická informatika: Extraktoři jsou schopni extrahovat náhodnost z náhodných zdrojů, které mají velkou min-entropii; jen mít velký Shannonova entropie pro tento úkol nestačí.

Nerovnosti mezi různými hodnotami α

Že v roce neroste pro jakékoli dané rozdělení pravděpodobností , což lze prokázat diferenciací,[7] tak jako

což je úměrné Kullback – Leiblerova divergence (což je vždy nezáporné), kde.

V konkrétních případech může nerovnost prokázat také Jensenova nerovnost:[8][9]

Pro hodnoty , platí také nerovnosti v opačném směru. Zejména máme[10][Citace je zapotřebí ]

Na druhou stranu Shannonova entropie může být libovolně vysoká pro náhodnou proměnnou která má danou min-entropii.[Citace je zapotřebí ]

Rényiho divergence

Kromě absolutních Rényiho entropií definoval Rényi také spektrum divergenčních opatření zobecňujících Kullback – Leiblerova divergence.[11]

The Rényiho divergence řádu α nebo alfa-divergence distribuce P z distribuce Q je definován jako

když 0 < α < ∞ a α ≠ 1. Můžeme definovat Rényiho divergenci pro speciální hodnoty α = 0, 1, ∞ přijetím limitu, zejména limitu α → 1 dává divergenci Kullback-Leibler.

Některé speciální případy:

: minus pravděpodobnost protokolu pod Q že pi > 0;
: mínus dvojnásobek logaritmu Bhattacharyya koeficient; (Nielsen & Boltz (2010) )
: Kullback – Leiblerova divergence;
: protokol očekávaného poměru pravděpodobností;
: protokol maximálního poměru pravděpodobností.

Rényiho divergence je skutečně divergence, což znamená jednoduše to je větší než nebo rovno nule a nula pouze když P = Q. Pro jakékoli pevné distribuce P a Q, Rényiho divergence neklesá jako funkce jejího řádu α, a je kontinuální na množině α pro které je konečný.[11]

Finanční interpretace

Na dvojici rozdělení pravděpodobnosti lze pohlížet jako na hazardní hru, ve které jedno z rozdělení definuje oficiální pravděpodobnost a druhé obsahuje skutečné pravděpodobnosti. Znalost skutečných pravděpodobností umožňuje hráči těžit ze hry. Očekávaná míra zisku souvisí s Rényiho divergencí následovně[12]

kde je distribuce definující oficiální kurzy (tj. „trh“) pro hru, je investorem věřená distribuce a je averze k riziku investora (relativní averze k riziku Arrow-Pratt).

Pokud je skutečná distribuce (nemusí se nutně shodovat s vírou investora ), dlouhodobá realizovaná míra konverguje ke skutečnému očekávání, které má podobnou matematickou strukturu[13]

Proč α = 1 je zvláštní

Hodnota α = 1, což dává Shannonova entropie a Kullback – Leiblerova divergence, je zvláštní, protože je pouze na α = 1 že řetězové pravidlo podmíněné pravděpodobnosti platí přesně:

pro absolutní entropie a

pro relativní entropie.

To zejména znamená, že pokud hledáme distribuci p(X, A) což minimalizuje odchylku od nějakého základního předchozího opatření m(X, A), a získáváme nové informace, které mají vliv pouze na distribuci A, pak distribuce p(X|A) Zůstává m(X|A), beze změny.

Ostatní Rényiho divergence splňují kritéria kladnosti a kontinuity; být invariantní při transformacích souřadnic 1: 1; a aditivní kombinace, když A a X jsou nezávislé, takže pokud p(A, X) = p(A)p(X), pak

a

Silnější vlastnosti α = 1 množství, která umožňují definici podmíněné informace a vzájemné informace z teorie komunikace, může být v jiných aplikacích velmi důležitý nebo zcela nedůležitý v závislosti na požadavcích těchto aplikací.

Exponenciální rodiny

Rényi entropie a divergence pro exponenciální rodina připustit jednoduché výrazy[14]

a

kde

je Jensenův rozdíl divergence.

Fyzický význam

Rényiho entropie v kvantové fyzice se nepovažuje za pozorovatelný, kvůli jeho nelineární závislosti na matici hustoty. (Tato nelineární závislost platí i ve zvláštním případě Shannonovy entropie.) Může jí však být dán provozní význam prostřednictvím dvojnásobných měření (také známých jako statistika úplného počítání) přenosů energie.

Hranice Rényiho entropie as je von Neumannova entropie.

Viz také

Poznámky

  1. ^ A b Rényi (1961)
  2. ^ Wolfram (2002) poznámka b
  3. ^ Franchini (2008)
  4. ^ Jeho (2010)
  5. ^ RFC 4086, strana 6
  6. ^ Bromiley, Thacker & Bouhova-Thacker (2004)
  7. ^ Beck (1993)
  8. ^ drží protože .
  9. ^ drží protože .
  10. ^ drží protože
  11. ^ A b Van Erven, Tim; Harremoës, Peter (2014). „Rényi Divergence and Kullback – Leibler Divergence“. Transakce IEEE na teorii informací. 60 (7): 3797–3820. arXiv:1206.2459. doi:10.1109 / TIT.2014.2320500.
  12. ^ Soklakov (2018)
  13. ^ Soklakov (2018)
  14. ^ Nielsen & Nock (2011)

Reference