v teorie informace, křížová entropie mezi dvěma rozdělení pravděpodobnosti
a
za stejnou základní sadu událostí měří průměrný počet bity potřebné k identifikaci události čerpané ze sady, pokud je kódovací schéma použité pro sadu optimalizováno pro odhadované rozdělení pravděpodobnosti
, spíše než skutečné rozdělení
.
Definice
Křížová entropie distribuce
vzhledem k distribuci
nad danou množinou je definována takto:
,
kde
je operátor očekávané hodnoty s ohledem na distribuci
. Definici lze formulovat pomocí Kullback – Leiblerova divergence
z
z
(také známý jako relativní entropie z
s ohledem na
).
,
kde
je entropie z
.
Pro oddělený rozdělení pravděpodobnosti
a
se stejným Podpěra, podpora
to znamená
 | | (Rovnice 1) |
Situace pro kontinuální distribuce je analogická. Musíme to předpokládat
a
jsou absolutně kontinuální s ohledem na nějaký odkaz opatření
(obvykle
je Lebesgueovo opatření na Borel σ-algebra ). Nechat
a
být funkce hustoty pravděpodobnosti
a
s ohledem na
. Pak
![{ displaystyle - int _ { mathcal {X}} P (x) , log Q (x) , dr (x) = operatorname {E} _ {p} [- log Q]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5f76631e4d31793fd2d2b3bb42796166b04fa4b2)
a proto
 | | (Rovnice 2) |
Pozn .: Zápis
se také používá pro jiný koncept, společná entropie z
a
.
Motivace
v teorie informace, Kraft – McMillanova věta stanoví, že jakékoli přímo dekódovatelné kódovací schéma pro kódování zprávy k identifikaci jedné hodnoty
ze souboru možností
lze považovat za představující implicitní rozdělení pravděpodobnosti
přes
, kde
je délka kódu pro
v bitech. Proto může být křížová entropie interpretována jako očekávaná délka zprávy na jeden údaj, když je nesprávné rozdělení
se předpokládá, zatímco data ve skutečnosti sledují distribuci
. Proto je převzato očekávání nad skutečným rozdělením pravděpodobnosti
a ne
. Ve skutečnosti očekávaná délka zprávy pod skutečnou distribucí
je,
![{ displaystyle operatorname {E} _ {p} [l] = - operatorname {E} _ {p} left [{ frac { ln {q (x)}} { ln (2)}} right] = - operatorname {E} _ {p} left [ log _ {2} {q (x)} right] = - sum _ {x_ {i}} p (x_ {i}) , log _ {2} {q (x_ {i})} = - sum _ {x} p (x) , log _ {2} q (x) = H (p, q)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c05adf7a909e1eb469224b9b21e01b8a0d9b2605)
Odhad
Existuje mnoho situací, kdy je třeba měřit křížovou entropii, ale distribuci
není známo. Příkladem je jazykové modelování, kde je model vytvořen na základě tréninkové sady
a poté se na testovací sadě měří její křížová entropie, aby se posoudilo, jak přesný je model v předpovědi testovacích dat. V tomto příkladu
je skutečné rozdělení slov v jakémkoli korpusu a
je distribuce slov podle modelu. Protože skutečné rozdělení není známo, nelze křížovou entropii přímo vypočítat. V těchto případech se odhad křížové entropie vypočítá pomocí následujícího vzorce:

kde
je velikost testovací sady a
je pravděpodobnost události
odhadnuto z tréninkové sady. Součet se počítá přes
. Tohle je Odhad Monte Carlo skutečné křížové entropie, kde se s testovací sadou zachází jako se vzorky z
[Citace je zapotřebí ].
Vztah k pravděpodobnosti logu
Při klasifikačních problémech chceme odhadnout pravděpodobnost různých výsledků. Pokud odhadovaná pravděpodobnost výsledku
je
, zatímco frekvence (empirická pravděpodobnost) výsledku
v tréninkové sadě je
a existují N podmíněně nezávislý vzorků v tréninkové sadě, pak je pravděpodobnost tréninkové sady

takže logaritmická pravděpodobnost děleno
je

takže maximalizace pravděpodobnosti je stejná jako minimalizace křížové entropie.
Minimalizace křížové entropie
Minimalizace křížové entropie se často používá při optimalizaci a odhadu pravděpodobnosti vzácných událostí. Při porovnávání distribuce
proti pevné distribuci referencí
, křížová entropie a KL divergence jsou identické až do aditivní konstanty (od
je pevná): oba přebírají své minimální hodnoty, když
, který je
pro divergenci KL a
pro křížovou entropii.[1] V technické literatuře platí princip minimalizace KL Divergence (Kullbackova „Zásada informací o minimální diskriminaci ") se často nazývá Princip minimální křížové entropie (MCE) nebo Minxent.
Jak je však uvedeno v článku Kullback – Leiblerova divergence, někdy distribuce
je pevná distribuce předchozí reference a distribuce
je optimalizován tak, aby byl co nejblíže
pokud možno s určitým omezením. V tomto případě jsou dvě minimalizace ne ekvivalent. To vedlo k určité nejednoznačnosti v literatuře, přičemž někteří autoři se pokoušeli vyřešit rozpor předefinováním křížové entropie
, spíše než
.
Funkce křížové entropie ztráty a logistická regrese
Křížovou entropii lze použít k definování funkce ztráty v strojové učení a optimalizace. Skutečná pravděpodobnost
je skutečný štítek a daná distribuce
je predikovaná hodnota aktuálního modelu.
Přesněji řečeno, zvažte logistická regrese, které (mimo jiné) lze použít ke klasifikaci pozorování do dvou možných tříd (často jednoduše označených)
a
). Výstup modelu pro dané pozorování, daný vektorem vstupních funkcí
, lze interpretovat jako pravděpodobnost, která slouží jako základ pro klasifikaci pozorování. Pravděpodobnost je modelována pomocí logistická funkce
kde
je nějaká funkce vstupního vektoru
, obyčejně jen lineární funkce. Pravděpodobnost výstupu
darováno

kde vektor vah
je optimalizován pomocí vhodného algoritmu, jako je klesání. Podobně komplementární pravděpodobnost nalezení výstupu
je jednoduše dané

Po nastavení naší notace
a
, můžeme použít křížovou entropii k získání míry odlišnosti mezi
a
:

Logistická regrese obvykle optimalizuje ztrátu protokolu pro všechna pozorování, na kterých je trénována, což je stejné jako optimalizace průměrné křížové entropie ve vzorku. Předpokládejme například, že máme
vzorky, přičemž každý vzorek je indexován pomocí
. The průměrný funkce ztráty je pak dána vztahem:
![{ displaystyle { begin {zarovnáno} J ( mathbf {w}) & = { frac {1} {N}} součet _ {n = 1} ^ {N} H (p_ {n}, q_ {n}) = - { frac {1} {N}} sum _ {n = 1} ^ {N} { bigg [} y_ {n} log { hat {y}} _ {n} + (1-y_ {n}) log (1 - { hat {y}} _ {n}) { bigg]} ,, end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/80f87a71d3a616a0939f5360cec24d702d2593a2)
kde
, s
logistická funkce jako dříve.
Logistická ztráta se někdy nazývá ztráta napříč entropií. Známá také jako ztráta protokolu (v tomto případě je binární štítek často označován {-1, + 1}).[2]
Poznámka: Gradient ztráty křížové entropie pro logistickou regresi je stejný jako gradient ztráty druhé chyby pro Lineární regrese. To znamená, definovat


![{ displaystyle L ({ overrightarrow { beta}}) = - sum _ {i = 1} ^ {N} [y ^ {i} log { hat {y}} ^ {i} + (1 -y ^ {i}) log (1 - { hat {y}} ^ {i})]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/596a23552927b2ee6c05bfdd176e474834b0c1b1)
Pak máme výsledek

Důkaz je následující. Pro všechny
, my máme


![{ displaystyle { begin {aligned} { frac { částečné} { částečné beta _ {0}}} L ({ overrightarrow { beta}}) & = - sum _ {i = 1} ^ {N} left [{ frac {y ^ {i} cdot e ^ {- beta _ {0} + k_ {0}}} {1 + e ^ {- beta _ {0} + k_ { 0}}}} - (1-y ^ {i}) { frac {1} {1 + e ^ {- beta _ {0} + k_ {0}}}} right] & = - sum _ {i = 1} ^ {N} [y ^ {i} - { hat {y}} ^ {i}] = sum _ {i = 1} ^ {N} ({ hat {y }} ^ {i} -y ^ {i}) end {zarovnáno}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1c02e7f3551dd635964e2089931a939e1b1ba2a5)

![{ displaystyle { frac { částečné} { částečné beta _ {1}}} ln vlevo [1 - { frac {1} {1 + e ^ {- beta _ {1} x_ {i1 } + k_ {1}}}} right] = { frac {-x_ {i1} e ^ { beta _ {1} x_ {i1}}} {e ^ { beta _ {1} x_ {i1 }} + e ^ {k_ {1}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0b33c567b55bc690ac5dd5b5c2e2d8b9d870c05c)

Podobným způsobem nakonec získáme požadovaný výsledek.
Viz také
Reference
- ^ Ian Goodfellow, Yoshua Bengio a Aaron Courville (2016). Hluboké učení. MIT Stiskněte. Online
- ^ Murphy, Kevin (2012). Strojové učení: pravděpodobnostní perspektiva. MIT. ISBN 978-0262018029.
externí odkazy