Zmatek - Perplexity

v teorie informace, zmatek je měřítkem toho, jak dobře a rozdělení pravděpodobnosti nebo pravděpodobnostní model předpovídá vzorek. Lze jej použít k porovnání pravděpodobnostních modelů. Nízká zmatenost naznačuje, že rozdělení pravděpodobnosti je dobré při předpovídání vzorku.

Zmatek rozdělení pravděpodobnosti

Zmatek PP diskrétní rozdělení pravděpodobnosti str je definován jako

kde H(str) je entropie (v bitech) distribuce a X rozsahy přes události. (Základ nemusí být 2: Zmatenost je nezávislá na základně za předpokladu, že entropie a umocňování používají stejný Toto měřítko je v některých doménách známé také jako (objednávka-1 pravda) rozmanitost.

Zmatek a náhodná proměnná X lze definovat jako zmatenost distribuce nad jejími možnými hodnotami X.

Ve zvláštním případě, kdy str modely spravedlivé k- oboustranná matrice (rovnoměrné rozdělení přes k diskrétní události), jeho zmatenost je k. Náhodná proměnná s rozpaky k má stejnou nejistotu jako veletrh k- jednostranný, a o jednom se říká, že „k- vždy zmatený "o hodnotě náhodné proměnné. (Pokud to není spravedlivé k- jednostranný, více než k hodnoty budou možné, ale celková nejistota není větší, protože u některých z těchto hodnot bude pravděpodobnost větší než 1 /k, což snižuje celkovou hodnotu při sčítání.)

Zmatenost se někdy používá jako měřítko toho, jak těžký je problém predikce. To není vždy přesné. Máte-li dvě možnosti, jednu s pravděpodobností 0,9, pak vaše šance na správný odhad jsou 90 procent při použití optimální strategie.−0,9 log2 0,9 - 0,1 log2 0.1= 1,38. Inverze zmatenosti (která v případě spravedlivého k-sided die představuje pravděpodobnost správného odhadu) je 1 / 1,38 = 0,72, ne 0,9.

Zmatenost je umocňování entropie, což je jasnější kvantita. Entropie je míra očekávaného nebo „průměrného“ počtu bitů potřebných k zakódování výsledku náhodné proměnné pomocí teoretické optimální délky proměnné kód, srov. Lze jej ekvivalentně považovat za očekávaný informace zisk z učení výsledku náhodné proměnné.

Zmatek modelu pravděpodobnosti

Model neznámého rozdělení pravděpodobnosti str, lze navrhnout na základě tréninkového vzorku, ze kterého byly čerpány str. Vzhledem k navrhovanému modelu pravděpodobnosti q, lze hodnotit q dotazem, jak dobře předpovídá samostatný testovací vzorek X1, X2, ..., XN také čerpáno z str. Zmatek modelu q je definován jako

kde je obvykle 2. Lepší modely q neznámého rozdělení str bude mít tendenci přiřazovat vyšší pravděpodobnosti q(Xi) k testovacím událostem. Mají tedy menší rozpaky: jsou méně překvapeni testovaným vzorkem.

Výše uvedený exponent lze považovat za průměrný počet bitů potřebných k reprezentaci testovací události Xi pokud použijeme optimální kód založený na q. Modely s nízkou složitostí dělají lepší práci při komprimaci testovaného vzorku, což v průměru vyžaduje několik bitů na testovací prvek, protože q(Xi) bývá vysoká.

Exponenta lze také považovat za a křížová entropie,

kde označuje empirické rozdělení zkušebního vzorku (tj. -li X objevil se n časy ve zkušebním vzorku o velikosti N).

Zmatek na slovo

v zpracování přirozeného jazyka, zmatek je způsob hodnocení jazykové modely. Jazykový model je rozdělení pravděpodobnosti na celé věty nebo texty.

Pomocí definice zmatku pro model pravděpodobnosti lze například zjistit průměrnou větu Xi v testovacím vzorku bylo možné kódovat na 190 bitů (tj. testovací věty měly průměrnou log-pravděpodobnost -190). To by dalo enormní matoucí modelu 2190 na větu. Je však běžnější normalizovat délku věty a brát v úvahu pouze počet bitů na slovo. Pokud by tedy věty testovaného vzorku obsahovaly celkem 1 000 slov a mohly by být kódovány pomocí celkem 7,95 bitů na slovo, dalo by se hlásit modelové zmatek 27.95 = 247 za slovo. Jinými slovy, model je na testovacích datech stejně zmatený, jako by si musel zvolit jednotně a nezávisle mezi 247 možnostmi pro každé slovo.

Nejnižší zmatek, který byl zveřejněn na internetu Hnědý korpus (1 milion slov Američana Angličtina různých témat a žánrů) od roku 1992 je ve skutečnosti asi 247 za slovo, což odpovídá křížové entropii logu2247 = 7,95 bitů na slovo nebo 1,75 bitů na písmeno [1] používat trigram Modelka. U specializovanějších je často možné dosáhnout nižší zmatenosti korpusy, protože jsou předvídatelnější.

Opět platí, že pouhý odhad, že dalším slovem v Brownově korpusu je slovo „the“, bude mít přesnost 7 procent, nikoli 1/247 = 0,4 procenta, protože naivní použití zmatku jako měřítka prediktivity by mohlo člověka uvěřit . Tento odhad je založen na unigramových statistikách hnědého korpusu, nikoli na statistikách trigramů, které přinesly slovo zmatek 247. Použití statistik trigramů by dále zlepšilo šance na správný odhad.

Reference

  1. ^ Brown, Peter F .; et al. (Březen 1992). „Odhad horní hranice pro entropii angličtiny“ (PDF). Výpočetní lingvistika. 18 (1). Citováno 2007-02-07.