Bodová vzájemná informace - Pointwise mutual information

Bodová vzájemná informace (PMI),[1] nebo bodová vzájemná informace, je měřítkem sdružení použito v teorie informace a statistika. Na rozdíl od vzájemné informace (MI), který staví na PMI, odkazuje na jednotlivé události, zatímco MI odkazuje na průměr všech možných událostí.

Definice

PMI dvojice výsledky X a y patřící diskrétní náhodné proměnné X a Y kvantifikuje rozpor mezi pravděpodobností jejich shody vzhledem k jejich společná distribuce a jejich individuální rozdělení, za předpokladu nezávislost. Matematicky:

The vzájemné informace (MI) náhodných proměnných X a Y je očekávaná hodnota PMI (přes všechny možné výsledky).

Míra je symetrická (). Může nabývat kladných nebo záporných hodnot, ale je nula, pokud X a Y jsou nezávislý. Všimněte si, že i když PMI může být negativní nebo pozitivní, jeho očekávaný výsledek za všechny společné události (MI) je pozitivní. PMI se maximalizuje, když X a Y jsou dokonale spojeny (tj. nebo ), čímž se získá následující hranice:

Konečně, se zvýší, pokud je opraven, ale klesá.

Zde je příklad pro ilustraci:

Xyp(Xy)
000.1
010.7
100.15
110.05

Pomocí této tabulky můžeme marginalizovat získat následující doplňkovou tabulku pro jednotlivé distribuce:

p(X)p(y)
00.80.25
10.20.75

V tomto příkladu můžeme vypočítat čtyři hodnoty pro . Pomocí logaritmů base-2:

pmi (x = 0; y = 0)=−1
pmi (x = 0; y = 1)=0.222392
pmi (x = 1; y = 0)=1.584963
pmi (x = 1; y = 1)=-1.584963

(Pro informaci, vzájemné informace by pak bylo 0,2141709)

Podobnosti se vzájemnými informacemi

Vzájemné informace Pointwise má mnoho stejných vztahů jako vzájemné informace. Zejména,

Kde je vlastní informace nebo .

Normalizované bodové vzájemné informace (NPMI)

Bodové vzájemné informace mohou být normalizovány mezi [-1, + 1], což má za následek -1 (v limitu) pro nikdy se nevyskytující společně, 0 pro nezávislost a +1 pro úplnost společný výskyt.[2]

Kde je kloub vlastní informace, který se odhaduje na .

Varianty PMI

Kromě výše uvedeného npmi má PMI mnoho dalších zajímavých variant. Srovnávací studie těchto variant lze nalézt v [3]

Řetězové pravidlo pro pmi

Jako vzájemné informace,[4] bodová vzájemná informace následuje řetězové pravidlo, to znamená,

To lze snadno dokázat:

Aplikace

v výpočetní lingvistika, PMI byl použit pro hledání kolokace a asociace mezi slovy. Například, počítání výskytů a společné výskyty slov v a textový korpus lze použít k přiblížení pravděpodobností a resp. Následující tabulka ukazuje počty párů slov, které získaly nejvíce a nejméně skóre PMI v prvních 50 milionech slov na Wikipedii (výpis z října 2015) filtrované podle 1000 nebo více společných výskytů. Frekvenci každého počtu lze získat vydělením jeho hodnoty 50 000 952. (Poznámka: Pro výpočet hodnot PMI se v tomto příkladu používá namísto základny protokolu 2 přirozený protokol.)

slovo 1slovo 2počítat slovo 1počítat slovo 2počet souběžných výskytůPMI
Puertorico19381311115910.0349081703
hongkong2438269422059.72831972408
losandělé3501280827919.56067615065
uhlíkoxid uhličitý4265135310329.09852946116
cenalaureát5131167612108.85870710982
sanfrancisco5237247717798.83305176711
ušlechtilýcena4098513124988.68948811416
ledhokej5607300219338.6555759741
hvězdatrek8264159414898.63974676575
autoŘidič5578274913848.41470768304
tothe28389132932963347-1.72037278119
jsouz23445817614361019-2.09254205335
tentothe19988232932961211-2.38612756961
jez56567917614361562-2.54614706831
az137539617614362949-2.79911817902
Aa98444213753961457-2.92239510038
va118765213753961537-3.05660070757
naa102565913753961286-3.08825363041
nav102565911876521066-3.12911348956
za176143613753961190-3.70663100173

Dobré kolokační páry mají vysoké PMI, protože pravděpodobnost společného výskytu je jen o málo nižší než pravděpodobnost výskytu každého slova. Naopak dvojice slov, jejichž pravděpodobnost výskytu je podstatně vyšší než pravděpodobnost společného výskytu, získá malé skóre PMI.

Reference

  1. ^ Kenneth Ward Church a Patrick Hanks (březen 1990). „Normy asociace slov, vzájemné informace a lexikografie“. Comput. Lingvista. 16 (1): 22–29.
  2. ^ Bouma, Gerlof (2009). „Normalizované (bodové) vzájemné informace při extrakci kolokace“ (PDF). Sborník z bienále GSCL Conference.
  3. ^ Francois Role, Moahmed Nadif. Řešení dopadu nízkofrekvenčních událostí na míry podobnosti slov založené na společném výskytu: Případová studie bodových vzájemných informací. Sborník KDIR 2011: KDIR - Mezinárodní konference o získávání znalostí a vyhledávání informací, Paříž, 26. – 29. Října 2011
  4. ^ Paul L. Williams. INFORMAČNÍ DYNAMIKA: JEJICH TEORIE A APLIKACE NA CELÉ KOGNITIVNÍ SYSTÉMY.

externí odkazy