Bodová vzájemná informace - Pointwise mutual information
![]() | tento článek poskytuje nedostatečný kontext pro ty, kteří danému tématu nejsou obeznámeni.Únor 2012) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Bodová vzájemná informace (PMI),[1] nebo bodová vzájemná informace, je měřítkem sdružení použito v teorie informace a statistika. Na rozdíl od vzájemné informace (MI), který staví na PMI, odkazuje na jednotlivé události, zatímco MI odkazuje na průměr všech možných událostí.
Definice
PMI dvojice výsledky X a y patřící diskrétní náhodné proměnné X a Y kvantifikuje rozpor mezi pravděpodobností jejich shody vzhledem k jejich společná distribuce a jejich individuální rozdělení, za předpokladu nezávislost. Matematicky:
The vzájemné informace (MI) náhodných proměnných X a Y je očekávaná hodnota PMI (přes všechny možné výsledky).
Míra je symetrická (). Může nabývat kladných nebo záporných hodnot, ale je nula, pokud X a Y jsou nezávislý. Všimněte si, že i když PMI může být negativní nebo pozitivní, jeho očekávaný výsledek za všechny společné události (MI) je pozitivní. PMI se maximalizuje, když X a Y jsou dokonale spojeny (tj. nebo ), čímž se získá následující hranice:
Konečně, se zvýší, pokud je opraven, ale klesá.
Zde je příklad pro ilustraci:
X | y | p(X, y) |
---|---|---|
0 | 0 | 0.1 |
0 | 1 | 0.7 |
1 | 0 | 0.15 |
1 | 1 | 0.05 |
Pomocí této tabulky můžeme marginalizovat získat následující doplňkovou tabulku pro jednotlivé distribuce:
p(X) | p(y) | |
---|---|---|
0 | 0.8 | 0.25 |
1 | 0.2 | 0.75 |
V tomto příkladu můžeme vypočítat čtyři hodnoty pro . Pomocí logaritmů base-2:
pmi (x = 0; y = 0) | = | −1 |
pmi (x = 0; y = 1) | = | 0.222392 |
pmi (x = 1; y = 0) | = | 1.584963 |
pmi (x = 1; y = 1) | = | -1.584963 |
(Pro informaci, vzájemné informace by pak bylo 0,2141709)
Podobnosti se vzájemnými informacemi
Vzájemné informace Pointwise má mnoho stejných vztahů jako vzájemné informace. Zejména,
Kde je vlastní informace nebo .
Normalizované bodové vzájemné informace (NPMI)
Bodové vzájemné informace mohou být normalizovány mezi [-1, + 1], což má za následek -1 (v limitu) pro nikdy se nevyskytující společně, 0 pro nezávislost a +1 pro úplnost společný výskyt.[2]
Kde je kloub vlastní informace, který se odhaduje na .
Varianty PMI
Kromě výše uvedeného npmi má PMI mnoho dalších zajímavých variant. Srovnávací studie těchto variant lze nalézt v [3]
Řetězové pravidlo pro pmi
Jako vzájemné informace,[4] bodová vzájemná informace následuje řetězové pravidlo, to znamená,
To lze snadno dokázat:
Aplikace
v výpočetní lingvistika, PMI byl použit pro hledání kolokace a asociace mezi slovy. Například, počítání výskytů a společné výskyty slov v a textový korpus lze použít k přiblížení pravděpodobností a resp. Následující tabulka ukazuje počty párů slov, které získaly nejvíce a nejméně skóre PMI v prvních 50 milionech slov na Wikipedii (výpis z října 2015) filtrované podle 1000 nebo více společných výskytů. Frekvenci každého počtu lze získat vydělením jeho hodnoty 50 000 952. (Poznámka: Pro výpočet hodnot PMI se v tomto příkladu používá namísto základny protokolu 2 přirozený protokol.)
slovo 1 | slovo 2 | počítat slovo 1 | počítat slovo 2 | počet souběžných výskytů | PMI |
---|---|---|---|---|---|
Puerto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
hong | kong | 2438 | 2694 | 2205 | 9.72831972408 |
los | andělé | 3501 | 2808 | 2791 | 9.56067615065 |
uhlík | oxid uhličitý | 4265 | 1353 | 1032 | 9.09852946116 |
cena | laureát | 5131 | 1676 | 1210 | 8.85870710982 |
san | francisco | 5237 | 2477 | 1779 | 8.83305176711 |
ušlechtilý | cena | 4098 | 5131 | 2498 | 8.68948811416 |
led | hokej | 5607 | 3002 | 1933 | 8.6555759741 |
hvězda | trek | 8264 | 1594 | 1489 | 8.63974676575 |
auto | Řidič | 5578 | 2749 | 1384 | 8.41470768304 |
to | the | 283891 | 3293296 | 3347 | -1.72037278119 |
jsou | z | 234458 | 1761436 | 1019 | -2.09254205335 |
tento | the | 199882 | 3293296 | 1211 | -2.38612756961 |
je | z | 565679 | 1761436 | 1562 | -2.54614706831 |
a | z | 1375396 | 1761436 | 2949 | -2.79911817902 |
A | a | 984442 | 1375396 | 1457 | -2.92239510038 |
v | a | 1187652 | 1375396 | 1537 | -3.05660070757 |
na | a | 1025659 | 1375396 | 1286 | -3.08825363041 |
na | v | 1025659 | 1187652 | 1066 | -3.12911348956 |
z | a | 1761436 | 1375396 | 1190 | -3.70663100173 |
Dobré kolokační páry mají vysoké PMI, protože pravděpodobnost společného výskytu je jen o málo nižší než pravděpodobnost výskytu každého slova. Naopak dvojice slov, jejichž pravděpodobnost výskytu je podstatně vyšší než pravděpodobnost společného výskytu, získá malé skóre PMI.
Reference
- ^ Kenneth Ward Church a Patrick Hanks (březen 1990). „Normy asociace slov, vzájemné informace a lexikografie“. Comput. Lingvista. 16 (1): 22–29.
- ^ Bouma, Gerlof (2009). „Normalizované (bodové) vzájemné informace při extrakci kolokace“ (PDF). Sborník z bienále GSCL Conference.
- ^ Francois Role, Moahmed Nadif. Řešení dopadu nízkofrekvenčních událostí na míry podobnosti slov založené na společném výskytu: Případová studie bodových vzájemných informací. Sborník KDIR 2011: KDIR - Mezinárodní konference o získávání znalostí a vyhledávání informací, Paříž, 26. – 29. Října 2011
- ^ Paul L. Williams. INFORMAČNÍ DYNAMIKA: JEJICH TEORIE A APLIKACE NA CELÉ KOGNITIVNÍ SYSTÉMY.
- Fano, RM (1961). "Kapitola 2". Přenos informací: Statistická teorie komunikace. MIT Press, Cambridge, MA. ISBN 978-0262561693.
externí odkazy
- Demo na serveru Rensselaer MSR (Hodnoty PMI normalizovány tak, aby byly mezi 0 a 1)