Bodový vzájemný výskyt společného výskytu druhého řádu - Second-order co-occurrence pointwise mutual information

v výpočetní lingvistika, společný výskyt druhého řádu bodová vzájemná informace je sémantická podobnost opatření. Posoudit stupeň sdružení mezi dvěma danými slovy, používá bodová vzájemná informace (PMI) seřadí seznam důležitých sousedních slov dvou cílových slov z velkého korpus.

Dějiny

Metoda PMI-IR[je zapotřebí objasnění ] použitý AltaVista Vypočítat syntaxi dotazu Advanced Search pravděpodobnosti. Pamatujte, že vyhledávací operátor „NEAR“ AltaVista je základním operátorem v metodě PMI-IR.[Citace je zapotřebí ] V AltaVista se však již nepoužívá; to znamená, že z hlediska implementace není možné v nových systémech použít metodu PMI-IR ve stejné formě. V každém případě je z hlediska algoritmu výhodou použití SOC-PMI to, že dokáže vypočítat podobnost mezi dvěma slovy, která se vyskytují společně často, protože se vyskytují společně se stejnými sousedními slovy. Například Britský národní korpus (BNC) se používá jako zdroj frekvencí a kontextů.

Metodologie

Metoda bere v úvahu slova, která jsou běžná v obou seznamech, a agreguje jejich hodnoty PMI (z opačného seznamu) pro výpočet relativní sémantické podobnosti. Definujeme bodová vzájemná informace funkce pouze pro ta slova, která mají ,

kde nám říká, kolikrát ten typ objevil se v celém korpusu, nám říká, kolikrát slovo objevil se slovem v kontextovém okně a je celkový počet žetonů v korpusu. Nyní, slovo , definujeme množinu slov, , seřazeno sestupně podle jejich hodnot PMI s a vzal si nejvyšší slova mající .

Sada , obsahuje slova ,

, kde a

A pravidlo se používá k výběru hodnoty . The -PMI součet funkce slova je definována s ohledem na jiné slovo. Pro slovo s ohledem na slovo to je:

kde který shrnuje všechny kladné hodnoty PMI slov v sadě společné také pro slova v sadě . Jinými slovy, tato funkce ve skutečnosti agreguje kladné hodnoty PMI všech sémanticky blízkých slov které jsou také běžné v seznam. by měl mít hodnotu větší než 1. Takže -PMI součet funkce pro slovo s ohledem na slovo mít a -PMI součet funkce pro slovo s ohledem na slovo mít jsou

a

resp.

Nakonec sémantická podobnost PMI funkce mezi dvěma slovy, a , je definován jako

Sémantická podobnost slova je normalizována, takže poskytuje skóre podobnosti mezi a inkluzivně. Normalizace algoritmu sémantické podobnosti vrací normalizované skóre podobnosti mezi dvěma slovy. Jako argument to bere dvě slova, a a maximální hodnota, , která je vrácena funkcí sémantické podobnosti, Sim (). Vrátí skóre podobnosti mezi 0 a 1 včetně. Například algoritmus vrátí 0,986 pro slova hřbitov a hřbitov s (pro metodu SOC-PMI).

Reference