Yarowskyho algoritmus - Yarowsky algorithm - Wikipedia

v výpočetní lingvistika the Yarowskyho algoritmus je neřízené učení algoritmus pro slovní smysl disambiguation který používá "jeden smysl za kolokace "a vlastnosti" jeden smysl na diskurz " lidské jazyky pro slovní smysl disambiguation. Z pozorování mají slova tendenci projevovat pouze jeden smysl ve většině daných diskurzů a v dané kolokaci.

aplikace

Algoritmus začíná velkým, neoznačeným korpus, ve kterém identifikuje příklady daného polysemózní slovo a ukládá všechny relevantní věty jako čáry. Například Yarowsky ve své práci z roku 1995 používá slovo „rostlina“ k předvedení algoritmu. Pokud se předpokládá, že existují dva možné smysly slova, dalším krokem je identifikovat malý počet kolokací semen reprezentujících každý smysl, dát každému smyslu štítek (tj. Smysl A a B), poté přiřadit odpovídající štítek všechny příklady tréninku obsahující kolokace semen. V tomto případě jsou slova „život“ a „výroba“ vybrána jako počáteční kolokace semen pro smysly A a B. Zbývající příklady (85% - 98% podle Yarowského) zůstávají neoznačené.

Algoritmus by měl zpočátku zvolit reprezentativní kolokační semena, která budou rozlišovat smysl A a B přesně a produktivně. Toho lze dosáhnout výběrem úvodních slov z a slovník Vstup pro tento smysl. Kolokace mají tendenci mít silnější účinek, pokud sousedí s cílovým slovem, účinek slabne se vzdáleností. Podle kritérií uvedených v Yarowsky (1993) budou vybrána počáteční slova, která se objeví v nejspolehlivějších kolokačních vztazích s cílovým slovem. Efekt je mnohem silnější pro slova v a predikát -argumentový vztah než pro libovolné asociace ve stejné vzdálenosti od cílového slova a je mnohem silnější pro kolokace s obsahovými slovy než s funkčními slovy. Když to řekneme, kolokační slovo může mít v celém korpusu několik kolokačních vztahů s cílovým slovem. To by mohlo dát slovu různé žebříčky nebo dokonce různé klasifikace. Alternativně to lze provést identifikováním jednoho definujícího kolokace pro každou třídu a použitím pro semena pouze kontexty obsahující jedno z těchto definujících slov. Veřejně dostupná databáze WordNet lze použít jako automatický zdroj pro takové definující pojmy. Kromě toho mohou být slova, která se vyskytují poblíž cílového slova s velkou frekvencí, vybrána jako reprezentativní kolokace semen. Tento přístup není plně automatický, lidský soudce musí rozhodnout, které slovo bude vybráno pro smysl každého cílového slova, výstupy budou spolehlivými indikátory smyslů.

A seznam rozhodnutí Algoritmus se poté použije k identifikaci dalších spolehlivých kolokací. Tento tréninkový algoritmus vypočítá pravděpodobnost Pr (smysl | kolokace) a seznam rozhodnutí je seřazen podle poměru pravděpodobnosti protokolu:

{ displaystyle log left ({ frac { Pr ({ text {Sense}} _ {A} | { text {Collocation}} _ {i})}} { Pr ({ text {Sense} } _ {B} | { text {Collocation}} _ {i})}} right)}

A vyhlazení pak bude použit algoritmus, aby se zabránilo 0 hodnotám. Algoritmus seznamu rozhodnutí řeší mnoho problémů ve velké sadě nezávislých zdrojů důkazů tím, že používá pouze nejspolehlivější důkaz místo celé odpovídající kolokační sady.

Nový výsledný klasifikátor se poté použije na celou sadu vzorků. Přidejte tyto příklady do souboru reziduální které jsou označeny jako A nebo B s pravděpodobností nad rozumnou prahovou hodnotou pro sady semen. Aplikuje se algoritmus seznamu rozhodnutí a výše uvedený krok přidání iterativně. Jak se do sad semen přidávají další nově naučené kolokace, roste sada sense A nebo sense B a původní reziduum se zmenší. Tyto kolokace však zůstávají v sadách semen pouze v případě, že jejich pravděpodobnost klasifikace zůstane nad prahovou hodnotou, jinak jsou vráceny zbytku pro pozdější klasifikaci. Na konci každé iterace lze vlastnost „jeden smysl na diskurz“ použít k prevenci původně chybně označených kolokátů, a tím ke zlepšení čistoty sad semen.

Aby se silné ukazatele nesprávné třídy nestaly silnými kolokáty, je třeba náhodně změnit prahovou hodnotu pro zařazení do třídy. Ze stejného důvodu bude po mezilehlé konvergenci algoritmus také potřebovat zvětšit šířku kontextového okna.

Algoritmus bude pokračovat v iteraci, dokud nebudou nalezeny žádné spolehlivější kolokace. Pro opravu chyb zde lze použít vlastnost „Jeden smysl na diskurz“. U cílového slova, které má rozdělení v binárním smyslu, pokud výskyty většinového smyslu A přesáhnou výskyt malého smyslu B o určitou prahovou hodnotu, budou menšinové ty označeny jako A. Podle Yarowského, aby jakýkoli smysl byl jasně dominantní, výskyty cílového slova by neměly být menší než 4.

Když algoritmus konverguje na stabilní zbytkovou množinu, získá se seznam konečného rozhodnutí cílového slova. Nejspolehlivější kolokace jsou na začátku nového seznamu namísto původních počátečních slov. Původní neoznačený korpus je poté označen smyslovými štítky a pravděpodobnostmi. Seznam konečných rozhodnutí lze nyní použít na nová data, ke klasifikaci nových dat se použije kolokace s nejvyšší hodností v seznamu. Například pokud nejvyšší umístění v cílovém slově v nové datové sadě má smysl A, pak je cílové slovo klasifikováno jako smysl A.

Viz také

Reference

Yarowsky, D. "Nesledovaná slovní smyslová disambiguace soupeřící s kontrolovanými metodami". Sborník z 33. výročního zasedání Asociace pro počítačovou lingvistiku. Cambridge, MA, s. 189–196, 1995.