Indukce slovního smyslu - Word-sense induction

v výpočetní lingvistika, slovní indukce (WSI) nebo diskriminace je otevřený problém z zpracování přirozeného jazyka, která se týká automatické identifikace smysly a slovo (tj. významy ). Vzhledem k tomu, že výstupem indukce slovního smyslu je sada smyslů pro cílové slovo (inventář smyslů), je tento úkol přísně spojen s úkolem slovní smysl disambiguation (WSD), který se opírá o předem definovaný inventář smyslů a jeho cílem je vyřešit dvojznačnost slov v kontextu.

Přístupy a metody

Výstupem algoritmu indukce slovního smyslu je a shlukování kontextů, ve kterých se cílové slovo vyskytuje, nebo shlukování slov souvisejících s cílovým slovem. V literatuře byly navrženy tři hlavní metody:[1][2]

  • Klastrování kontextu
  • Shlukování slov
  • Grafy společného výskytu

Klastrování kontextu

Základní hypotéza tohoto přístupu je, že slova jsou sémanticky podobné pokud se objevují v podobných dokumentech, v podobných kontextových oknech nebo v podobných syntaktických kontextech.[3] Každý výskyt cílového slova v korpusu je reprezentován jako kontext vektor. Tyto kontextové vektory mohou být buď vektory prvního řádu, které přímo představují kontext po ruce, nebo vektory druhého řádu, tj. Kontexty cílového slova jsou podobné, pokud mají jejich slova tendenci se vyskytovat společně. Vektory jsou poté seskupeny do skupin, z nichž každá identifikuje smysl cílového slova. Známým přístupem ke shlukování kontextu je algoritmus Diskriminační kontext skupiny [4] založené na metodách výpočtu velkých matic.

Shlukování slov

Shlukování slov je jiný přístup k indukci slovních smyslů. Skládá se ze shlukování slov, která jsou sémanticky podobná a mohou tak nést konkrétní význam. Linův algoritmus [5] je prototypickým příkladem shlukování slov, který je založen na statistikách syntaktické závislosti, které se vyskytují v korpusu a vytvářejí sady slov pro každý objevený smysl cílového slova.[6] Klastrování podle výboru (CBC) [7] také používá syntaktické kontexty, ale využívá matici podobnosti k zakódování podobností mezi slovy a spoléhá na představu výborů pro výstup různých smyslů slova zájmu. Tyto přístupy je těžké získat ve velkém měřítku pro mnoho domén a jazyků.

Grafy společného výskytu

Hlavní hypotéza grafů společného výskytu předpokládá, že sémantiku slova lze reprezentovat pomocí společného výskytu graf, jejichž vrcholy jsou společné výskyty a hrany jsou vztahy společného výskytu. Tyto přístupy souvisejí s metodami shlukování slov, kde lze na základě gramatiky získat společné výskyty mezi slovy [8] nebo kolokační vztahy.[9] HyperLex je úspěšný přístup algoritmu grafů založený na identifikaci hubů v grafech společného výskytu, které se musí vyrovnat s potřebou vyladit velké množství parametrů.[10] Pro řešení tohoto problému bylo navrženo několik algoritmů založených na grafech, které jsou založeny na jednoduchých vzorech grafů, a to Curvature Clustering, Squares, Triangles and Diamonds (SquaT ++) a Balanced Maximum Spanning Tree Clustering (B-MST).[11] Cílem vzorů je identifikovat významy pomocí místních strukturálních vlastností grafu společného výskytu. Randomizovaný algoritmus, který rozděluje vrcholy grafu iterativním přenosem zprávy hlavního proudu (tj. Smyslu slova) na sousední vrcholy[12] je čínský šepot. Použitím grafů společného výskytu se ukázalo, že přístupy dosahují nejmodernějšího výkonu ve standardních úlohách hodnocení.

Aplikace

  • Ukázalo se, že indukce slova má výhodu při načítání webových informací, když se používají vysoce nejednoznačné dotazy.[9]
  • Jednoduché indukční algoritmy rozpoznávání slova se zvyšují Shlukování výsledků vyhledávání na webu výrazně zlepšit a zlepšit diverzifikaci výsledků vyhledávání vrácených vyhledávači, jako je Yahoo![13]
  • K obohacení byla použita slovní indukce lexikální zdroje jako WordNet.[14]

Software

  • SenseClusters je volně dostupný softwarový balíček s otevřeným zdrojovým kódem, který provádí jak kontextové shlukování, tak shlukování slov.

Viz také

Reference

  1. ^ Navigli, R. (2009). „Word Sense Disambiguation: A Survey“ (PDF). ACM Computing Surveys. 41 (2): 1–69. doi:10.1145/1459352.1459355. S2CID  461624.
  2. ^ Nasiruddin, M. (2013). Nejmodernější indukce slovního smyslu: Cesta k disambiguaci slovního smyslu pro jazyky s nedostatečným zdrojem (PDF). TALN-RÉCITAL 2013. Les Sables d'Olonne, Francie. str. 192–205.
  3. ^ Van de Cruys, T. (2010). „Těžba ve smyslu. Extrakce lexiko-sémantických znalostí z textu“ (PDF). Citovat deník vyžaduje | deník = (Pomoc)
  4. ^ Schütze, H. (1998). Rozměry významu. 1992 Konference ACM / IEEE o superpočítačích. Los Alamitos, CA: IEEE Computer Society Press. 787–796. doi:10.1109 / SUPERC.1992.236684.
  5. ^ Lin, D. (1998). Automatické načítání a shlukování podobných slov (PDF). 17. mezinárodní konference o počítačové lingvistice (COLING). Montreal, Kanada. str. 768–774.
  6. ^ Van de Cruys, Tim; Apidianaki, Marianna (2011). „Indukce a disambiguace latentního sémantického slova“ (PDF). Citovat deník vyžaduje | deník = (Pomoc)
  7. ^ Lin, D .; Pantel, P. (2002). Objevování slovních smyslů z textu. 8. mezinárodní konference o získávání znalostí a dolování dat (KDD). Edmonton, Kanada. str. 613–619. CiteSeerX  10.1.1.12.6771.
  8. ^ Widdows, D .; Dorow, B. (2002). Grafický model pro lexikální akvizici bez dozoru (PDF). 19. mezinárodní konference o počítačové lingvistice (COLING). Taipei, Taiwan. s. 1–7.
  9. ^ A b Véronis, J. (2004). „Hyperlex: Lexikální kartografie pro vyhledávání informací“ (PDF). Počítačová řeč a jazyk. 18 (3): 223–252. CiteSeerX  10.1.1.66.6499. doi:10.1016 / j.csl.2004.05.002.
  10. ^ Agirre, E .; Martinez, D .; De Lacalle, O. Lopez; Soroa, A. Dva algoritmy založené na grafech pro nejmodernější WSD (PDF). Konference 2006 o empirických metodách zpracování přirozeného jazyka (EMNLP). Sydney, Austrálie. str. 585–593.
  11. ^ Di Marco, A .; Navigli, R. (2013). „Seskupování a diverzifikace výsledků vyhledávání na webu s indukcí slovního smyslu založenou na grafech“ (PDF). Výpočetní lingvistika. 39 (3): 709–754. doi:10.1162 / coli_a_00148. S2CID  1775181.
  12. ^ Biemann, C. (2006). „Čínský šepot - efektivní algoritmus shlukování grafů a jeho aplikace na problémy se zpracováním přirozeného jazyka“ (PDF). Citovat deník vyžaduje | deník = (Pomoc)
  13. ^ Navigli, R .; Crisafulli, G. Vyvolávání slovních smyslů pro zlepšení shlukování výsledků vyhledávání na webu (PDF). Konference o empirických metodách zpracování přirozeného jazyka v roce 2010 (EMNLP 2010). Massachusetts, USA: MIT Stata Center. str. 116–126.
  14. ^ Nasiruddin, M .; Schwab, D .; Tchechmedjiev, A .; Sérasset, G .; Blanchon, H. Induction de sens pour enrichir des ressources lexicales (Word Sense Induction for the Enrichment of Lexical Resources) (PDF). 21ème conférence sur le Traitement Automatique des Langues Naturelles (TALN 2014). Marseille, Francie. str. 598–603.