Lexikální substituce - Lexical substitution - Wikipedia
Lexikální substituce je úkolem identifikovat náhražku slova v kontextu věty. Například vzhledem k následujícímu textu: „Po zápas, nahradit veškerý zbývající nedostatek tekutin, aby se zabránilo chronické dehydrataci během turnaje ", náhrada hra může být dána.
Lexikální substituce úzce souvisí s slovní smysl disambiguation (WSD), protože obě mají za cíl určit význam slova. Zatímco WSD spočívá v automatickém přiřazení příslušných smysl z inventáře s pevným smyslem lexikální substituce neklade žádné omezení, které by si substituent vybral jako nejlepšího zástupce slova v kontextu. Nepředepisováním inventáře překonává lexikální substituce problém zrnitosti rozlišování smyslů a poskytuje rovné podmínky pro automatické systémy, které automaticky získávají slovní smysly (úkol označovaný jako Indukce slovního smyslu ).
Hodnocení
Za účelem vyhodnocení automatických systémů na lexikální substituci byl na Úřadu organizován úkol Semeval-2007 hodnotící soutěž konaná v r Praha v roce 2007. A Semeval-2010 proběhla rovněž úloha týkající se vícejazyčné lexikální substituce.
Model přeskočení
Model skip-gram převezme slova s podobným významem do vektorového prostoru (kolekce objektů, které lze sčítat a vynásobit čísly), která se nacházejí blízko sebe v N-dimenzích (seznam položek). Různé neuronové sítě (počítačový systém po vzoru lidského mozku) se tvoří společně jako výsledek vektorů a sítí, které spolu souvisejí. To vše se vyskytuje v dimenzích slovníku, který byl vygenerován v síti.[1]Tento model byl použit v lexikální substituční automatizaci a predikčních algoritmech. Jeden takový algoritmus vyvinutý Orenem Melamudem, Omerem Levym a Ido Daganem používá model skip-gram k vyhledání vektoru pro každé slovo a jeho synonyma. Poté vypočítá kosinovou vzdálenost mezi vektory a určí, která slova budou nejlepšími náhradami.[2]
Příklad
Ve větě jako „Pes šel rychlým tempem“ má každé slovo konkrétní vektor ve vztahu k druhému. Vektor „The“ by byl [1,0,0,0,0,0,0], protože 1 je slovo slovníku a 0s jsou slova obklopující tento slovník, které vytvářejí vektor.
Viz také
Bibliografie
- D. McCarthy, R. Navigli. Úloha anglické lexikální substituce. Jazykové zdroje a hodnocení, 43 (2), Springer, 2009, s. 139–159.
- D. McCarthy, R. Navigli. SemEval-2007 Task 10: English Lexical Substitution Task. Proc. semináře Semeval-2007 (SEMEVAL), na 45. výročním zasedání Asociace pro počítačovou lingvistiku (ACL 2007), Praha, Česká republika, 23. – 24. června 2007, s. 48–53.
- D. McCarthy. Lexikální substituce jako úkol pro hodnocení WSD. In Proceedings of the ACL workshop on word sense disambiguation: Recent successes and future direction, Philadelphia, USA, 2002, str. 109–115.
- R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41 (2), 2009, s. 1–69.
Reference
- ^ Barazza, Leonardo. „Jak funguje Skip-Gram Word2Vec?“. Stávat se člověkem.
- ^ Melamud, Oren; Levy, Omer; Dagan, Ido (5. června 2015). „Jednoduchý model vkládání slov pro Lexikální nahrazování“. Sborník NAACL-HLT 201: 1–7. Citováno 16. dubna 2018.
Tento výpočetní lingvistika související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |