Sémantický prostor - Semantic space

Sémantické prostory[poznámka 1][1] v doméně přirozeného jazyka je cílem vytvořit reprezentace přirozeného jazyka, které jsou schopné zachytit význam. Původní motivace pro sémantické prostory vychází ze dvou hlavních výzev přirozeného jazyka: Neshoda slovníku (skutečnost, že stejný význam lze vyjádřit mnoha způsoby) a dvojznačnost přirozeného jazyka (skutečnost, že stejný termín může mít několik významů).

Aplikace sémantických prostorů v zpracování přirozeného jazyka (NLP) si klade za cíl překonat omezení na základě pravidel nebo modelové přístupy fungující na klíčové slovo úroveň. Hlavní nevýhodou těchto přístupů je jejich křehkost a velké manuální úsilí potřebné k vytvoření buď NLP systémů založených na pravidlech, nebo tréninkových korpusů pro modelové učení.[2][3] Na základě pravidel a strojové učení založené modely jsou zafixovány na úrovni klíčových slov a rozpadají se, pokud se slovní zásoba liší od slovníku definovaného v pravidlech nebo od školicího materiálu použitého pro statistické modely.

Výzkum v sémantických prostorech sahá více než 20 let. V roce 1996 byly publikovány dva příspěvky, které zvýšily pozornost kolem obecné myšlenky vytváření sémantických prostorů: latentní sémantická analýza[4] a Hyperprostor analogicky k jazyku.[5] Jejich přijetí však bylo omezeno velkým výpočetním úsilím potřebným pro konstrukci a použití těchto sémantických prostorů. Průlom v oblasti přesnost modelování asociativních vztahů mezi slovy (např. „pavučina“, „zapalovač cigaret“, na rozdíl od synonymních vztahů jako „velryba-delfín“, „astronaut-řidič“) bylo dosaženo explicitní sémantická analýza (ESA)[6] v roce 2007. ESA byl nový přístup (bez strojového učení), který představoval slova ve formě vektorů se 100 000 rozměry (kde každá dimenze představuje článek v Wikipedia ). Praktické aplikace přístupu jsou však omezené kvůli velkému počtu požadovaných rozměrů ve vektorech.

Více nedávno, pokroky v nervová síť techniky v kombinaci s dalšími novými přístupy (tenzory ) vedlo k řadě nových nedávných událostí: Word2vec[7] z Google, Rukavice[8] z Stanfordská Univerzita, a fastText[9] z Facebook Laboratoře AI Research (FAIR).

Viz také

Reference

  1. ^ označované také jako distribuované sémantické prostory nebo distribuovaná sémantická paměť
  1. ^ Baroni, Marco; Lenci, Alessandro (2010). „Distribuční paměť: Obecný rámec pro sémantiku založenou na korpusu“. Výpočetní lingvistika. 36 (4): 673–721. CiteSeerX  10.1.1.331.3769. doi:10.1162 / coli_a_00016. S2CID  5584134.
  2. ^ Scott C. Deerwester; Susan T. Dumais; Thomas K. Landauer; George W. Furnas; Richard A. Harshen (1990). „Indexování pomocí latentní sémantické analýzy“ (PDF). Journal of the American Society for Information Science.
  3. ^ Xing Wei; W. Bruce Croft (2007). „Zkoumání výkonu načítání pomocí ručně vytvořených tematických modelů“. Pokračování sémantického přístupu k obsahu RIAO '07 ve velkém měřítku (text, obrázek, video a zvuk). Riao '07: 333–349.
  4. ^ „LSA: Řešení Platónova problému“. lsa.colorado.edu. Citováno 2016-04-19.
  5. ^ Lund, Kevin; Burgess, Curt (01.06.1996). „Produkce výškových sémantických prostorů z lexikálního společného výskytu“. Metody, přístroje a počítače pro výzkum chování. 28 (2): 203–208. doi:10,3758 / BF03204766. ISSN  0743-3808.
  6. ^ Evgeniy Gabrilovich & Shaul Markovitch (2007). „Výpočet sémantické souvislosti pomocí explicitní sémantické analýzy založené na Wikipedii“ (PDF). Proc. 20. mezinárodní společná konf. O umělé inteligenci (IJCAI). Str. 1606–1611.
  7. ^ Tomáš Mikolov; Ilya Sutskever; Kai Chen; Greg Corrado; Jeffrey Dean (2013). "Distribuovaná reprezentace slov a frází a jejich kompozice". arXiv:1310.4546 [cs.CL ].
  8. ^ Jeffrey Pennington; Richard Socher; Christopher D. Manning (2014). „GloVe: Globální vektory pro reprezentaci slov“ (PDF).
  9. ^ Mannes, John. „Knihovna fastText Facebooku je nyní optimalizována pro mobilní zařízení“. TechCrunch. Citováno 12. ledna 2018.