Sémantické skládání - Semantic folding
Sémantické skládání Teorie popisuje postup kódování souboru sémantika z přirozený jazyk text v sémanticky zakotveném binární reprezentace. Tento přístup poskytuje rámec pro modelování toho, jak jazyková data zpracovává neokortex.[1]
Teorie
Teorie sémantického skládání čerpá inspiraci Douglas R. Hofstadter je Analogie jako jádro poznání což naznačuje, že mozek dává světu smysl díky identifikaci a aplikaci analogie.[2] Teorie předpokládá, že sémantická data musí být proto uvedena do neokortexu v takové formě, aby umožňovala použití opatření podobnosti a nabízí jako řešení řídký binární vektor využívající dvourozměrnou topografii sémantický prostor jako distribuční referenční rámec. Tato teorie vychází z výpočetní teorie lidské kůry známé jako hierarchická časová paměť (HTM) a staví se jako doplňková teorie pro reprezentaci jazykové sémantiky.
Zvláštní síla, kterou tento přístup tvrdí, je, že výsledná binární reprezentace umožňuje provádět složité sémantické operace jednoduše a efektivně na nejzákladnější výpočetní úrovni.
Dvourozměrný sémantický prostor
Analogicky ke struktuře neokortexu předpokládá teorie sémantického skládání implementaci sémantického prostoru jako dvourozměrné mřížky. Tato mřížka je vyplněna kontextovými vektory[poznámka 1] takovým způsobem, aby byly podobné kontextové vektory umístěny blíže k sobě, například pomocí principů kompetitivního učení. Tento vektorový vesmírný model je v teorii prezentován jako ekvivalent k dobře známému modelu prostoru slov[3] popsáno v Načítání informací literatura.
Vzhledem k tomu, sémantický prostor (implementován, jak je popsáno výše), slovní vektor[poznámka 2] lze získat pro kterékoli dané slovo Y použitím následujícího algoritmus:
Pro každou pozici X na sémantické mapě (kde X představuje Kartézské souřadnice )
pokud je slovo Y obsaženo v kontextovém vektoru na pozici X, přidejte 1 na odpovídající pozici ve slovním vektoru pro Y, přidejte 0 na odpovídající pozici ve slovním vektoru pro Y
Výsledkem tohoto procesu bude slovní vektor obsahující všechny kontexty, ve kterých se slovo Y objevuje, a bude tedy představovat sémantiku tohoto slova v sémantickém prostoru. Je vidět, že výsledný slovní vektor je také ve formátu rozptýlené distribuované reprezentace (SDR) [Schütze, 1993] & [Sahlgreen, 2006].[3][4] Některé vlastnosti slovních SDR, které jsou zvláště zajímavé s ohledem na výpočetní sémantika jsou:[5]
- vysoký odolnost proti hluku: V důsledku toho, že podobné kontexty jsou umístěny blíže k sobě na podkladové mapě, jsou slovní SDR vysoce tolerantní k falešným nebo posunutým „bitům“.
- booleovský logika: Je možné manipulovat se slovem SDR smysluplným způsobem pomocí logických (OR, AND, exclusive-OR) a / nebo aritmetický (SUBtract) funkce.
- dílčí vzorkování: Slovní SDR lze do vysoké míry dílčím vzorkovat, aniž by došlo ke znatelné ztrátě sémantické informace.
- topologická dvourozměrná reprezentace: Reprezentace SDR udržuje topologické rozložení podkladové mapy, proto slova s podobnými významy budou mít podobné slovní vektory. To naznačuje, že při výpočtu lze použít různá opatření sémantická podobnost, od jednoduchého překrytí vektorových prvků až po řadu měr vzdálenosti, například: Euklidovská vzdálenost, Hammingova vzdálenost, Vzdálenost Jaccard, kosinová podobnost, Levenshteinova vzdálenost, Sørensen-Dice index, atd.
Sémantické prostory
Sémantické prostory[Poznámka 3][6] v doméně přirozeného jazyka je cílem vytvořit reprezentace přirozeného jazyka, které jsou schopné zachytit význam. Původní motivace pro sémantické prostory vychází ze dvou hlavních výzev přirozeného jazyka: Neshoda slovníku (skutečnost, že stejný význam lze vyjádřit mnoha způsoby) a dvojznačnost přirozeného jazyka (skutečnost, že stejný termín může mít několik významů).
Aplikace sémantických prostorů v zpracování přirozeného jazyka (NLP) si klade za cíl překonat omezení na základě pravidel nebo modelové přístupy fungující na klíčové slovo úroveň. Hlavní nevýhodou těchto přístupů je jejich křehkost a velké manuální úsilí potřebné k vytvoření buď NLP systémů založených na pravidlech, nebo tréninkových korpusů pro modelové učení.[7][8] Na základě pravidel a strojové učení -založené modely jsou zafixovány na úrovni klíčových slov a rozpadají se, pokud se slovní zásoba liší od slovníku definovaného v pravidlech nebo od školicích materiálů použitých pro statistické modely.
Výzkum v sémantických prostorech sahá více než 20 let. V roce 1996 byly publikovány dva příspěvky, které zvýšily pozornost kolem obecné myšlenky vytváření sémantických prostorů: latentní sémantická analýza[9] z Microsoft a Hyperprostor analogicky k jazyku[10] z University of California. Jejich přijetí však bylo omezeno velkým výpočetním úsilím potřebným pro konstrukci a použití těchto sémantických prostorů. Průlom v oblasti přesnost modelování asociativních vztahů mezi slovy (např. „pavučina“, „zapalovač cigaret“, na rozdíl od synonymních vztahů jako „velryba-delfín“, „astronaut-řidič“) bylo dosaženo explicitní sémantická analýza (ESA)[11] v roce 2007. ESA byl nový přístup (bez strojového učení), který představoval slova ve formě vektorů se 100 000 rozměry (kde každá dimenze představuje článek v Wikipedia ). Praktické aplikace přístupu jsou však omezené kvůli velkému počtu požadovaných rozměrů ve vektorech.
Více nedávno, pokroky v neuronové sítě techniky v kombinaci s dalšími novými přístupy (tenzory ) vedlo k řadě nových nedávných událostí: Word2vec[12] z Google a Rukavice[13] z Stanfordská Univerzita.
Sémantické skládání představuje nový, biologicky inspirovaný přístup k sémantickým prostorům, kde je každé slovo reprezentováno jako řídký binární vektor s 16 000 rozměry (sémantický otisk prstu) ve 2D sémantické mapě (sémantický vesmír). Řídká binární reprezentace je výhodná z hlediska výpočetní efektivity a umožňuje uložení velmi velkého počtu možných vzorů.[5]
Vizualizace
Topologická distribuce na dvourozměrné mřížce (načrtnutá výše) se hodí pro a bitmapa vizualizace typu sémantiky libovolného slova nebo textu, kde lze zobrazit každý aktivní sémantický prvek jako např. A pixel. Jak je vidět na zde zobrazených obrázcích, toto znázornění umožňuje přímé vizuální srovnání sémantiky dvou (nebo více) jazykových položek.
Obrázek 1 jasně ukazuje, že dva rozdílné výrazy „pes“ a „auto“ mají podle očekávání zcela zjevně odlišnou sémantiku.
Obrázek 2 ukazuje, že pouze jeden z významových kontextů „jaguar“, ten „automobil Jaguar“, se překrývá s významem Porsche (což naznačuje částečnou podobnost). Jiné významové kontexty „jaguára“, např. „jaguár“ má zvíře jasně odlišné nepřekrývající se kontexty. Vizualizace sémantické podobnosti pomocí sémantického skládání má silnou podobnost s fMRI obrázky vytvořené ve výzkumné studii provedené A.G.Huthem a kol.,[14] kde se tvrdí, že slova jsou v mozku seskupena podle významu.
Poznámky
Reference
- ^ De Sousa Webber, Francisco (2015). "Teorie sémantického skládání a její aplikace v sémantickém otisku prstu". Cornell University Library. arXiv:1511.08855. Bibcode:2015arXiv151108855D.
- ^ "Analogická mysl". MIT Stiskněte. Citováno 2016-04-18.
- ^ A b Sahlgreen, Magnus (2006). "Word-Space Model".
- ^ Schütze, Hinrich (1993). „Slovní prostor“: 895–902. CiteSeerX 10.1.1.41.8856. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ A b Subutai Ahmad; Jeff Hawkins (2015). "Vlastnosti řídce distribuovaných reprezentací a jejich aplikace na hierarchickou dočasnou paměť". arXiv:1503.07469 [q-bio.NC ].
- ^ Baroni, Marco; Lenci, Alessandro (2010). „Distribuční paměť: Obecný rámec pro sémantiku založenou na korpusu“. Výpočetní lingvistika. 36 (4): 673–721. CiteSeerX 10.1.1.331.3769. doi:10.1162 / coli_a_00016. S2CID 5584134.
- ^ Scott C. Deerwester; Susan T. Dumais; Thomas K. Landauer; George W. Furnas; Richard A. Harshen (1990). „Indexování pomocí latentní sémantické analýzy“ (PDF). Journal of the American Society for Information Science.
- ^ Xing Wei; W. Bruce Croft (2007). „Zkoumání výkonu načítání pomocí ručně vytvořených tematických modelů“. Pokračování sémantického přístupu k obsahu RIAO '07 ve velkém měřítku (text, obrázek, video a zvuk). Riao '07: 333–349.
- ^ „LSA: Řešení Platónova problému“. lsa.colorado.edu. Citováno 2016-04-19.
- ^ Lund, Kevin; Burgess, Curt (01.06.1996). „Produkce výškových sémantických prostorů z lexikálního společného výskytu“. Metody, přístroje a počítače pro výzkum chování. 28 (2): 203–208. doi:10,3758 / BF03204766. ISSN 0743-3808.
- ^ Evgeniy Gabrilovich & Shaul Markovitch (2007). „Výpočet sémantické souvislosti pomocí explicitní sémantické analýzy založené na Wikipedii“ (PDF). Proc. 20. mezinárodní společná konf. O umělé inteligenci (IJCAI). Str. 1606–1611.
- ^ Tomáš Mikolov; Ilya Sutskever; Kai Chen; Greg Corrado; Jeffrey Dean (2013). "Distribuovaná reprezentace slov a frází a jejich kompozice". arXiv:1310.4546 [cs.CL ].
- ^ Jeffrey Pennington; Richard Socher; Christopher D. Manning (2014). „GloVe: Globální vektory pro reprezentaci slov“ (PDF).
- ^ Huth, Alexander (27. dubna 2016). „Přirozená řeč odhaluje sémantické mapy, které pokrývají mozkovou kůru člověka“. Příroda. 532 (7600): 453–458. Bibcode:2016Natur.532..453H. doi:10.1038 / příroda17637. PMC 4852309. PMID 27121839.