Distribuční sémantika - Distributional semantics

Distribuční sémantika je oblast výzkumu, která vyvíjí a studuje teorie a metody pro kvantifikaci a kategorizaci sémantických podobností mezi lingvistickými položkami na základě jejich distribučních vlastností ve velkých vzorcích jazykových dat. Základní myšlenku distribuční sémantiky lze shrnout do tzv Distribuční hypotéza: jazykové položky s podobným rozdělením mají podobný význam.

Distribuční hypotéza

The distribuční hypotéza v lingvistika je odvozen z sémantická teorie používání jazyka, tj. slova, která se používají a vyskytují se ve stejném kontexty mají sklon vykládat podobné významy.[1]

Základní myšlenka, že „slovo se vyznačuje společností, kterou uchovává“, popularizovala Firth v padesátých letech.[2]

Distribuční hypotéza je základem pro statistická sémantika. Ačkoli distribuční hypotéza vznikla v lingvistice,[3] nyní dostává pozornost v kognitivní věda zejména pokud jde o kontext používání slov.[4]

V posledních letech distribuční hypotéza poskytla základ pro teorii zobecnění založené na podobnosti ve výuce jazyků: myšlenka, že děti mohou přijít na to, jak používat slova, se kterými se zřídkakdy setkaly, zobecněním jejich používání z distribucí podobných slov.[5][6]

Distribuční hypotéza naznačuje, že čím více sémanticky podobná dvě slova jsou, tím více si budou distribučně podobná, a tím více se tedy budou vyskytovat v podobných jazykových kontextech.

Zda tento návrh platí, či nikoli, má významné důsledky pro obě datová sparita problém ve výpočetním modelování,[7] a na otázku, jak jsou děti schopny se tak rychle naučit jazyk vzhledem k relativně chudému vstupu (to se také nazývá problém chudoba stimulu ).

Distribuční sémantické modelování ve vektorových prostorech

Distribuční sémantika upřednostňuje použití lineární algebry jako výpočetního nástroje a reprezentačního rámce. Základním přístupem je shromažďování distribučních informací ve vysokodimenzionálních vektorech a definování distribuční / sémantické podobnosti z hlediska vektorové podobnosti.[8] Lze extrahovat různé druhy podobností v závislosti na tom, jaký typ distribučních informací se používá ke sběru vektorů: aktuální podobnosti lze extrahovat naplněním vektorů informacemi, ve kterých textových oblastech se jazykové položky vyskytují; paradigmatický podobnosti lze extrahovat naplněním vektorů informacemi, s kterými dalšími lingvistickými položkami se tyto položky vyskytují společně. Všimněte si, že druhý typ vektorů lze také použít k extrakci syntagmatický podobnosti při pohledu na jednotlivé vektorové komponenty.

Základní myšlenka korelace mezi distribuční a sémantickou podobností může být realizována mnoha různými způsoby. Existuje široká škála výpočetních modelů implementujících distribuční sémantiku, včetně latentní sémantická analýza (LSA),[9][10] Hyperprostor analogicky k jazyku (HAL), modely založené na syntaxi nebo závislosti,[11] náhodné indexování, sémantické skládání[12] a různé varianty tematický model.[13]

Distribuční sémantické modely se liší primárně s ohledem na následující parametry:

Distribuční sémantické modely, které používají lingvistické položky jako kontext, byly také označovány jako slovo prostor nebo modely vektorového prostoru.[15][16]

Kromě lexikální sémantiky

Zatímco distribuční sémantika byla obvykle aplikována na lexikální položky - slova a víceslovné výrazy - se značným úspěchem, v neposlední řadě kvůli její použitelnosti jako vstupní vrstvy pro neurálně inspirované modely hlubokého učení, lexikální sémantika, tj. Význam slov, bude pouze nést část sémantiky celé promluvy. Význam klauze, např. „Tygři milují králíky.“, lze pochopit jen částečně ze zkoumání významu tří lexikálních položek, z nichž se skládá. Distribuční sémantiku lze přímo rozšířit tak, aby zahrnovala větší jazykové položky, jako jsou konstrukce, s položkami bez instance a bez nich, ale některé základní předpoklady modelu je třeba trochu upravit. Konstrukční gramatika a jeho formulace lexikálně-syntaktického kontinua nabízí jeden přístup k zahrnutí propracovanějších konstrukcí do distribučního sémantického modelu a některé experimenty byly implementovány pomocí přístupu náhodného indexování.[17]

Kompoziční distribuční sémantika modely rozšiřují distribuční sémantické modely o explicitní sémantické funkce, které pomocí syntakticky založených pravidel kombinují sémantiku zúčastněných lexikálních jednotek do kompoziční model charakterizovat sémantiku celých frází nebo vět. Byly prozkoumány různé přístupy ke kompozici - včetně neurálních modelů - a jsou diskutovány na zavedených workshopech, jako je SemEval.[18]

Aplikace

Distribuční sémantické modely byly úspěšně použity u následujících úkolů:

Software

Viz také

Lidé

Reference

  1. ^ Harris 1954
  2. ^ Firth 1957
  3. ^ Sahlgren 2008
  4. ^ McDonald & Ramscar 2001
  5. ^ Gleitman 2002
  6. ^ Yarlett 2008
  7. ^ Wishart, Ryder a Prokopis Prokopidis. "Experimenty s modelováním témat na helénistických korpusech." v Sborník workshopů o korpusech v digitálních humanitních oborech 17, 39–47. Bloomington, IN: Sborník workshopů CEUR, 2017, online: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf.
  8. ^ Rieger 1991
  9. ^ Deerwester a kol. 1990
  10. ^ Landauer, Thomas K .; Dumais, Susan T. (1997). „Řešení Platónova problému: Latentní teorie sémantické analýzy získávání, indukce a reprezentace znalostí“. Psychologický přehled. 104 (2): 211–240. doi:10.1037 / 0033-295x.104.2.211. ISSN  1939-1471.
  11. ^ Padó & Lapata 2007
  12. ^ De Sousa Webber, Francisco (2015). "Sémantická teorie skládání a její aplikace v sémantickém otisku prstu". arXiv:1511.08855 [cs.AI ].
  13. ^ Jordan, Michael I .; Ng, Andrew Y .; Blei, David M. (2003). „Přidělení latentního dirichletu“. Journal of Machine Learning Research. 3 (Jan): 993–1022. ISSN  1533-7928.
  14. ^ Kostel, Kenneth Ward; Hanks, Patrick (1989). „Normy asociace slov, vzájemné informace a lexikografie“. Sborník 27. výročního zasedání Asociace pro počítačovou lingvistiku -. Morristown, NJ, USA: Association for Computational Linguistics: 76–83. doi:10.3115/981623.981633.
  15. ^ Schütze 1993
  16. ^ Sahlgren 2006
  17. ^ Karlgren, Jussi; Kanerva, Pentti (2019). „Vysokodimenzionální distribuované sémantické prostory pro promluvy“. Přirozené jazykové inženýrství. 25 (4): 503–517. doi:10.1017 / S1351324919000226. Citováno 2020-04-13.
  18. ^ „SemEval-2014, úkol 1“.

Zdroje

externí odkazy