Distribuční sémantika - Distributional semantics
Distribuční sémantika je oblast výzkumu, která vyvíjí a studuje teorie a metody pro kvantifikaci a kategorizaci sémantických podobností mezi lingvistickými položkami na základě jejich distribučních vlastností ve velkých vzorcích jazykových dat. Základní myšlenku distribuční sémantiky lze shrnout do tzv Distribuční hypotéza: jazykové položky s podobným rozdělením mají podobný význam.
Distribuční hypotéza
The distribuční hypotéza v lingvistika je odvozen z sémantická teorie používání jazyka, tj. slova, která se používají a vyskytují se ve stejném kontexty mají sklon vykládat podobné významy.[1]
Základní myšlenka, že „slovo se vyznačuje společností, kterou uchovává“, popularizovala Firth v padesátých letech.[2]
Distribuční hypotéza je základem pro statistická sémantika. Ačkoli distribuční hypotéza vznikla v lingvistice,[3] nyní dostává pozornost v kognitivní věda zejména pokud jde o kontext používání slov.[4]
V posledních letech distribuční hypotéza poskytla základ pro teorii zobecnění založené na podobnosti ve výuce jazyků: myšlenka, že děti mohou přijít na to, jak používat slova, se kterými se zřídkakdy setkaly, zobecněním jejich používání z distribucí podobných slov.[5][6]
Distribuční hypotéza naznačuje, že čím více sémanticky podobná dvě slova jsou, tím více si budou distribučně podobná, a tím více se tedy budou vyskytovat v podobných jazykových kontextech.
Zda tento návrh platí, či nikoli, má významné důsledky pro obě datová sparita problém ve výpočetním modelování,[7] a na otázku, jak jsou děti schopny se tak rychle naučit jazyk vzhledem k relativně chudému vstupu (to se také nazývá problém chudoba stimulu ).
Distribuční sémantické modelování ve vektorových prostorech
Distribuční sémantika upřednostňuje použití lineární algebry jako výpočetního nástroje a reprezentačního rámce. Základním přístupem je shromažďování distribučních informací ve vysokodimenzionálních vektorech a definování distribuční / sémantické podobnosti z hlediska vektorové podobnosti.[8] Lze extrahovat různé druhy podobností v závislosti na tom, jaký typ distribučních informací se používá ke sběru vektorů: aktuální podobnosti lze extrahovat naplněním vektorů informacemi, ve kterých textových oblastech se jazykové položky vyskytují; paradigmatický podobnosti lze extrahovat naplněním vektorů informacemi, s kterými dalšími lingvistickými položkami se tyto položky vyskytují společně. Všimněte si, že druhý typ vektorů lze také použít k extrakci syntagmatický podobnosti při pohledu na jednotlivé vektorové komponenty.
Základní myšlenka korelace mezi distribuční a sémantickou podobností může být realizována mnoha různými způsoby. Existuje široká škála výpočetních modelů implementujících distribuční sémantiku, včetně latentní sémantická analýza (LSA),[9][10] Hyperprostor analogicky k jazyku (HAL), modely založené na syntaxi nebo závislosti,[11] náhodné indexování, sémantické skládání[12] a různé varianty tematický model.[13]
Distribuční sémantické modely se liší primárně s ohledem na následující parametry:
- Typ kontextu (textové oblasti vs. jazykové položky)
- Kontextové okno (velikost, rozšíření atd.)
- Frekvenční vážení (např. entropie, bodová vzájemná informace,[14] atd.)
- Zmenšení rozměrů (např. náhodné indexování, rozklad singulární hodnoty, atd.)
- Měření podobnosti (např. kosinová podobnost, Minkowského vzdálenost, atd.)
Distribuční sémantické modely, které používají lingvistické položky jako kontext, byly také označovány jako slovo prostor nebo modely vektorového prostoru.[15][16]
Kromě lexikální sémantiky
Zatímco distribuční sémantika byla obvykle aplikována na lexikální položky - slova a víceslovné výrazy - se značným úspěchem, v neposlední řadě kvůli její použitelnosti jako vstupní vrstvy pro neurálně inspirované modely hlubokého učení, lexikální sémantika, tj. Význam slov, bude pouze nést část sémantiky celé promluvy. Význam klauze, např. „Tygři milují králíky.“, lze pochopit jen částečně ze zkoumání významu tří lexikálních položek, z nichž se skládá. Distribuční sémantiku lze přímo rozšířit tak, aby zahrnovala větší jazykové položky, jako jsou konstrukce, s položkami bez instance a bez nich, ale některé základní předpoklady modelu je třeba trochu upravit. Konstrukční gramatika a jeho formulace lexikálně-syntaktického kontinua nabízí jeden přístup k zahrnutí propracovanějších konstrukcí do distribučního sémantického modelu a některé experimenty byly implementovány pomocí přístupu náhodného indexování.[17]
Kompoziční distribuční sémantika modely rozšiřují distribuční sémantické modely o explicitní sémantické funkce, které pomocí syntakticky založených pravidel kombinují sémantiku zúčastněných lexikálních jednotek do kompoziční model charakterizovat sémantiku celých frází nebo vět. Byly prozkoumány různé přístupy ke kompozici - včetně neurálních modelů - a jsou diskutovány na zavedených workshopech, jako je SemEval.[18]
Aplikace
Distribuční sémantické modely byly úspěšně použity u následujících úkolů:
- nález sémantická podobnost mezi slovy a víceslovnými výrazy;
- shlukování slov na základě sémantické podobnosti;
- automatické vytváření tezaury a dvojjazyčné slovníky;
- slovní smysl disambiguation;
- rozšíření požadavků na vyhledávání pomocí synonym a přidružení;
- definování tématu dokumentu;
- shlukování dokumentů pro vyhledávání informací;
- dolování dat a uznání pojmenovaných entit;
- vytváření sémantické mapy různých předmětných domén;
- parafrázovat;
- analýza sentimentu;
- modelování výběrových preferencí slov.
Software
Viz také
- Koncepční prostor
- Společný výskyt
- Gensim
- Phraseme
- Náhodné indexování
- Vkládání věty
- Statistická sémantika
- Word2vec
- Vkládání slov
Lidé
- Scott Deerwester
- Susan Dumais
- J. R. Firth
- George Furnas
- Zellig Harris
- Richard Hirschman
- Thomas Landauer
- Magnus Sahlgren
- Hinrich Schütze
Reference
- ^ Harris 1954
- ^ Firth 1957
- ^ Sahlgren 2008
- ^ McDonald & Ramscar 2001
- ^ Gleitman 2002
- ^ Yarlett 2008
- ^ Wishart, Ryder a Prokopis Prokopidis. "Experimenty s modelováním témat na helénistických korpusech." v Sborník workshopů o korpusech v digitálních humanitních oborech 17, 39–47. Bloomington, IN: Sborník workshopů CEUR, 2017, online: https://pdfs.semanticscholar.org/bd71/ab40960e481006117bafd0ae952d3e8d1f66.pdf.
- ^ Rieger 1991
- ^ Deerwester a kol. 1990
- ^ Landauer, Thomas K .; Dumais, Susan T. (1997). „Řešení Platónova problému: Latentní teorie sémantické analýzy získávání, indukce a reprezentace znalostí“. Psychologický přehled. 104 (2): 211–240. doi:10.1037 / 0033-295x.104.2.211. ISSN 1939-1471.
- ^ Padó & Lapata 2007
- ^ De Sousa Webber, Francisco (2015). "Sémantická teorie skládání a její aplikace v sémantickém otisku prstu". arXiv:1511.08855 [cs.AI ].
- ^ Jordan, Michael I .; Ng, Andrew Y .; Blei, David M. (2003). „Přidělení latentního dirichletu“. Journal of Machine Learning Research. 3 (Jan): 993–1022. ISSN 1533-7928.
- ^ Kostel, Kenneth Ward; Hanks, Patrick (1989). „Normy asociace slov, vzájemné informace a lexikografie“. Sborník 27. výročního zasedání Asociace pro počítačovou lingvistiku -. Morristown, NJ, USA: Association for Computational Linguistics: 76–83. doi:10.3115/981623.981633.
- ^ Schütze 1993
- ^ Sahlgren 2006
- ^ Karlgren, Jussi; Kanerva, Pentti (2019). „Vysokodimenzionální distribuované sémantické prostory pro promluvy“. Přirozené jazykové inženýrství. 25 (4): 503–517. doi:10.1017 / S1351324919000226. Citováno 2020-04-13.
- ^ „SemEval-2014, úkol 1“.
Zdroje
- Harris, Z. (1954). "Distribuční struktura". Slovo. 10 (23): 146–162. doi:10.1080/00437956.1954.11659520.CS1 maint: ref = harv (odkaz)
- Firth, J. R. (1957). "Synopse lingvistické teorie 1930-1955". Studium lingvistické analýzy: 1–32.CS1 maint: ref = harv (odkaz) Přetištěno F.R. Palmer, ed. (1968). Vybrané příspěvky J.R. Firtha 1952-1959. London: Longman.
- Sahlgren, Magnus (2008). „Distribuční hypotéza“ (PDF). Rivista di Linguistica. 20 (1): 33–53.CS1 maint: ref = harv (odkaz)
- McDonald, S .; Ramscar, M. (2001). "Testování distribuční hypotézy: Vliv kontextu na úsudky sémantické podobnosti". Sborník 23. výroční konference Společnosti kognitivních věd. str. 611–616. CiteSeerX 10.1.1.104.7535.CS1 maint: ref = harv (odkaz)
- Gleitman, Lila R. (2002). "Slovesa peří se hrnou dohromady II". Dědictví Zelliga Harrise. Aktuální problémy lingvistické teorie. 1. 209–229. doi:10,1075 / cilt.228.17gle. ISBN 978-90-272-4736-0.CS1 maint: ref = harv (odkaz)
- Yarlett, D. (2008). Výuka jazyků prostřednictvím zobecnění založeného na podobnosti (PDF) (Disertační práce). Stanfordská Univerzita. Archivovány od originál (PDF) dne 2014-04-19. Citováno 2012-07-12.CS1 maint: ref = harv (odkaz)
- Rieger, Burghard B. (1991). O distribuovaných reprezentacích ve sémantice slov (PDF) (Zpráva). ICSI Berkeley 12-1991. CiteSeerX 10.1.1.37.7976.CS1 maint: ref = harv (odkaz)
- Deerwester, Scott; Dumais, Susan T .; Furnas, George W .; Landauer, Thomas K .; Harshman, Richard (1990). „Indexování pomocí latentní sémantické analýzy“ (PDF). Journal of the American Society for Information Science. 41 (6): 391–407. CiteSeerX 10.1.1.33.2447. doi:10.1002 / (SICI) 1097-4571 (199009) 41: 6 <391 :: AID-ASI1> 3.0.CO; 2-9. Archivovány od originál (PDF) dne 17. 7. 2012.CS1 maint: ref = harv (odkaz)
- Padó, Sebastian; Lapata, Mirella (2007). "Konstrukce sémantických prostorových modelů založená na závislosti". Výpočetní lingvistika. 33 (2): 161–199. doi:10.1162 / coli.2007.33.2.161. S2CID 7747235.CS1 maint: ref = harv (odkaz)
- Schütze, Hinrich (1993). "Word Space". Pokroky v systémech zpracování neurálních informací 5. str. 895–902. CiteSeerX 10.1.1.41.8856.CS1 maint: ref = harv (odkaz)
- Sahlgren, Magnus (2006). Word-Space Model (PDF) (Disertační práce). Stockholmská univerzita.CS1 maint: ref = harv (odkaz)
- Thomas Landauer; Susan T. Dumais. „Řešení Platónova problému: Latentní teorie sémantické analýzy získávání, indukce a reprezentace znalostí“. Citováno 2007-07-02.CS1 maint: ref = harv (odkaz)
- Kevin Lund; Curt Burgess; Ruth Ann Atchley (1995). Sémantické a asociativní primování ve vysokodimenzionálním sémantickém prostoru. Kognitivní vědecký sborník. str. 660–665.CS1 maint: ref = harv (odkaz)
- Kevin Lund; Curt Burgess (1996). „Produkce výškových sémantických prostorů z lexikálního společného výskytu“. Metody, přístroje a počítače pro výzkum chování. 28 (2): 203–208. doi:10,3758 / bf03204766.CS1 maint: ref = harv (odkaz)