Lexikální volba - Lexical choice
Lexikální volba je dílčí úkol Generování přirozeného jazyka který zahrnuje výběr obsahu slov (podstatná jména, slovesa, přídavná jména a příslovce) v generovaném textu. Funkční slova (například determinanty) se obvykle volí během realizace.
Příklady
Nejjednodušší typ lexikální volby zahrnuje mapování konceptu domény (pravděpodobně reprezentovaného v ontologie ) na slovo. Například koncept Prst může být namapováno na slovo prst.
Složitější situace je, když je koncept domény vyjádřen pomocí různých slov v různých situacích. Například koncept domény Změna hodnoty lze vyjádřit mnoha způsoby
- Teplota stoupla: sloveso růže se používá pro a Změna hodnoty při teplotě, která zvyšuje hodnotu
- Teplota klesla: sloveso klesl se používá pro a Změna hodnoty při teplotě, která snižuje hodnotu
- Déšť zesílil: fráze těžší se používá pro a Změna hodnoty v množství srážek, když jsou srážky déšť.
Někdy mohou slova komunikovat například s dalšími kontextovými informacemi
- Teplota klesla: sloveso klesl se používá pro a Změna hodnoty při teplotě, která snižuje hodnotu, když je změna rychlá a velká
Kontextové informace jsou zvláště významné pro vágní výrazy, jako jsou vysoký. Například 2m vysoký muž je vysoký, ale 2m vysoký kůň je malý.
Jazyková perspektiva
Moduly lexikální volby musí být informovány jazykovými znalostmi o tom, jak se vstupní data systému mapují na slova. To je otázka sémantika, ale je také ovlivněn syntaktický faktory (např kolokace účinky) a pragmatický faktory (například kontext).
Systémy NLG proto potřebují jazykové modely toho, jak je význam mapován na slova v cílové doméně (žánr ) systému NLG. Žánr bývá velmi důležitý; například sloveso zatáčet má v předpovědích počasí velmi specifický význam (směr větru se mění ve směru hodinových ručiček), který obecně nemá v angličtině, a generátor předpovědi počasí si musí být tohoto žánrově specifického významu vědom.
V některých případech existují velké rozdíly v tom, jak různí lidé používají stejné slovo;[1] například někteří lidé používají do večera znamená 18:00 a ostatní to používají k označení půlnoci. Psycholingvisté ukázali, že když lidé spolu mluví, dohodnou se na společné interpretaci prostřednictvím lexikálního zarovnání;[2] to není něco, co by systémy NLG ještě dokázaly.
Nakonec se lexikální volba musí vypořádat se základní otázkou vztahu jazyka k mimojazykovému světu.[3] Například systém, který si vybral barevné výrazy jako Červené k popisu objektů v digitálním obrazu by bylo třeba vědět, které hodnoty pixelů RGB lze obecně popsat Červené; jak to bylo ovlivněno vizuálním (osvětlení, jiné objekty ve scéně) a lingvistickým (další diskutované objekty) kontextem; s čím byly spojeny pragmatické konotace Červené (například když se volá jablko Červené, předpokládá se, že je zralý a má červenou barvu); a tak dále.
Algoritmy a modely
Pro lexikální volbu ve výzkumné komunitě byla vyvinuta řada algoritmů a modelů,[4] například Edmonds vyvinul model pro výběr mezi téměř synonymy (slova s podobnými základními významy, ale různými konotacemi).[5] Takové algoritmy a modely však nebyly v aplikovaných systémech NLG široce používány; takové systémy místo toho často používaly docela jednoduché výpočetní modely a místo vývoje algoritmů investovaly vývojové úsilí do lingvistické analýzy.
Reference
- ^ E. Reiter a S Sripada (2002). Lidská variace a lexikální volba. Výpočetní lingvistika 28:545-553. [1]
- ^ S Brennan a H Clark (1996). Koncepční smlouvy a lexikální volba v konverzaci. Journal of Experimental Psychology: Learning, Memory, and Cognition 22:1482-1493
- ^ D Roy a E Reiter (2005). Připojení jazyka ke světu. Umělá inteligence 167:1-12.
- ^ Perera, R. a Nand, P 2015. Multi-strategický přístup pro lexikalizaci propojených otevřených dat.
- ^ P Edmonds a G Hirst (2002). Téměř synonymie a lexikální volba. Výpočetní lingvistika 28:105-144. [2]