Stanovení obsahu - Content determination - Wikipedia
Stanovení obsahu je dílčí úkol generace přirozeného jazyka (NLG), která zahrnuje rozhodování o informacích, které mají být sděleny v generovaném textu. Úzce to souvisí s úkolem strukturování dokumentů.
Příklad
Zvažte systém NLG, který shrnuje informace o nemocných dětech.[1] Předpokládejme, že tento systém obsahuje čtyři informace, které může komunikovat
- Dítě dostává morfin pomocí IV kapky
- Srdeční frekvence dítěte vykazuje bradykardii (dočasné kapky)
- Teplota dítěte je normální
- Dítě pláče
Které z těchto bitů informací by měly být zahrnuty do generovaných textů?
Problémy
Existují tři obecné problémy, které téměř vždy ovlivňují úlohu určování obsahu, a lze je ilustrovat výše uvedeným příkladem.
Snad nejzásadnějším problémem je komunikační cíl textu, tj. jeho účel a čtenář. Ve výše uvedeném příkladu by se například lékař, který chce rozhodnout o lékařském ošetření, pravděpodobně nejvíce zajímal o bradykardie srdeční frekvence, zatímco rodič, který chtěl vědět, jak se jeho dítěti daří, by se pravděpodobně více zajímal o skutečnost že dítěti byl podáván morfin a plakalo.
Druhým problémem je velikost a úroveň detailu generovaného textu. Například krátké shrnutí, které bylo zasláno lékaři jako SMS o délce 160 znaků, může zmínit pouze bradykarie srdeční frekvence, zatímco delší shrnutí, které bylo vytištěno jako vícestránkový dokument, může také zmínit skutečnost, že dítě je morfin IV.
Poslední otázkou je, jak neobvyklé a neočekávané informace jsou. Například by lékaři ani rodiče nepřikládali vysokou prioritu tomu, aby jim bylo řečeno, že teplota dítěte je normální, pokud by očekávali, že tomu tak bude.
Bez ohledu na to je určování obsahu pro uživatele velmi důležité, v mnoha případech je kvalita stanovení obsahu nejdůležitějším faktorem (z pohledu uživatele) při určování celkové kvality generovaného textu.
Techniky
Existují tři základní přístupy ke strukturování dokumentů: schémata (šablony obsahu), statistické přístupy a explicitní uvažování.
Schémata [2] jsou šablony, které výslovně specifikují obsah generovaného textu (stejně jako strukturování dokumentů informace). Obvykle jsou konstruovány manuální analýzou a korpus textů napsaných člověkem v cílovém žánru a extrahování šablony obsahu z těchto textů. Schémata fungují v praxi dobře v doménách, kde je obsah poněkud standardizovaný, ale fungují méně dobře v doménách, kde je obsah plynulejší (například výše uvedený lékařský příklad).
Statistické techniky používat techniky statistické analýzy korpusu k automatickému určování obsahu generovaných textů. Taková práce je v plenkách a většinou se používala v kontextech, kde jsou pevné komunikační cíle, čtenáři, velikost a úroveň podrobností. Například generování shrnutí novinek o sportovních událostech.[3][4]
Explicitní uvažování přístupy pravděpodobně přitahovaly největší pozornost výzkumných pracovníků. Základní myšlenkou je použití technik uvažování AI (jako jsou pravidla založená na znalostech,[1] plánování,[5] detekce vzoru,[6] případové úvahy,[7] atd.) prozkoumat dostupné informace, které mají být sděleny (včetně toho, jak neobvyklé / neočekávané jsou), komunikační cíl a čtenář a vlastnosti generovaného textu (včetně velikosti cíle), a rozhodnout se pro optimální obsah generovaného textu . Byla prozkoumána velmi široká škála technik, ale neexistuje shoda, která z nich je nejúčinnější.
Reference
- ^ A b Portet F, Reiter E, Gatt A, Hunter J, Sripada S, Freer Y, Sykes C (2009). „Automatické generování textových shrnutí z dat intenzivní péče o novorozence“. Umělá inteligence. 173 (7–8): 789–816. doi:10.1016 / j.artint.2008.12.002.
- ^ K McKeown (1985). Generování textu. Cambridge University Press
- ^ R Barzilay a M Lapata (2005). Kolektivní výběr obsahu pro generování konceptu na text. Sborník EMNLP-2005 [1]
- ^ R Perera a P Nand (2014). Role propojených dat při výběru obsahu. Sborník PRICAI-2014 [2]
- ^ J. Moore a C. Paříž (1993). Plánovací text pro poradní dialogy: Zachycení úmyslných a rétorických informací pomocí. Computational Linguistics 19: 651-694 [3] Archivováno 2011-09-30 na Wayback Machine
- ^ J Yu, E Reiter, J Hunter, C Mellish (2007). Výběr obsahu textových shrnutí velkých souborů dat časových řad. Natural Language Engineering 13: 25-49
- ^ P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005) Generování příběhové zápletky založené na CBR. Znalostní systémy 18: 235-242