Strukturování dokumentů - Document structuring

Strukturování dokumentů je dílčí úkol Generování přirozeného jazyka, což zahrnuje rozhodování o pořadí a seskupování (například do odstavců) vět ve vygenerovaném textu. Úzce souvisí s Stanovení obsahu Úkol NLG.

Příklad

Předpokládejme, že máme čtyři věty, které chceme zahrnout do generovaného textu

V sobotu bude pršet
V neděli bude slunečno
Maximální teplota bude v sobotu 10 ° C
Maximální teplota bude v neděli 15 ° C

Existuje 24 (4!) Řazení těchto zpráv, včetně

(1234) V sobotu bude pršet. V neděli bude slunečno. Maximální teplota bude v sobotu 10 ° C. Maximální teplota bude v neděli 15 ° C.
(2341) V neděli bude slunečno. Maximální teplota bude v sobotu 10 ° C. Maximální teplota bude v neděli 15 ° C. V sobotu bude pršet.
(4321) Maximální teplota bude v neděli 15 ° C. Maximální teplota bude v sobotu 10 ° C. V neděli bude slunečno. V sobotu bude pršet.

Některé z těchto objednávek jsou lepší než jiné. Například z výše uvedených textů lidé upřednostňují (1234) před (2314) a (4321).

U libovolného řazení existuje také mnoho způsobů, jak lze věty seskupovat do odstavců a struktur vyšší úrovně, jako jsou oddíly. Například existuje 8 (2 ** 3) způsobů, jak lze věty v (1234) seskupit do odstavců, včetně

(12)(34)

V sobotu bude pršet. V neděli bude slunečno.

Maximální teplota bude v sobotu 10 ° C. Maximální teplota bude v neděli 15 ° C.

(1)(23)(4)

V sobotu bude pršet.

V neděli bude slunečno. Maximální teplota bude v sobotu 10 ° C.

Maximální teplota bude v neděli 15 ° C.

Stejně jako při objednávání, lidští čtenáři dávají přednost některým seskupením před ostatními; například (12) (34) je upřednostňován před (1) (23) (4).

Úkolem strukturování dokumentu je zvolit uspořádání a seskupení vět, které vyústí v ucelený a dobře organizovaný text z pohledu čtenáře.

Algoritmy a modely

Existují tři základní přístupy ke strukturování dokumentů: schémata, korpusová a heuristická.

Schémata ^[1] jsou šablony, které výslovně specifikují řazení vět a seskupení dokumentu (stejně jako Stanovení obsahu informace). Obvykle jsou konstruovány manuální analýzou a korpus textů napsaných člověkem v cílovém žánru a extrahování šablony dokumentu z těchto textů. V praxi schémata fungují dobře pro texty, které jsou krátké (5 vět nebo méně) a / nebo mají standardizovanou strukturu, ale mají problémy s generováním textů, které jsou delší a nemají pevnou strukturu.

Techniky strukturování založené na korpusu používají statistické techniky analýzy korpusu k automatickému vytváření modelů řazení nebo seskupování. Takové techniky jsou běžné v Automatická sumarizace, kde počítačový program automaticky generuje souhrn textového dokumentu.^[2] V zásadě by mohly být použity na text generovaný z jiných než lingvistických dat, ale tato práce je v plenkách; součástí této výzvy je, že se obecně očekává, že texty generované systémy pro generování přirozeného jazyka budou mít poměrně vysokou kvalitu, což u textů generovaných systémy pro automatické shrnutí ne vždy platí.

Konečným přístupem je strukturování založené na heuristice. Takové algoritmy provádějí úlohu strukturování na základě heuristických pravidel, která mohou vycházet z teorií rétoriky,^[3]psycholingvistické modely,^[4] a / nebo kombinace intuice a zpětné vazby z pilotních experimentů s potenciálními uživateli.^[5] Heuristické strukturování je intelektuálně přitažlivé, ale může být obtížné dosáhnout toho, aby v praxi fungovalo dobře, zčásti proto, že heuristika často závisí na sémantických informacích (vzájemný vztah vět), které nejsou vždy k dispozici. Na druhou stranu se heuristická pravidla mohou zaměřit na to, co je pro čtenáře textu nejlepší, zatímco ostatní přístupy se zaměřují na napodobování autorů (a mnoho textů napsaných člověkem není dobře strukturovaných).

Příběh

Pravděpodobnou výzvou pro strukturování dokumentů je vygenerovat zboží příběh —Jinými slovy text, který začíná nastavením scény a úvodem / přehledem; poté jasně popisuje soubor událostí, aby čtenáři mohli snadno zjistit, jak jednotlivé události souvisejí, a vzájemně se propojit; a končí shrnutím / koncem. Povšimněte si, že narativ v tomto smyslu platí jak pro faktické texty, tak pro příběhy. Současné systémy NLG nedělají dobrou práci při vytváření příběhů, což je hlavním zdrojem kritiky uživatelů.^[6]

Vytváření dobrých příběhů je výzvou pro všechny aspekty NLG, ale nejzásadnější výzvou je pravděpodobně strukturování dokumentů.

Reference

^ K McKeown (1985). Generování textu. Cambridge University Press
^ M Lapata (2003). Pravděpodobné strukturování textu: Experimenty s řazením věty. Sborník ACL-2003 [1]
^ D Scott a C de Souza (1990). Získání zprávy v generování textu založeného na RST. In Dale, Mellish, Zock (eds) Současný výzkum v generování přirozeného jazyka, strany 47-73
^ N Karamanis, M Poesio, C Mellish, J Oberlander (2004). Vyhodnocení centrování metrik koherence pro strukturování textu pomocí spolehlivě anotovaného korpusu. Sborník ACL-2004 [2]
^ S Williams a E Reiter. Generování zpráv o základních dovednostech pro čtenáře s nízkou kvalifikací. Přirozené jazykové inženýrství 14:495-535
^ E Reiter, A Gatt, F Portet, M van der Meulen (2008). Význam narativních a dalších lekcí z hodnocení systému NLG, který shrnuje klinické údaje. Ve sborníku z INLG-2008 [3]

[1] K McKeown (1985). Generování textu. Cambridge University Press

[2] M Lapata (2003). Pravděpodobné strukturování textu: Experimenty s řazením věty. Sborník ACL-2003 [1]

[3] D Scott a C de Souza (1990). Získání zprávy v generování textu založeného na RST. In Dale, Mellish, Zock (eds) Současný výzkum v generování přirozeného jazyka, strany 47-73

[4] N Karamanis, M Poesio, C Mellish, J Oberlander (2004). Vyhodnocení centrování metrik koherence pro strukturování textu pomocí spolehlivě anotovaného korpusu. Sborník ACL-2004 [2]

[5] S Williams a E Reiter. Generování zpráv o základních dovednostech pro čtenáře s nízkou kvalifikací. Přirozené jazykové inženýrství 14:495-535

[6] E Reiter, A Gatt, F Portet, M van der Meulen (2008). Význam narativních a dalších lekcí z hodnocení systému NLG, který shrnuje klinické údaje. Ve sborníku z INLG-2008 [3]

[1]

[2]

[3]

[4]

[5]

[6]