Parafrázování (výpočetní lingvistika) - Paraphrasing (computational linguistics)

Parafráze nebo Parafrázovat v výpočetní lingvistika je zpracování přirozeného jazyka úkol detekce a generování parafrázuje. Aplikace parafrázování jsou různé, včetně vyhledávání informací, odpověď na otázku, shrnutí textu, a detekce plagiátů.[1] Parafrázování je také užitečné v vyhodnocení strojového překladu,[2] stejně jako sémantická analýza[3] a generace nových vzorků k rozšíření stávajících korpusy.[4]

Generování parafráze

Zarovnání více sekvencí

Barzilay a Lee[4] navrhl metodu generování parafrází pomocí jednojazyčnosti paralelní korpusy, jmenovitě novinové články pokrývající stejnou událost ve stejný den. Školení spočívá v používání vícenásobné zarovnání generovat parafráze na úrovni věty z anotovaného korpusu. To se provádí pomocí

  • nalezení opakujících se vzorů v každém jednotlivém korpusu, tj. "X (zraněný / zraněný) Y lidé, Z vážně "kde X, Y, Z jsou proměnné
  • hledání párů mezi takovými vzory představují parafráze, tj. "X (zraněný / zraněný) Y lidé, Z vážně "a"Y byli (zraněni / zraněni) uživatelem X, mezi nimi Z byly ve vážném stavu “

Toho je dosaženo nejprve seskupením podobných vět pomocí n-gram překrytí. Opakující se vzory se nacházejí v klastrech pomocí vícenásobného zarovnání. Pozice argumentových slov se poté určí vyhledáním oblastí s vysokou variabilitou v každém klastru, mezi slovy sdílenými více než 50% vět klastru. Spárování mezi vzory se pak zjistí porovnáním podobných proměnných slov mezi různými korpusy. Nakonec lze vygenerovat nové parafráze výběrem shodného klastru pro zdrojovou větu a následným nahrazením argumentu zdrojové věty do libovolného počtu vzorů v klastru.

Frázový strojový překlad

Parafrázi lze také generovat pomocí frázový překlad jak navrhli Bannard a Callison-Burch.[5] Hlavní koncept spočívá ve sladění frází v a pivotní jazyk produkovat potenciální parafráze v původním jazyce. Například fráze „pod kontrolou“ v anglické větě je zarovnána s frází „unter kontrolle“ v německém protějšku. Fráze „unter kontrolle“ se pak nachází v jiné německé větě, přičemž zarovnaná anglická fráze je „in check“, parafráze „pod kontrolou“.

Rozložení pravděpodobnosti lze modelovat jako , fráze pravděpodobnosti je parafráze na , což odpovídá shrnuto přes všechno , potenciální překlad frází v pivotním jazyce. Navíc věta je přidán jako před přidáním kontextu do parafráze. Optimální parafráze, lze modelovat jako:

a lze aproximovat jednoduchým odečtením jejich frekvencí Přidávání jako předchozí je modelován výpočtem pravděpodobnosti vzniku když je nahrazen .

Dlouhodobá krátkodobá paměť

Při používání došlo k úspěchu dlouhodobá krátkodobá paměť (LSTM) modely pro generování parafrází.[6] Stručně řečeno, model se skládá z komponenty kodéru a dekodéru, které jsou implementovány pomocí variant skládaného reziduální LSTM. Nejprve kódování LSTM trvá a jeden horký kódování všech slov ve větě jako vstupu a vytvoří konečný skrytý vektor, který lze zobrazit jako reprezentaci vstupní věty. Dekódovací LSTM poté vezme skrytý vektor jako vstup a vygeneruje novou větu zakončenou tokenem konce věty. Kodér a dekodér jsou vyškoleni, aby převzali frázi a reprodukovali distribuci jedné horké parafráze minimalizací minimalizací zmatek pomocí jednoduchých stochastický gradient. Nové parafráze se generují zadáním nové fráze do kodéru a předáním výstupu dekodéru.

Rozpoznávání parafráze

Rekurzivní automatické kodéry

Pokus o parafrázové rozpoznání se pokusili Socher et al[1] pomocí rekurzivního autoencoders. Hlavním konceptem je vytvoření vektorové reprezentace věty spolu s jejími složkami rekurzivně pomocí autoencoderu. Vektorové reprezentace parafrází by měly mít podobné vektorové reprezentace; jsou zpracovány a poté přiváděny jako vstup do a nervová síť pro klasifikaci.

Dostal trest s slovy, autoencoder je navržen tak, aby 2 -dimenzionální vkládání slov jako vstup a vyrobit -dimenzionální vektor jako výstup. Stejný automatický kodér se použije na každou dvojici slov k výrobě vektory. Autoencoder je poté rekurzivně aplikován s novými vektory jako vstupy, dokud není vytvořen jediný vektor. Vzhledem k lichému počtu vstupů je první vektor přeposlán na další úroveň rekurze. Autoencoder je poté vyškolen k reprodukci každého vektoru v celém rekurzivním stromu včetně počátečního vkládání slov.

Vzhledem k tomu, dvě věty a o délce 4 respektive 3 by autoencodery vyprodukovaly 7 a 5 vektorových reprezentací včetně počátečního vkládání slov. The euklidovská vzdálenost potom je vzat mezi každou kombinací vektorů v a k vytvoření matice podobnosti . poté podléhá dynamickému min.sdružovací vrstva k vytvoření pevné velikosti matice. Od té doby nejsou jednotné co do velikosti mezi všemi potenciálními větami, je rozdělena na zhruba rovnoměrné úseky. Výstup je poté normalizován tak, aby měl střední hodnotu 0 a směrodatnou odchylku 1, a je přiváděn do plně spojené vrstvy pomocí a softmax výstup. Model dynamického sdružování do softmax je trénován pomocí dvojic známých parafrází.

Přeskočit myšlenkové vektory

Vektory přeskakování jsou pokusem o vytvoření vektorové reprezentace sémantického významu věty podobným způsobem jako přeskočit gramový model.[7] Vektory přeskočení myšlení jsou vytvářeny pomocí modelu přeskočení myšlení, který se skládá ze tří klíčových komponent, kodéru a dvou dekodérů. Vzhledem k souboru dokumentů je model přeskočeného myšlení trénován, aby vzal větu jako vstup a zakódoval ji do vektoru přeskočeného myšlení. Vektor skip-thought se používá jako vstup pro oba dekodéry, z nichž jeden se pokouší reprodukovat předchozí větu a druhý následující větu v plném rozsahu. Kodér a dekodér lze implementovat pomocí a rekurzivní neuronová síť (RNN) nebo LSTM.

Protože parafráze mají mezi sebou stejný sémantický význam, měly by mít podobné vektory přeskočených myšlenek. Tak jednoduché logistická regrese lze naučit na dobrý výkon s absolutním rozdílem a složkovým produktem dvou vektorů přeskočených myšlenek jako vstupu.

Hodnocení

Existuje několik metod, které lze použít k vyhodnocení parafrází. Vzhledem k tomu, že rozpoznávání parafrází lze považovat za problém klasifikace, většina standardních metrik hodnocení, jako je přesnost, skóre f1, nebo ROC křivka dělat relativně dobře. Je však obtížné vypočítat skóre f1 kvůli problémům s vytvořením úplného seznamu parafrází pro danou frázi spolu se skutečností, že dobré parafráze závisí na kontextu. Metrika určená k řešení těchto problémů je ParaMetric.[8] ParaMetric si klade za cíl vypočítat přesnost a vyvolání automatického parafrázového systému porovnáním automatického zarovnání parafrází s manuálním zarovnáním podobných frází. Vzhledem k tomu, že ParaMetric jednoduše hodnotí kvalitu zarovnání frází, lze ji použít k hodnocení systémů generování parafrází také za předpokladu, že používá zarovnání frází jako součást procesu generování. Známou nevýhodou ParaMetric je velká a vyčerpávající sada ručních zarovnání, která musí být zpočátku vytvořena před vytvořením hodnocení.

Hodnocení generování parafráze má podobné obtíže jako hodnocení strojový překlad. Kvalita parafráze často závisí na jejím kontextu, ať už se používá jako souhrn, a na tom, jak se mimo jiné generuje. Dobrá parafráze je navíc lexikálně odlišná od zdrojové fráze. Nejjednodušší metodou použitou k vyhodnocení generování parafráze by bylo použití lidských soudců. Hodnocení prostřednictvím lidských soudců bohužel bývá časově náročné. Automatizované přístupy k hodnocení se ukázaly jako náročné, protože jde v zásadě o tak obtížný problém, jako je rozpoznávání parafrází. Zatímco se původně používalo k hodnocení strojových překladů, dvojjazyčné hodnocení (BLEU ) byl úspěšně použit také k vyhodnocení modelů generování parafrází. Parafráze však často mají několik lexikálně odlišných, ale stejně platných řešení, která bolí BLEU a další podobné metriky hodnocení.[9]

Metriky speciálně určené k vyhodnocení generování parafráze zahrnují parafrázi při změně n-gramů (PINC)[9] a metrika vyhodnocení parafráze (PEM)[10] spolu s výše uvedeným ParaMetric. PINC je navržen pro použití ve spojení s BLEU a pomáhá pokrýt jeho nedostatky. Vzhledem k tomu, že BLEU má potíže s měřením lexikální odlišnosti, je PINC měřením nedostatku překrytí n-gramů mezi zdrojovou větou a kandidátskou parafrází. Je to v zásadě Vzdálenost Jaccard mezi větou s výjimkou n-gramů, které se objevují ve zdrojové větě, aby byla zachována určitá sémantická ekvivalence. PEM se na druhé straně pokouší vyhodnotit „adekvátnost, plynulost a lexikální odlišnost“ parafrází vrácením heuristiky jedné hodnoty vypočítané pomocí N gramů překrytí v pivotním jazyce. Velkou nevýhodou PEM je však to, že musí být trénováno pomocí velkých paralelních korpusů v doméně i lidských soudců.[9] Jinými slovy se to rovná trénování systému rozpoznávání parafrází, aby bylo možné vyhodnotit systém generování parafrází.

Viz také

Reference

  1. ^ A b Socher, Richard; Huang, Eric; Pennington, Jeffrey; Ng, Andrew; Manning, Christopher (2011), Dynamické sdružování a rozkládání rekurzivních automatických kodérů pro detekci parafrází
  2. ^ Callison-Burch, Chris (25. – 27. Října 2008). „Syntaktická omezení parafrází extrahovaných z paralelních korpusů“. EMNLP '08 Sborník konference o empirických metodách ve zpracování přirozeného jazyka. Honolulu, Havaj. str. 196–205.
  3. ^ Berant, Jonathan a Percy Liang. "Sémantická analýza pomocí parafrázování "Sborník z 52. výročního zasedání Asociace pro počítačovou lingvistiku (svazek 1: Long Papers). Sv. 1. 2014.
  4. ^ A b Barzilay, Regina; Lee, Lillian (květen – červen 2003). „Naučit se parafrázovat: nekontrolovaný přístup využívající vícenásobné zarovnání“. Sborník z HLT-NAACL 2003.
  5. ^ Bannard, Colin; Callison-Burch, Chris (2005). „Parafrázovat dvojjazyčné paralelní korpusy“. Sborník 43. výročního zasedání ACL. Ann Arbor, Michigan. str. 597–604.
  6. ^ Prakash, Aaditya; Hasan, Sadid A .; Lee, Kathy; Datla, Vivek; Qadir, Ashequl; Liu, Joey; Farri, Oladimeji (2016), Generování neurální parafráze se vsazenými zbytkovými sítěmi LSTM, arXiv:1610.03098, Bibcode:2016arXiv161003098P
  7. ^ Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015), Přeskočit vektory, arXiv:1506.06726, Bibcode:2015arXiv150606726K
  8. ^ Callison-Burch, Chris; Cohn, Trevor; Lapata, Mirella (2008). „ParaMetric: Metrika automatického vyhodnocení pro parafrázování“ (PDF). Sborník z 22. mezinárodní konference o počítačové lingvistice. Manchester. 97–104. doi:10.3115/1599081.1599094. S2CID  837398.
  9. ^ A b C Chen, David; Dolan, William (2008). „Shromažďování vysoce paralelních dat pro vyhodnocení parafrází“. Sborník ze 49. výročního zasedání Asociace pro výpočetní lingvistiku: Technologie lidského jazyka. Portland, Oregon. 190–200.
  10. ^ Liu, Chang; Dahlmeier, Daniel; Ng, Hwee Tou (2010). „PEM: Metrika hodnocení parafrází využívající paralelní texty“. Sborník příspěvků z konference 2010 o emisních metodách ve zpracování přirozeného jazyka. MIT, Massachusetts. 923–932.

externí odkazy