Neurální strojový překlad - Neural machine translation

Neurální strojový překlad (NMT) je přístup k strojový překlad který používá umělá neuronová síť předpovědět pravděpodobnost posloupnosti slov, obvykle modelovat celé věty v jediném integrovaném modelu.

Vlastnosti

Vyžadují jen zlomek paměti potřebné pro tradiční statistický strojový překlad (SMT) modely. Kromě toho, na rozdíl od konvenčních překladových systémů, jsou všechny části modelu neurálního překladu trénovány společně (end-to-end), aby maximalizovaly výkon překladu.[1][2][3]

Dějiny

Aplikace pro hluboké učení se objevily jako první v roce rozpoznávání řeči v 90. letech. První vědecká práce o používání neuronových sítí ve strojovém překladu se objevila v roce 2014 a v následujících letech následovala řada pokroků. (Velká slovní zásoba NMT, aplikace pro titulkování obrázků, Subword-NMT, vícejazyčné NMT, vícezdrojové NMT, Character-dec NMT, Zero-Resource NMT, Google, Fully Character-NMT, Zero-Shot NMT v roce 2017) V roce 2015 tam bylo prvním objevením systému NMT ve veřejné soutěži v strojovém překladu (OpenMT'15). WMT'15 také poprvé měl uchazeče NMT; v následujícím roce již měl mezi vítězi 90% systémů NMT.[4]

Fungování

NMT se odchyluje od fráze statistický přístupy, které používají samostatně vytvořené dílčí komponenty.[5] Neurální strojový překlad (NMT) není drastickým krokem nad rámec toho, co se tradičně provádí ve statistickém strojovém překladu (SMT). Jeho hlavním východiskem je použití vektorových reprezentací („embeddings“, „Continuous Space Reprezentations“) pro slova a vnitřní stavy. Struktura modelů je jednodušší než frázové modely. Neexistuje žádný samostatný jazykový model, překladový model a model změny pořadí, ale pouze jeden sekvenční model, který předpovídá jedno slovo po druhém. Tato predikce sekvence je však podmíněna celou zdrojovou větou a celou již vytvořenou cílovou sekvencí. Používají modely NMT hluboké učení a reprezentační učení.

Modelování sekvence slov se nejprve obvykle provádělo pomocí a rekurentní neuronová síť (RNN). Obousměrná rekurentní neurální síť, známá jako kodér, je používána neurální sítí k kódování zdrojové věty pro druhou RNN, známou jako a dekodér, který se používá k předpovídání slov v cílový jazyk.[6] Rekurentní neuronové sítě čelí obtížím při kódování dlouhých vstupů do jediného vektoru. To lze kompenzovat mechanismem pozornosti[7] což umožňuje dekodéru soustředit se na různé části vstupu při generování každého slova výstupu. Existují další modely pokrytí, které se zabývají problémy v takových mechanismech pozornosti, jako je ignorování minulých informací o zarovnání, které vedou k nadměrnému překladu a nedostatečnému překladu.[8]

Konvoluční neuronové sítě (Convnets) jsou v zásadě poněkud lepší pro dlouhé spojité sekvence, ale zpočátku nebyly použity kvůli několika slabinám. Ty byly v roce 2017 úspěšně kompenzovány pomocí „mechanismů pozornosti“.[9]

Model založený na pozornosti, architektura transformátoru[10] zůstává dominantní architekturou pro několik jazykových párů.[11]

Reference

  1. ^ Kalchbrenner, Nal; Blunsom, Philip (2013). „Rekurentní modely kontinuálního překladu“. Sborník Asociace pro počítačovou lingvistiku: 1700–1709.
  2. ^ Sutskever, Ilya; Vinyals, Oriol; Le, Quoc Viet (2014). "Posloupnost sekvenčního učení pomocí neuronových sítí". arXiv:1409.3215 [cs.CL ].
  3. ^ Kyunghyun Cho; Bart van Merrienboer; Dzmitry Bahdanau; Yoshua Bengio (3. září 2014). „O vlastnostech neurálního strojového překladu: přístupy kodér – dekodér“. arXiv:1409.1259 [cs.CL ].
  4. ^ Bojar, Ondřej; Chatterjee, Rajen; Federmann, Christian; Graham, Yvette; Haddow, Barry; Huck, Matthias; Yepes, Antonio Jimeno; Koehn, Philipp; Logacheva, Varvara; Monz, Christof; Negri, Matteo; Névéol, Aurélie; Neves, Mariana; Popel, Martin; Post, Matt; Rubino, Raphael; Scarton, Carolina; Specia, Lucia; Turchi, Marco; Verspoor, Karin; Zampieri, Marcos (2016). „Zjištění konference o strojovém překladu 2016“ (PDF). ACL 2016 První konference o strojovém překladu (WMT16). Sdružení pro počítačovou lingvistiku: 131–198. Archivovány od originál (PDF) dne 2018-01-27. Citováno 2018-01-27.
  5. ^ Wołk, Krzysztof; Marasek, Krzysztof (2015). „Neurální strojový překlad pro doménu lékařských textů. Založeno na letákových textech Evropské agentury pro léčivé přípravky“. Procedia informatika. 64 (64): 2–9. arXiv:1509.08644. Bibcode:2015arXiv150908644W. doi:10.1016 / j.procs.2015.08.456. S2CID  15218663.
  6. ^ Dzmitry Bahdanau; Cho Kyunghyun; Yoshua Bengio (2014). "Neural Machine Translation by Joint Learning to Align and Translate". arXiv:1409.0473 [cs.CL ].
  7. ^ Bahdanau, Dzmitry; Cho, Kyunghyun; Bengio, Yoshua (01.09.2014). "Neural Machine Translation by Joint Learning to Align and Translate". arXiv:1409.0473 [cs.CL ].
  8. ^ Tu, Zhaopeng; Lu, Zhengdong; Liu, Yang; Liu, Siao-chua; Li, Hang (2016). "Modelování pokrytí pro neurální strojový překlad". arXiv:1601.04811 [cs.CL ].
  9. ^ Coldewey, Devin (2017-08-29). „DeepL školí další online překladatele chytrým strojovým učením“. TechCrunch. Citováno 2018-01-27.
  10. ^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N .; Kaiser, Lukasz; Polosukhin, Illia (05.12.2017). "Pozor je vše, co potřebujete". arXiv:1706.03762 [cs.CL ].
  11. ^ Barrault, Loïc; Bojar, Ondřej; Costa-jussà, Marta R .; Federmann, Christian; Fishel, Mark; Graham, Yvette; Haddow, Barry; Huck, Matthias; Koehn, Philipp; Malmasi, Shervin; Monz, Christof (srpen 2019). „Zjištění konference o strojovém překladu 2019 (WMT19)“. Sborník ze čtvrté konference o strojovém překladu (2. díl: Shared Task Papers, 1. den). Florencie, Itálie: Sdružení pro počítačovou lingvistiku: 1–61. doi:10.18653 / v1 / W19-5301.