Mezijazykový strojový překlad - Interlingual machine translation

Obrázek 1. Demonstrace jazyků používaných při překladu pomocí a most Jazyk.

Mezijazykový strojový překlad je jedním z klasických přístupů k strojový překlad. V tomto přístupu je zdrojový jazyk, tj. Text, který má být přeložen, transformován do interlingua, tj. Abstraktní reprezentace nezávislá na jazyce. Cílový jazyk je poté generován z interlingua. V rámci paradigmatu strojového překladu založeného na pravidlech je interlingvální přístup alternativou k přímý přístup a přenosový přístup.

V přímém přístupu jsou slova přeložena přímo, aniž by prošla další reprezentací. V přístupu přenosu je zdrojový jazyk transformován do abstraktní, méně jazykově specifické reprezentace. Lingvistická pravidla, která jsou specifická pro jazykovou dvojici, poté transformují reprezentaci zdrojového jazyka na abstraktní reprezentaci cílového jazyka a z toho se vygeneruje cílová věta.

Mezijazykový přístup k strojovému překladu má výhody i nevýhody. Výhodou je, že vyžaduje méně komponent, aby bylo možné spojit každý zdrojový jazyk s každým cílovým jazykem, vyžaduje méně komponent pro přidání nového jazyka, podporuje parafráze vstupu v původním jazyce, umožňuje analyzátorům i generátorům být napsané jednojazyčnými vývojáři systému a zpracovává jazyky, které se od sebe velmi liší (např. angličtina a arabština)[1]). Zjevnou nevýhodou je, že definice interlingua je pro širší oblast obtížná a možná dokonce nemožná. Ideálním kontextem pro interlingvální strojový překlad je tedy vícejazyčný strojový překlad ve velmi specifické doméně.

Dějiny

První myšlenky o interlingválním strojovém překladu se objevily v 17. století u Descartes a Leibniz, kteří přišli s teoriemi, jak vytvářet slovníky pomocí univerzálních numerických kódů. Ostatní, jako např Jeskyně Beck, Athanasius Kircher a Johann Joachim Becher pracoval na vývoji jednoznačného univerzálního jazyka založeného na principech logika a ikonografy. V roce 1668 John Wilkins popsal svou interlinguu ve své „Eseji ke skutečnému charakteru a filozofickému jazyku“. V 18. a 19. století bylo vyvinuto mnoho návrhů „univerzálních“ mezinárodních jazyků, nejznámější esperanto.

To znamená, že uplatnění myšlenky univerzálního jazyka na strojový překlad se neobjevilo v žádném z prvních významných přístupů. Místo toho byly zahájeny práce na dvojicích jazyků. V průběhu padesátých a šedesátých let však vědci v Cambridge vedená Margaret Masterman, v Leningrad vedená Nikolai Andreev a v Milán podle Silvio Ceccato zahájil práci v této oblasti. O této myšlence byl rozsáhle diskutován izraelským filozofem Yehoshua Bar-Hillel v roce 1969.

Během sedmdesátých let byl v roce proveden pozoruhodný výzkum Grenoble výzkumníky, kteří se pokoušejí přeložit fyziku a matematické texty z ruština na francouzština a v Texas podobný projekt (KOVOVÝ) probíhal pro Rusko Angličtina. Rané interlingvální systémy MT byly také postaveny na Stanford v 70. letech 20. století Roger Schank a Yorick Wilks; první se stal základem obchodního systému pro převod finančních prostředků a druhý kód je zachován na Muzeum počítačů v Boston jako první interlingvální strojový překladový systém.

V 80. letech 20. století se obnovený význam přisuzoval přístupům ke strojovému překladu založeným na interlingua a znalostem obecně, přičemž v této oblasti probíhala řada výzkumů. Sjednocujícím faktorem v tomto výzkumu bylo, že vysoce kvalitní překlad vyžadoval opuštění myšlenky vyžadovat úplné porozumění textu. Místo toho by překlad měl být založen na jazykových znalostech a konkrétní doméně, ve které by byl systém používán. Nejdůležitější výzkum této doby byl proveden v roce distribuovaný jazykový překlad (DLT) v Utrecht, který pracoval s upravenou verzí esperanto a systém Fujitsu v Japonsku.

Obrys

Obrázek 2. a) Překladový graf vyžadovaný pro přímé nebo strojový překlad založený na přenosu (Vyžaduje se 12 slovníků); b) Při použití překlenovacího jazyka je vyžadován překladový graf (vyžaduje se pouze 8 překladových modulů).

V této metodě překladu lze interlinguu považovat za způsob popisu analýzy textu napsaného v a zdrojový jazyk tak, že je možné převést jeho morfologické, syntaktické, sémantické (a dokonce i pragmatické) vlastnosti, to znamená „význam“ do cílový jazyk. Tato interlingua dokáže popsat všechny charakteristiky všech jazyků, které mají být přeloženy, místo jednoduchého překladu z jednoho jazyka do druhého.

Obrázek 3: Překladový graf využívající dvě interlingua.

Někdy se v překladu používají dvě interlingua. Je možné, že jedna ze dvou pokrývá více charakteristik zdrojového jazyka a druhá má více charakteristik cílového jazyka. Překlad poté pokračuje převodem vět z prvního jazyka na věty blíže cílovému jazyku ve dvou fázích. Systém může být také nastaven tak, aby druhá interlingua používala specifičtější slovník, který je bližší nebo více sladěný s cílovým jazykem, což by mohlo zlepšit kvalitu překladu.

Výše uvedený systém je založen na myšlence využití jazykové blízkosti ke zlepšení kvality překladu z textu v jednom původním jazyce do mnoha dalších strukturně podobných jazyků pouze z jedné původní analýzy. Tento princip se také používá v pivot strojový překlad, kde přirozený jazyk se používá jako „most“ mezi dvěma vzdálenějšími jazyky. Například v případě překladu do jazyka Angličtina z ukrajinština použitím ruština jako střední jazyk.[2]

Proces překladu

V interlingválních systémech strojového překladu existují dvě jednojazyčné komponenty: analýza zdrojového jazyka a interlingválu a generace interlingua a cílový jazyk. Je však nutné rozlišovat mezi interlingválními systémy používajícími pouze syntaktické metody (například systémy vyvinuté v 70. letech na univerzitách v Grenoblu a Texasu) a systémy založené na umělá inteligence (od roku 1987 v Japonsku a výzkum na univerzitách v jižní Kalifornii a Carnegie Mellon). První typ systému odpovídá systému uvedenému na obrázku 1., zatímco ostatní typy by byly aproximovány diagramem na obrázku 4.

Následující prostředky jsou nezbytné pro interlingvální strojový překladový systém:

Obrázek 4. Strojový překlad v systému založeném na znalostech.
  • Slovníky (nebo lexikony) pro analýzu a generování (specifické pro doména a příslušné jazyky).
  • Koncepční lexikon (specifický pro doménu), kterým je znalostní báze o událostech a entitách známých v doméně.
  • Sada pravidel projekce (specifická pro doménu a jazyky).
  • Gramatiky pro analýzu a generování příslušných jazyků.

Jedním z problémů systémů strojového překladu založeného na znalostech je to, že je nemožné vytvořit databáze pro domény větší než velmi specifické oblasti. Další je, že zpracování těchto databází je výpočetně velmi nákladné.

Účinnost

Jednou z hlavních výhod této strategie je, že poskytuje ekonomický způsob výroby vícejazyčných překladových systémů. S interlinguou je zbytečné vytvářet překladový pár mezi každou dvojicí jazyků v systému. Takže místo vytváření jazykové páry, kde je počet jazyků v systému, je pouze nutné udělat páry mezi jazyky a interlingua.

Hlavní nevýhodou této strategie je obtížnost vytvoření adekvátní interlingua. Mělo by to být abstraktní a nezávislé na zdrojovém a cílovém jazyce. Čím více jazyků je do překladového systému přidáno a čím jsou odlišnější, tím silnější musí být interlingua, aby vyjádřila všechny možné směry překladu. Dalším problémem je, že je obtížné extrahovat význam z textů v původních jazycích a vytvořit tak přechodnou reprezentaci.

Stávající systémy interlingválního strojového překladu

Viz také

Poznámky

  1. ^ Abdel Monem, A., Shaalan, K., Rafea, A., Baraka, H., Generování arabského textu ve vícejazyčném strojovém překladu řeči na řeč, Machine Translation, Springer, Nizozemsko, 20 (4): 205–258, prosinec 2008.
  2. ^ Bogdan Babych, Anthony Hartley a Serge Sharoff (2007) "Překlad z nedostatečně vybavených jazyků: porovnání přímého přenosu s pivotním překladem ". Sborník referátů MT Summit XI, 10. – 14. Září 2007, Kodaň, Dánsko. str. 29—35

externí odkazy