Strojový překlad - Machine translation

Strojový překlad, někdy označovaný zkratkou MT[1] (nezaměňovat s počítačem podporovaný překlad, strojově podporovaný překlad člověka nebo interaktivní překlad ), je dílčí pole výpočetní lingvistika který zkoumá použití softwaru pro přeložit text nebo řeč z jednoho Jazyk jinému.

Na základní úrovni provádí MT mechanickou substituci slov v jednom jazyce za slova v jiném, ale to samo o sobě zřídka vytváří dobrý překlad, protože je nutné rozpoznávání celých frází a jejich nejbližších protějšků v cílovém jazyce. Ne všechna slova v jednom jazyce mají ekvivalentní slova v jiném jazyce a mnoho slov má více než jeden význam.

Řešení tohoto problému pomocí korpus statistické a neurální Techniky jsou rychle rostoucí pole, které vede k lepším překladům a zvládání rozdílů v jazyková typologie, překlad idiomy a izolace anomálií.[2][ověření se nezdařilo ]

Současný software pro strojový překlad často umožňuje přizpůsobení podle domény nebo profese (jako zprávy o počasí ), zlepšení produkce omezením rozsahu povolených substitucí. Tato technika je zvláště účinná v doménách, kde se používá formální nebo formální jazyk. Z toho vyplývá, že strojový překlad vládních a právních dokumentů snadněji produkuje použitelný výstup než konverzace nebo méně standardizovaný text.

Vylepšené kvality výstupu lze dosáhnout také lidským zásahem: například některé systémy jsou schopny překládat přesněji, pokud má uživatel jednoznačně identifikován která slova v textu jsou vlastní jména. S pomocí těchto technik se MT osvědčila jako nástroj na pomoc lidským překladatelům a ve velmi omezeném počtu případů může dokonce produkovat výstup, který lze použít jako takový (např. Zprávy o počasí).

O pokroku a potenciálu strojového překladu se během jeho historie hodně diskutovalo. Od 50. let řada učenců, především a především Yehoshua Bar-Hillel,[3] zpochybnili možnost dosažení plně automatického strojového překladu vysoké kvality.[4][stránka potřebná ]

Dějiny

Počátky

Počátky strojového překladu lze vysledovat zpět k práci Al-Kindi, arabština z 9. století kryptograf kteří vyvinuli techniky pro systémový jazykový překlad, včetně dešifrování, frekvenční analýza, a pravděpodobnost a statistika, které se používají v moderním strojovém překladu.[5] Myšlenka strojového překladu se později objevila v 17. století. V roce 1629 René Descartes navrhl univerzální jazyk s rovnocennými myšlenkami v různých jazycích sdílejících jeden symbol.[6]

Myšlenka využití digitálních počítačů k překladu přirozených jazyků byla navržena již v roce 1946 Angličany A. D. Booth a Warren Weaver na Rockefellerova nadace ve stejnou dobu. „Memorandum, které napsal Warren Weaver v roce 1949 je pravděpodobně nejvlivnější publikací v prvních dnech strojového překladu. “[7][8] Následovali další. V roce 1954 byla předvedena demonstrace APEXC stroj na Birkbeck College (University of London ) základního překladu angličtiny do francouzštiny. V té době bylo publikováno několik článků na toto téma, dokonce i články v populárních časopisech (například článek Cleave a Zacharov v čísle září 1955 z Bezdrátový svět ). Podobnou aplikací, která byla v té době také průkopníkem na Birkbeck College, bylo čtení a skládání Braillovo písmo texty na počítači.

1950

První výzkumník v oboru, Yehoshua Bar-Hillel, zahájil svůj výzkum na MIT (1951). A Georgetown University Výzkumný tým MT, vedený profesorem Michaelem Zarechnakem, následoval (1951) jeho veřejnou demonstrací Experiment Georgetown-IBM systém v roce 1954. V Japonsku se objevily výzkumné programy MT[9][10] a Rusko (1955) a první konference MT se konala v Londýně (1956).[11][12]

David G. Hays „psal o počítačově podporovaném zpracování jazyků již v roce 1957“ a „byl vedoucím projektu v oblasti počítačové lingvistiky Rande od roku 1955 do roku 1968. “[13]

1960–1975

Vědci se i nadále připojovali k oboru, protože v USA byla založena Asociace pro strojový překlad a výpočetní lingvistiku (1962) a Národní akademie věd vytvořila Poradní výbor pro automatické zpracování jazyků (ALPAC) pro studium MT (1964). Skutečný pokrok však byl mnohem pomalejší a poté Zpráva ALPAC (1966), který zjistil, že desetiletý výzkum nesplnil očekávání, bylo financování výrazně sníženo.[14] Podle zprávy ředitele obranného výzkumu a inženýrství z roku 1972 (DDR & E) byla proveditelnost rozsáhlého MT obnovena úspěchem systému Logos MT při překladu vojenských příruček do vietnamštiny během tohoto konfliktu.

Francouzský textilní institut také použil MT k překladu abstraktů do a do francouzštiny, angličtiny, němčiny a španělštiny (1970); Univerzita Brighama Younga zahájila projekt překladu mormonských textů automatizovaným překladem (1971).

1975 a dále

SYSTRAN, která „byla průkopníkem v oboru na základě smluv od vlády USA“[1] v 60. letech 20. století byla společností Xerox použita k překladu technických příruček (1978). Počínaje koncem 80. let, jako výpočetní síla se zvýšila a stala se levnější, větší zájem se projevil o statistické modely pro strojový překlad. MT se stal populárnějším po nástupu počítačů.[15] První implementační systém SYSTRAN byl implementován v roce 1988 online službou Francouzská poštovní služba volal Minitel.[16] Byly také spuštěny různé společnosti MT, včetně Trados (1984), který jako první vyvinul a uvedl na trh technologii překladových pamětí (1989). První komerční MT systém pro ruštinu / angličtinu / německo-ukrajinštinu byl vyvinut na Charkovské státní univerzitě (1991).

Do roku 1998 „bylo možné“ za pouhých 29,95 $ „koupit program pro překlad jedním směrem mezi angličtinou a hlavním evropským jazykem podle vašeho výběru“, který by fungoval na PC.[1]

MT na webu začalo tím, že SYSTRAN nabídl bezplatný překlad malých textů (1996) a poté jej poskytl prostřednictvím AltaVista Babelfish,[1] což vyneslo 500 000 žádostí denně (1997).[17] Druhou bezplatnou překladatelskou službou na webu byla Lernout & Hauspie GlobaLink.[1] Atlantic Magazine napsal v roce 1998, že „Systran's Babelfish a GlobaLink's Comprende“ zpracoval „Don't bank on it“ s „kompetentním výkonem“.[18]

Franz Josef Och (budoucí vedoucí společnosti Translation Development AT Google) zvítězil v soutěži DARPA v rychlosti MT (2003).[19] Mezi další inovace v této době patřily MOSES, statistický modul MT open-source (2007), služba překladu textu / SMS pro mobilní telefony v Japonsku (2008) a mobilní telefon s integrovanou funkcí překladu řeči do řeči pro angličtinu , Japonci a Číňané (2009). V roce 2012 to společnost Google oznámila Google Překladač překládá zhruba tolik textu, aby zaplnil 1 milion knih za jeden den.

Proces překladu

Člověk proces překladu lze popsat jako:

  1. Dekódování the význam z zdrojový text; a
  2. Re-kódování tento význam v cílovém jazyce.

Za tímto zdánlivě jednoduchým postupem se skrývá komplex poznávací úkon. Dekódovat význam zdrojový text překladatel musí jako celek interpretovat a analyzovat všechny vlastnosti textu, což je proces, který vyžaduje důkladnou znalost gramatika, sémantika, syntax, idiomy atd. zdrojového jazyka a také kultura jeho mluvčích. Překladatel potřebuje stejné hluboké znalosti, aby překódoval význam v cílovém jazyce.[20]

V tom spočívá výzva strojového překladu: jak naprogramovat počítač, který bude „rozumět“ textu jako člověk, a který „vytvoří“ nový text v cílovém jazyce, který zní, jako by to byla napsána osobou. Pokud MT neposkytuje „znalostní základnu“, poskytuje pouze obecnou, i když nedokonalou, aproximaci původního textu, získává „jeho podstata“ (proces zvaný „podstoupení“). To je dostatečné pro mnoho účelů, včetně co nejlepšího využití konečné a nákladné doby lidského překladače, vyhrazené pro ty případy, kdy je nezbytná úplná přesnost.

Přístupy

Pyramida Bernarda Vauquoise ukazující srovnávací hloubky zprostředkovaného zastoupení, mezijazyčný strojový překlad na vrcholu, následovaný přenosem, poté přímým překladem.

Strojový překlad může používat metodu založenou na jazyková pravidla, což znamená, že slova budou překládána jazykově - ta nejvhodnější (ústně) řečená slova cílového jazyka nahradí slova ve zdrojovém jazyce.[Citace je zapotřebí ]

Často se tvrdí, že úspěch strojového překladu vyžaduje problém porozumění přirozenému jazyku bude nejprve vyřešen.[21]

Metody založené na pravidlech obecně analyzují text, obvykle vytvářejí zprostředkující symbolickou reprezentaci, ze které je generován text v cílovém jazyce. Podle povahy zprostředkovaného zastoupení je přístup popsán jako mezijazyčný strojový překlad nebo strojový překlad založený na přenosu. Tyto metody vyžadují rozsáhlé lexikony s morfologické, syntaktický, a sémantický informace a velké soubory pravidel.

Vzhledem k dostatečnému množství dat fungují programy pro strojový překlad dostatečně dobře pro a rodilý mluvčí jednoho jazyka, abyste získali přibližný význam toho, co píše druhý rodilý mluvčí. Problémem je dostatek dat správného druhu pro podporu konkrétní metody. Například velký vícejazyčný korpus dat potřebných pro fungování statistických metod není pro metody založené na gramatice nutné. Ale pak gramatické metody potřebují zkušeného lingvisty, aby pečlivě navrhl gramatiku, kterou používají.

K překladu mezi úzce souvisejícími jazyky se tato technika označuje jako strojový překlad založený na pravidlech může být použit.

Na základě pravidel

Paradigma strojového překladu založené na pravidlech zahrnuje strojový překlad založený na pravidlech, interlingvální strojový překlad a paradigmata strojového překladu založené na slovníku. Tento typ překladu se používá hlavně při tvorbě slovníky a gramatické programy. Na rozdíl od jiných metod zahrnuje RBMT více informací o lingvistice zdrojového a cílového jazyka pomocí morfologických a syntaktických pravidel a sémantická analýza obou jazyků. Základní přístup zahrnuje propojení struktury vstupní věty se strukturou výstupní věty pomocí analyzátoru a analyzátoru pro zdrojový jazyk, generátoru pro cílový jazyk a přenosové lexiky pro vlastní překlad. Největší úpadek RBMT spočívá v tom, že vše musí být výslovně uvedeno: aby se s ním vyrovnal, musí být součástí analyzátoru zdrojového jazyka ortografická variace a chybný vstup a pro všechny případy nejednoznačnosti musí být napsána pravidla lexikálního výběru. Samotné přizpůsobení novým doménám není tak těžké, protože základní gramatika je ve všech doménách stejná a úprava specifická pro doménu je omezena na úpravu lexikálního výběru.

Strojový překlad založený na přenosu

Přenosový strojový překlad je podobný mezijazyčný strojový překlad v tom, že vytvoří překlad z prostřední reprezentace, která simuluje význam původní věty. Na rozdíl od interlingválního MT to částečně závisí na jazykové dvojici zapojené do překladu.

Mezijazyčný

Interlingvální strojový překlad je jednou z instancí přístupů založených na pravidlech pro strojový překlad. V tomto přístupu je zdrojový jazyk, tj. Text, který má být přeložen, transformován do interlingválního jazyka, tj. „Jazykově neutrální“ reprezentace, která je nezávislá na jakémkoli jazyce. Cílový jazyk je poté generován z interlingua. Jednou z hlavních výhod tohoto systému je, že interlingua se stává cennější, protože se zvyšuje počet cílových jazyků, které lze změnit. Jediným interlingválním systémem strojového překladu, který byl uveden do provozu na komerční úrovni, je systém KANT (Nyberg a Mitamura, 1992), který je určen k překladu technické angličtiny Caterpillar (CTE) do dalších jazyků.

Na základě slovníku

Strojový překlad může používat metodu založenou na slovník záznamů, což znamená, že slova budou přeložena ve slovníku.

Statistický

Statistický strojový překlad se pokouší generovat překlady pomocí statistické metody na základě dvojjazyčných textových korpusů, jako je Kanaďan Hansard korpus, anglicko-francouzský záznam kanadského parlamentu a EUROPARL, záznam o Evropský parlament. Tam, kde jsou takové korpusy k dispozici, lze dosáhnout dobrých výsledků při překladu podobných textů, ale u mnoha jazykových párů jsou takové korpusy stále vzácné. První statistický strojový překladový software byl CANDIDE z IBM. Google používá SYSTRAN několik let, ale v říjnu 2007 přešel na metodu statistického překladu.[22] V roce 2005 Google vylepšil své schopnosti interního překladu tím, že k trénování svého systému použil přibližně 200 miliard slov z materiálů OSN; přesnost překladu vylepšena.[23] Program Google Translate a podobné statistické překladové programy fungují tak, že detekují vzory ve stovkách milionů dokumentů, které byly dříve přeloženy lidmi, a na základě těchto zjištění vytvářejí inteligentní odhady. Obecně platí, že čím více dokumentů přeložených člověkem je v daném jazyce k dispozici, tím je pravděpodobnější, že překlad bude kvalitní.[24] Novější přístupy ke statistickému strojovému překladu, jako jsou METIS II a PRESEMT, používají minimální velikost korpusu a místo toho se zaměřují na odvození syntaktické struktury prostřednictvím rozpoznávání vzorů. S dalším vývojem to může umožnit, aby statistický strojový překlad fungoval mimo jednojazyčný textový korpus.[25] Největší úpadek SMT zahrnuje závislost na velkém množství paralelních textů, problémy s morfologicky bohatými jazyky (zejména s překlady) do tyto jazyky) a jeho neschopnost opravovat jednotlivé chyby.

Na příkladu

Přístup založený na příkladu strojového překladu (EBMT) navrhl Makoto Nagao v roce 1984.[26][27] Příkladový strojový překlad je založen na myšlence analogie. V tomto přístupu je použitým korpusem ten, který obsahuje texty, které již byly přeloženy. Vzhledem k větě, která má být přeložena, jsou vybrány věty z tohoto korpusu, které obsahují podobné dílčí věty.[28] Podobné věty se poté použijí k překladu dílčích vět původní věty do cílového jazyka a tyto fráze se spojí a vytvoří kompletní překlad.

Hybridní MT

Hybridní strojový překlad (HMT) využívá silné stránky statistických metod a metodiky překladů založených na pravidlech.[29] Několik organizací MT tvrdí hybridní přístup, který využívá pravidla i statistiky. Přístupy se liší mnoha způsoby:

  • Pravidla dodatečně zpracovaná statistikami: Překlady se provádějí pomocí motoru založeného na pravidlech. Statistiky jsou poté použity ve snaze upravit / opravit výstup z modulu pravidel.
  • Statistiky se řídí pravidly: Pravidla se používají k předběžnému zpracování dat ve snaze lépe řídit statistický stroj. Pravidla se také používají k následnému zpracování statistického výstupu k provádění funkcí, jako je normalizace. Tento přístup má při překladu mnohem větší sílu, flexibilitu a kontrolu. Poskytuje také rozsáhlou kontrolu nad způsobem, jakým je obsah zpracováván během předpřekladu (např. Označení obsahu a nepřekládatelných výrazů) i po překladu (např. Opravy a úpravy po překladu).

V poslední době se s příchodem Neural MT objevuje nová verze hybridního strojového překladu, která kombinuje výhody pravidel, statistický a neurální strojový překlad. Tento přístup umožňuje těžit z předběžného a následného zpracování v pracovním toku řízeném pravidly a také z výhod NMT a SMT. Nevýhodou je inherentní složitost, díky níž je přístup vhodný pouze pro konkrétní případy použití. Jedním z navrhovatelů tohoto přístupu pro komplexní případy použití je Omniscien Technologies.

Neural MT

A hluboké učení přístup založený na MT, neurální strojový překlad dosáhl v posledních letech rychlého pokroku a společnost Google oznámila, že její překladatelské služby nyní používají tuto technologii před svými předchozími statistickými metodami.[30] Tým Microsoftu dosáhl lidské parity na WMT-2017 v roce 2018 a to byl historický milník.[31]

Hlavní problémy

Strojový překlad by mohl vytvořit několik nesrozumitelných frází.
Zlomená čínština „沒有 進入“ ze strojového překladu v angličtině Bali, Indonésie. Zlomená čínská věta zní jako „neexistuje záznam“ nebo „dosud nebyl zadán“

Rozcestník

Slovní disambiguace se týká nalezení vhodného překladu, když slovo může mít více než jeden význam. Na problém poprvé upozornil v padesátých letech 20. století Yehoshua Bar-Hillel.[32] Poukázal na to, že bez „univerzální encyklopedie“ by stroj nikdy nebyl schopen rozlišit dva významy slova.[33] Dnes existuje řada přístupů určených k překonání tohoto problému. Lze je přibližně rozdělit na „mělké“ přístupy a „hluboké“ přístupy.

Mělké přístupy nepředpokládají žádnou znalost textu. Jednoduše použijí statistické metody na slova obklopující dvojznačné slovo. Hluboké přístupy předpokládají komplexní znalost slova. Mělké přístupy byly dosud úspěšnější.[34]

Claude Piron, dlouholetý překladatel pro OSN a Světová zdravotnická organizace napsal, že strojový překlad v nejlepším případě automatizuje jednodušší část práce překladatele; těžší a časově náročnější část obvykle zahrnuje provedení rozsáhlého výzkumu k vyřešení nejasnosti v zdrojový text, který gramatický a lexikální potřeby cílový jazyk vyžadovat vyřešení:

Proč překladatel potřebuje na překlad pěti stránek celý pracovní den, ne hodinu či dvě? ..... Těmto jednoduchým podmínkám odpovídá asi 90% průměrného textu. Ale bohužel je tu dalších 10%. Je to ta část, která vyžaduje šest [více] hodin práce. Člověk musí vyřešit nejasnosti. Například autor zdrojového textu, australský lékař, uvedl příklad epidemie, která byla vyhlášena během druhé světové války v „japonském zajateckém táboře“. Mluvil o americkém táboře s japonskými vězni nebo o japonském táboře s americkými vězni? Angličtina má dva smysly. Je proto nutné provést průzkum, možná v rozsahu telefonního hovoru do Austrálie.[35]

Ideální hloubkový přístup by vyžadoval, aby překladatelský software provedl veškerý výzkum nezbytný pro tento druh disambiguace sám; ale to by vyžadovalo vyšší stupeň AI než bylo dosud dosaženo. Mělký přístup, který jednoduše uhodl ve smyslu dvojznačné anglické fráze, kterou Piron zmiňuje (možná na základě toho, jaký válečný tábor je v daném korpusu častěji zmiňován), by měl rozumnou šanci spravedlivě hádat špatně. často. Mělký přístup, který zahrnuje „zeptejte se uživatele na každou nejednoznačnost“, by podle odhadu Pirona automatizoval pouze asi 25% práce profesionálního překladatele, přičemž těžších 75% by ještě musel udělat člověk.

Nestandardní řeč

Jednou z hlavních úskalí MT je jeho neschopnost překládat nestandardní jazyk se stejnou přesností jako standardní jazyk. Heuristické nebo statisticky založené MT bere vstupy z různých zdrojů ve standardní formě jazyka. Překlad podle pravidel ze své podstaty nezahrnuje běžná nestandardní použití. To způsobí chyby v překladu z národního zdroje nebo do hovorového jazyka. Omezení překladu z běžné řeči představují problémy při používání strojového překladu v mobilních zařízeních.

Pojmenované entity

v extrakce informací „Pojmenované entity v úzkém smyslu označují konkrétní nebo abstraktní entity v reálném světě, jako jsou lidé, organizace, společnosti a místa, která mají vlastní název: George Washington, Chicago, Microsoft. Odkazuje také na vyjádření času, prostoru a množství, například 1. července 2011, 500 USD.

Ve větě „Smith je prezidentem společnosti Fabrionix“ oba Kovář a Fabrionix jsou pojmenované subjekty a lze je dále kvalifikovat pomocí křestního jména nebo jiných informací; „prezident“ není, protože Smith mohl dříve zastávat jinou pozici ve Fabrionixu, např. Viceprezident. Termín rigidní označení je to, co definuje tato použití pro analýzu ve statistickém strojovém překladu.

Pojmenované entity musí být nejprve identifikovány v textu; pokud ne, mohou být chybně přeloženy jako běžná podstatná jména, což by s největší pravděpodobností neovlivnilo BLEU hodnocení překladu, ale změnilo by to lidskou čitelnost textu.[36] Mohou být vynechány z výstupního překladu, což by mělo také důsledky pro čitelnost textu a zprávu.

Přepis zahrnuje hledání písmen v cílovém jazyce, která nejvíce odpovídají jménu ve zdrojovém jazyce. Toto však bylo citováno jako někdy zhoršující kvalitu překladu.[37] U „jižní Kalifornie“ by mělo být první slovo přeloženo přímo, zatímco druhé slovo by mělo být přepsáno. Stroje často přepisují obojí, protože s nimi zacházejí jako s jednou entitou. Taková slova se těžko zpracovávají strojovým překladatelům, dokonce i těm s transliterační komponentou.

Použití seznamu „nepřekládat“, který má stejný konečný cíl - přepis oproti překladu.[38] stále spoléhá na správnou identifikaci pojmenovaných entit.

Třetím přístupem je model založený na třídě. Pojmenované entity jsou nahrazeny tokenem, který představuje jejich „třídu;“ „Ted“ a „Erica“ by oba byly nahrazeny žetonem třídy „person“. Pak lze statistickou distribuci a používání jmen osob obecně analyzovat místo toho, abychom se dívali na distribuci „Ted“ a „Erica“ jednotlivě, takže pravděpodobnost křestního jména v konkrétním jazyce neovlivní přiřazenou pravděpodobnost překladu. Studie Stanfordu o zdokonalení této oblasti překladu uvádí příklady, že pro „Davida jde na procházku“ a „Ankita jde na procházku“ pro angličtinu jako cílový jazyk kvůli rozdílnému počtu výskytů budou přiřazeny různé pravděpodobnosti. pro každý název v tréninkových datech. Frustrujícím výsledkem stejné studie Stanforda (a dalších pokusů o zlepšení překladu pojmenovaného rozpoznávání) je, že mnohokrát pokles BLEU skóre pro překlad bude výsledkem zahrnutí metod pro překlad pojmenované entity.[38]

Poněkud související jsou fráze „pití čaje s mlékem“ vs. „pití čaje s Molly“.

Překlad z více paralelních zdrojů

Určitá práce byla provedena při využívání multiparallel korpusy, tj. text, který byl přeložen do 3 nebo více jazyků. Pomocí těchto metod lze text, který byl přeložen do 2 nebo více jazyků, použít v kombinaci k zajištění přesnějšího překladu do třetího jazyka ve srovnání s případy, kdy byl použit pouze jeden z těchto zdrojových jazyků samostatně.[39][40][41]

Ontologie v MT

An ontologie je formální reprezentace znalostí, která zahrnuje pojmy (jako jsou objekty, procesy atd.) v doméně a některé vztahy mezi nimi. Pokud jsou uložené informace jazykové povahy, lze hovořit o lexikonu.[42]v NLP, ontologie lze použít jako zdroj znalostí pro systémy strojového překladu. Díky přístupu k velké znalostní bázi lze systémům umožnit samy vyřešit mnoho (zejména lexikálních) nejasností. V následujících klasických příkladech, jako lidé, dokážeme interpretovat předložková fráze podle kontextu, protože používáme naše znalosti o světě uložené v našich lexikonech:

„Viděl jsem muže / hvězdu / molekulu s mikroskopem / dalekohledem / dalekohledem.“[42]

Systém strojového překladu by zpočátku nebyl schopen rozlišovat mezi významy, protože syntaxe se nemění. S dostatečně velkou ontologií jako zdrojem znalostí však lze omezit možné interpretace nejednoznačných slov v konkrétním kontextu. Další oblasti použití ontologií v rámci NLP zahrnují vyhledávání informací, extrakce informací a shrnutí textu.[42]

Budování ontologií

Ontologie vygenerovaná pro strojový překladový systém založený na znalostech PANGLOSS v roce 1993 může sloužit jako příklad toho, jak ontologie pro NLP účely lze sestavit:[43]

  • K analýze aktivních modulů systému strojového překladu je nezbytná rozsáhlá ontologie.
  • V příkladu PANGLOSS bylo asi 50 000 uzlů zamýšleno k zahrnutí pod menší, ručně vytvořené horní (abstraktní) kraj ontologie. Vzhledem ke své velikosti musel být vytvořen automaticky.
  • Cílem bylo sloučit tyto dva zdroje LDOCE online a WordNet kombinovat výhody obou: stručné definice od Longmana a sémantické vztahy umožňující poloautomatickou taxonomizaci k ontologii z WordNet.
    • A shoda definice algoritmus byl vytvořen k automatickému sloučení správných významů nejednoznačných slov mezi těmito dvěma online prostředky na základě slov, která mají definice těchto významů společné v LDOCE a WordNet. Používat matice podobnosti, dodaný algoritmus se shoduje mezi významy včetně faktoru spolehlivosti. Samotný tento algoritmus však neodpovídal správně všem významům.
    • Vteřina hierarchická shoda Proto byl vytvořen algoritmus, který využívá taxonomické hierarchie nalezené ve WordNetu (hluboké hierarchie) a částečně v LDOCE (ploché hierarchie). Funguje to tak, že se nejprve shodují jednoznačné významy a poté se prostor pro vyhledávání omezuje pouze na příslušné předky a potomky těchto shodných významů. Algoritmus tedy odpovídal místně jednoznačným významům (například zatímco slovo těsnění protože je nejednoznačný, má pouze jeden význam "těsnění" v zvíře subhierarchie).
  • Oba algoritmy se navzájem doplňovaly a pomáhaly budovat rozsáhlou ontologii pro systém strojového překladu. Hierarchie WordNet spolu s odpovídajícími definicemi LDOCE byly podřízeny ontologickým horní oblast. Výsledkem bylo, že systém PANGLOSS MT dokázal tuto znalostní základnu využít, zejména ve svém generačním prvku.

Aplikace

I když žádný systém neposkytuje svatý grál plně automatického vysoce kvalitního strojového překladu neomezeného textu, mnoho plně automatizovaných systémů produkuje přiměřený výstup.[44][45][46] Kvalita strojového překladu se podstatně zlepší, pokud je doména omezena a kontrolována.[47]

Přes svá vlastní omezení se programy MT používají po celém světě. Pravděpodobně největším institucionálním uživatelem je Evropská komise. The MOLTO projekt koordinovaný např University of Gothenburg, získalo od EU více než 2 375 milionů eur projektovou podporu na vytvoření spolehlivého překladatelského nástroje, který pokrývá většinu jazyků EU.[48] Další vývoj systémů MT přichází v době, kdy škrty rozpočtu v lidském překladu mohou zvýšit závislost EU na spolehlivých programech MT.[49] Evropská komise přispěla částkou 3 072 milionů EUR (prostřednictvím svého programu ISA) na vytvoření MT @ EC, statistického programu strojového překladu přizpůsobeného administrativním potřebám EU, který má nahradit předchozí systém strojového překladu založený na pravidlech.[50]

V roce 2005 Google tvrdil, že slibné výsledky byly získány pomocí patentovaného statistického strojového překladače.[51] Statistický překladový stroj používaný v EU Jazykové nástroje Google pro arabštinu <-> angličtina a čínština <-> angličtina měla v testech prováděných Národním institutem pro standardy a technologii celkové skóre 0,4281 nad druhým skóre IBM BLEU-4 0,3954 (léto 2006).[52][53][54]

S nedávným zaměřením na terorismus investovaly vojenské zdroje ve Spojených státech značné částky peněz do inženýrství přirozeného jazyka. In-Q-Tel[55] (A rizikový kapitál fond, z velké části financovaný americkou zpravodajskou komunitou, na stimulaci nových technologií prostřednictvím podnikatelů v soukromém sektoru) vychovávaných společností jako Language Weaver. V současné době se vojenská komunita zajímá o překlad a zpracování jazyků podobných arabština, Paštštino, a Dari.[Citace je zapotřebí ] V těchto jazycích se zaměřuje na klíčové fráze a rychlou komunikaci mezi vojenskými členy a civilisty pomocí aplikací pro mobilní telefony.[56] Kancelář technologie zpracování informací v DARPA hostí programy jako DRUHY a Překladatel Babylonu. Americké letectvo zadalo kontrakt na vývoj technologie jazykového překladu ve výši 1 milionu dolarů.[57]

Pozoruhodný vzestup sociální síť na webu v posledních letech vytvořil ještě další mezeru v aplikaci softwaru pro strojový překlad - v nástrojích, jako je Facebook nebo rychlé zprávy klienti jako Skype, GoogleTalk, MSN Messenger atd. - umožňující uživatelům komunikovat různými jazyky různými jazyky. Aplikace pro strojový překlad byly také vydány pro většinu mobilních zařízení, včetně mobilních telefonů, kapesních počítačů, PDA atd. Kvůli jejich přenositelnosti se tyto nástroje začaly označovat jako mobilní překlad nástroje umožňující mobilní obchodní síťování mezi partnery hovořícími různými jazyky nebo usnadňující jak výuku cizích jazyků, tak cestování bez doprovodu do cizích zemí bez nutnosti zprostředkování lidským překladatelem.

Přesto, že byl v roce 1966 označen Poradním výborem pro automatizované zpracování jazyků, který sestavila vláda Spojených států, jako nehodný konkurent lidského překladu,[58] kvalita strojového překladu byla nyní vylepšena na takové úrovně, že je zkoumána jeho aplikace v online spolupráci a v lékařské oblasti. Uplatnění této technologie v lékařských zařízeních, kde lidští překladatelé chybí, je dalším tématem výzkumu, ale vznikají potíže kvůli důležitosti přesných překladů v lékařských diagnózách.[59]

Hodnocení

Způsob hodnocení systémů strojového překladu ovlivňuje mnoho faktorů. Mezi tyto faktory patří zamýšlené použití překladu, povaha softwaru pro strojový překlad a povaha procesu překladu.

Různé programy mohou dobře fungovat pro různé účely. Například, statistický strojový překlad (SMT) obvykle překonává příkladový strojový překlad (EBMT), ale vědci zjistili, že při hodnocení překladu z angličtiny do francouzštiny funguje EBMT lépe.[60] Stejný koncept platí pro technické dokumenty, které lze snáze překládat SMT kvůli jejich formálnímu jazyku.

V určitých aplikacích však např. Popisy produktů napsané v a řízený jazyk, a strojový překlad založený na slovníku systém vytvořil uspokojivé překlady, které nevyžadují žádný lidský zásah, kromě kontroly kvality.[61]

Existují různé prostředky pro hodnocení výstupní kvality systémů strojového překladu. Nejstarší je použití lidských soudců[62] posoudit kvalitu překladu. I když je lidské hodnocení časově náročné, je stále nejspolehlivější metodou pro srovnání různých systémů, jako jsou systémy založené na pravidlech a statistické systémy.[63] Automatizovaný způsoby hodnocení zahrnují BLEU, NIST, METEOR, a LEPOR.[64]

Spoléhání se výhradně na neupravený strojový překlad ignoruje skutečnost, že komunikace v lidský jazyk je zasazený do kontextu a že člověku je třeba porozumět kontext původního textu s rozumnou mírou pravděpodobnosti. Je jistě pravda, že i čistě lidské překlady jsou náchylné k chybám. Proto, aby bylo zajištěno, že strojově generovaný překlad bude pro člověka užitečný a bude dosaženo překladu v publikovatelné kvalitě, musí být tyto překlady zkontrolovány a upraveny člověkem.[65] Pozdní Claude Piron napsal, že strojový překlad v nejlepším případě automatizuje jednodušší část práce překladatele; těžší a časově náročnější část obvykle zahrnuje provedení rozsáhlého výzkumu k vyřešení nejasnosti v zdrojový text, který gramatický a lexikální potřeby cílového jazyka je třeba vyřešit. Takový výzkum je nezbytnou předehrou k předběžným úpravám nezbytným k poskytnutí vstupu pro software pro strojový překlad tak, aby výstup nebyl bezvýznamný.[66]

Kromě problémů s disambiguací může dojít ke snížení přesnosti kvůli různé úrovni tréninkových dat pro strojové překladové programy. Both example-based and statistical machine translation rely on a vast array of real example sentences as a base for translation, and when too many or too few sentences are analyzed accuracy is jeopardized. Researchers found that when a program is trained on 203,529 sentence pairings, accuracy actually decreases.[60] The optimal level of training data seems to be just over 100,000 sentences, possibly because as training data increases, the number of possible sentences increases, making it harder to find an exact translation match.

Using machine translation as a teaching tool

Although there have been concerns about machine translation's accuracy, Dr. Ana Nino of the University of Manchester has researched some of the advantages in utilizing machine translation in the classroom. One such pedagogical method is called using "MT as a Bad Model."[67] MT as a Bad Model forces the language learner to identify inconsistencies or incorrect aspects of a translation; in turn, the individual will (hopefully) possess a better grasp of the language. Dr. Nino cites that this teaching tool was implemented in the late 1980s. At the end of various semesters, Dr. Nino was able to obtain survey results from students who had used MT as a Bad Model (as well as other models.) Overwhelmingly, students felt that they had observed improved comprehension, lexical retrieval, and increased confidence in their target language.[67]

Machine translation and signed languages

In the early 2000s, options for machine translation between spoken and signed languages were severely limited. It was a common belief that deaf individuals could use traditional translators. However, stress, intonation, pitch, and timing are conveyed much differently in spoken languages compared to signed languages. Therefore, a deaf individual may misinterpret or become confused about the meaning of written text that is based on a spoken language.[68]

Researchers Zhao, et al. (2000), developed a prototype called TEAM (translation from English to ASL by machine) that completed English to Americký znakový jazyk (ASL) translations. The program would first analyze the syntactic, grammatical, and morphological aspects of the English text. Following this step, the program accessed a sign synthesizer, which acted as a dictionary for ASL. This synthesizer housed the process one must follow to complete ASL signs, as well as the meanings of these signs. Once the entire text is analyzed and the signs necessary to complete the translation are located in the synthesizer, a computer generated human appeared and would use ASL to sign the English text to the user.[68]

autorská práva

Pouze funguje to jsou originál are subject to autorská práva protection, so some scholars claim that machine translation results are not entitled to copyright protection because MT does not involve tvořivost.[69] The copyright at issue is for a derivative work; the author of the original work in the original language does not lose his práva when a work is translated: a translator must have permission to publikovat a translation.

Viz také

Poznámky

  1. ^ A b C d E Stephen Budiansky (December 1998). "Lost in Translation". Atlantic Magazine. pp. 81–84.
  2. ^ Albat, Thomas Fritz. "Systems and Methods for Automatically Estimating a Translation Time." US Patent 0185235, 19 July 2012.
  3. ^ Yehoshua Bar-Hillel (1964). Language and Information: Selected Essays on Their Theory and Application. Reading, MA: Addison-Wesley. pp. 174–179.
  4. ^ Madsen, Mathias Winther (2009). The Limits of Machine Translation. M.A. thesis, Kodaňská univerzita. Citováno 12. května 2020.
  5. ^ DuPont, Quinn (January 2018). "The Cryptological Origins of Machine Translation: From al-Kindi to Weaver". Amodern (8).
  6. ^ James Knowlson (1975). Universal language schemes in England and France, 1600-1800. University of Toronto Press. ISBN  978-0-8020-5296-4.
  7. ^ J. Hutchins (2000). "Warren Weaver and the launching of MT". Early Years in Machine Translation (PDF). Sémantický učenec. Studies in the History of the Language Sciences. 97. p. 17. doi:10.1075/sihols.97.05hut. ISBN  978-90-272-4586-1. S2CID  163460375.
  8. ^ "Warren Weaver, American mathematician". 13 July 2020.
  9. ^ 上野, 俊夫 (13 August 1986). パーソナルコンピュータによる機械翻訳プログラムの制作 (v japonštině). Tokyo: (株)ラッセル社. p. 16. ISBN  494762700X. わが国では1956年、当時の電気試験所が英和翻訳専用機「ヤマト」を実験している。この機械は1962年頃には中学1年の教科書で90点以上の能力に達したと報告されている。(translation (assisted by Google translate ): In 1959 Japan, the National Institute of Advanced Industrial Science and Technology (AIST) tested the proper English-Japanese translation machine Yamato, which reported in 1964 as that reached the power level over the score of 90-point on the textbook of 1st grade of junior hi-school.)
  10. ^ "機械翻訳専用機「やまと」-コンピュータ博物館".
  11. ^ Nye, Mary Jo (2016). "Speaking in Tongues: Science's centuries-long hunt for a common language". Destilace. 2 (1): 40–43. Citováno 20. března 2018.
  12. ^ Gordin, Michael D. (2015). Scientific Babel: How Science Was Done Before and After Global English. Chicago, Illinois: University of Chicago Press. ISBN  9780226000299.
  13. ^ Wolfgang Saxon (28 July 1995). "David G. Hays, 66, a Developer Of Language Study by Computer". The New York Times. wrote about computer-assisted language processing as early as 1957.. was project leader on computational linguistics at Rand from 1955 to 1968.
  14. ^ 上野, 俊夫 (13 August 1986). パーソナルコンピュータによる機械翻訳プログラムの制作 (v japonštině). Tokyo: (株)ラッセル社. p. 16. ISBN  494762700X.
  15. ^ Schank, Roger C. (2014). Conceptual Information Processing. New York: Elsevier. p. 5. ISBN  9781483258799.
  16. ^ Farwell, David; Gerber, Laurie; Hovy, Eduard (29 June 2003). Machine Translation and the Information Soup: Third Conference of the Association for Machine Translation in the Americas, AMTA'98, Langhorne, PA, USA, October 28–31, 1998 Proceedings. Berlín: Springer. p. 276. ISBN  3540652590.
  17. ^ Barron, Brenda (18 November 2019). "Babel Fish: What Happened To The Original Translation Application?: We Investigate". Digital.com. Citováno 22. listopadu 2019.
  18. ^ and gave other examples too
  19. ^ Chan, Sin-Wai (2015). Routledge Encyclopedia of Translation Technology. Oxon: Routledge. p. 385. ISBN  9780415524841.
  20. ^ Bai Liping, "Similarity and difference in Translation." Vzáno z Similarity and Difference in Translation: Proceedings of the International Conference on Similarity and Translation, str. 339. Eds. Stefano Arduini and Robert Hodgson. 2. vyd. Řím: Edizioni di storia e letteratura, 2007. ISBN  9788884983749
  21. ^ John Lehrberger (1988). Machine Translation: Linguistic Characteristics of MT Systems and General Methodology of Evaluation. Nakladatelství John Benjamins. ISBN  90-272-3124-9.
  22. ^ Chitu, Alex (22 October 2007). "Google Switches to Its Own Translation System". Googlesystem.blogspot.com. Citováno 13. srpna 2012.
  23. ^ "Google Translator: The Universal Language". Blog.outer-court.com. 25. ledna 2007. Citováno 12. června 2012.
  24. ^ "Inside Google Translate – Google Translate".
  25. ^ http://www.mt-archive.info/10/HyTra-2013-Tambouratzis.pdf
  26. ^ Nagao, M. 1981. A Framework of a Mechanical Translation between Japanese and English by Analogy Principle, in Artificial and Human Intelligence, A. Elithorn and R. Banerji (eds.) North- Holland, pp. 173–180, 1984.
  27. ^ "the Association for Computational Linguistics – 2003 ACL Lifetime Achievement Award". Association for Computational Linguistics. Archivovány od originál dne 12. června 2010. Citováno 10. března 2010.
  28. ^ "Kitt.cl.uzh.ch [CL Wiki]" (PDF).
  29. ^ Adam Boretz (2 March 2009). "Boretz, Adam, "AppTek Launches Hybrid Machine Translation Software" SpeechTechMag.com (posted 2 MAR 2009)". Speechtechmag.com. Citováno 12. června 2012.
  30. ^ "Google's neural network learns to translate languages it hasn't been trained on".
  31. ^ https://blogs.microsoft.com/ai/chinese-to-english-translator-milestone/. Chybějící nebo prázdný | název = (Pomoc)
  32. ^ Milestones in machine translation – No.6: Bar-Hillel and the nonfeasibility of FAHQT Archivováno 12. března 2007 na Wayback Machine by John Hutchins
  33. ^ Bar-Hillel (1960), "Automatic Translation of Languages". K dispozici online na http://www.mt-archive.info/Bar-Hillel-1960.pdf
  34. ^ Hybrid approaches to machine translation. Costa-jussà, Marta R.,, Rapp, Reinhard,, Lambert, Patrik,, Eberle, Kurt,, Banchs, Rafael E.,, Babych, Bogdan. Švýcarsko. ISBN  9783319213101. OCLC  953581497.CS1 maint: ostatní (odkaz)
  35. ^ Claude Piron, Le défi des langues (The Language Challenge), Paris, L'Harmattan, 1994.
  36. ^ http://www.cl.cam.ac.uk/~ar283/eacl03/workshops03/W03-w1_eacl03babych.local.pdf
  37. ^ Hermajakob, U., Knight, K., & Hal, D. (2008). Name Translation in Statistical Machine Translation Learning When to Transliterate. Association for Computational Linguistics. 389–397.
  38. ^ A b http://nlp.stanford.edu/courses/cs224n/2010/reports/singla-nirajuec.pdf
  39. ^ https://dowobeha.github.io/papers/amta08.pdf
  40. ^ http://homepages.inf.ed.ac.uk/mlap/Papers/acl07.pdf
  41. ^ https://www.jair.org/media/3540/live-3540-6293-jair.pdf
  42. ^ A b C Vossen, Piek: Ontologie. In: Mitkov, Ruslan (ed.) (2003): Handbook of Computational Linguistics, Chapter 25. Oxford: Oxford University Press.
  43. ^ Knight, Kevin (1994). "Building a large ontology for machine translation (1993)". arXiv:cmp-lg/9407029. Citovat deník vyžaduje | deník = (Pomoc)
  44. ^ Melby, Alan. The Possibility of Language (Amsterdam:Benjamins, 1995, 27–41). Benjamins.com. 1995. ISBN  9789027216144. Citováno 12. června 2012.
  45. ^ Adam (14 February 2006). "Wooten, Adam. "A Simple Model Outlining Translation Technology" T&I Business (February 14, 2006)". Tandibusiness.blogspot.com. Citováno 12. června 2012.
  46. ^ "Appendix III of 'The present status of automatic translation of languages', Advances in Computers, vol.1 (1960), p.158-163. Reprinted in Y.Bar-Hillel: Language and information (Reading, Mass.: Addison-Wesley, 1964), p.174-179" (PDF). Citováno 12. června 2012.
  47. ^ "Human quality machine translation solution by Ta with you" (ve španělštině). Tauyou.com. 15. dubna 2009. Citováno 12. června 2012.
  48. ^ "molto-project.eu". molto-project.eu. Citováno 12. června 2012.
  49. ^ SPIEGEL ONLINE, Hamburg, Germany (13 September 2013). "Google Translate Has Ambitious Goals for Machine Translation". SPIEGEL ONLINE.CS1 maint: více jmen: seznam autorů (odkaz)
  50. ^ "Machine Translation Service". 5 August 2011.
  51. ^ Google Blog: The machines do the translating (podle Franz Och )
  52. ^ "Geer, David, "Statistical Translation Gains Respect", pp. 18 – 21, IEEE Computer, October 2005". Ieeexplore.ieee.org. 27. září 2011. doi:10.1109/MC.2005.353. S2CID  7088166. Citovat deník vyžaduje | deník = (Pomoc)
  53. ^ Ratliff, Evan (4 January 2009). "Ratcliff, Evan "Me Translate Pretty One Day", Wired December 2006". Kabelové. Citováno 12. června 2012.
  54. ^ ""NIST 2006 Machine Translation Evaluation Official Results", November 1, 2006". Itl.nist.gov. Citováno 12. června 2012.
  55. ^ "In-Q-Tel". In-Q-Tel. Archivovány od originál dne 20. května 2016. Citováno 12. června 2012.
  56. ^ Gallafent, Alex (26 April 2011). "Machine Translation for the Military". PRI's the World. Citováno 17. září 2013.
  57. ^ Jackson, William (9 September 2003). "GCN – Air force wants to build a universal translator". Gcn.com. Citováno 12. června 2012.
  58. ^ http://www.nap.edu/html/alpac_lm/ARC000005.pdf
  59. ^ "Using machine translation in clinical practice".
  60. ^ A b Way, Andy; Nano Gough (20 September 2005). "Comparing Example-Based and Statistical Machine Translation". Natural Language Engineering. 11 (3): 295–309. doi:10.1017/S1351324905003888.
  61. ^ Muegge (2006), "Fully Automatic High Quality Machine Translation of Restricted Text: A Case Study," v Translating and the computer 28. Proceedings of the twenty-eighth international conference on translating and the computer, 16–17 November 2006, London, London: Aslib. ISBN  978-0-85142-483-5.
  62. ^ "Comparison of MT systems by human evaluation, May 2008". Morphologic.hu. Archivovány od originál dne 19. dubna 2012. Citováno 12. června 2012.
  63. ^ Anderson, D.D. (1995). Machine translation as a tool in second language learning. CALICO Journal. 13(1). 68–96.
  64. ^ Han et al. (2012), "LEPOR: A Robust Evaluation Metric for Machine Translation with Augmented Factors," v Proceedings of the 24th International Conference on Computational Linguistics (COLING 2012): Posters, pages 441–450, Mumbai, India.
  65. ^ J.M. Cohen observes (p.14): "Scientific translation is the aim of an age that would reduce all activities to techniky. It is impossible however to imagine a literary-translation machine less complex than the human brain itself, with all its knowledge, reading, and discrimination."
  66. ^ Viz annually performed NIST tests since 2001 a Bilingual Evaluation Understudy
  67. ^ A b Nino, Ana. "Machine Translation in Foreign Language Learning: Language Learners' and Tutors' Perceptions of Its Advantages and Disadvantages " ReCALL: the Journal of EUROCALL 21.2 (May 2009) 241–258.
  68. ^ A b Zhao, L., Kipper, K., Schuler, W., Vogler, C., & Palmer, M. (2000). A Machine Translation System from English to American Sign Language. Lecture Notes in Computer Science, 1934: 54–67.
  69. ^ "Machine Translation: No Copyright On The Result?". SEO Translator, citing Zimbabwe Independent. Citováno 24. listopadu 2012.

Další čtení

externí odkazy