Mojžíš pro pouhé smrtelníky - Moses for Mere Mortals

Mojžíš pro pouhé smrtelníky (MMM)[1] je bezplatný open source software složený ze sady skripty navržen tak, aby umožňoval automatizaci procesů pro instalaci a provoz systému Moses Open Source Translation System, a statistický strojový překlad Systém.

MMM staví prototyp překladového řetězce s Moses + IRSTLM + RandLM + MGIZA.[2][3]

První verze Mojžíše pro pouhé smrtelníky byla vydána v listopadu 2009 a byla aktualizována a testována na distribucích Linux - Ubuntu. MMM je k dispozici v Hostování projektu GitHub webová stránka.[1]

Přehled

Jeho hlavní cíle jsou:

  • pomoci vybudovat prototyp překladatelského řetězce pro skutečný svět;
  • průvodce prvními kroky uživatelů, kteří Mojžíše teprve začínají používat;
  • umožnit jednoduché a rychlé vyhodnocení Mojžíše;
  • umožnit uživateli provádět vlastní překlady, aniž by musel důvěřovat třetím (překladatelským) stranám;
  • integrovat strojový překlad a překladové paměti.

Přestože je hlavní tah zaměřen na Linux, dvě Windows doplňky pomozte postavit most z MS Windows na Linux a poté zpět z Linuxu.

Obecné rysy

Přehled

Mojžíš umožňuje výcvik korpusů, kde je každé slovo prezentováno společně například s příslušnými slovy lemma a / nebo část řeči značky („Zapracované školení“). Skripty tento typ školení nepokrývají.

MMM se skládá ze sedmi skriptů pro Linux, důkladně otestovaných Ubuntu (12.04 a 14.04, 64bitová verze):

  • Nainstalujte: Chcete-li nainstalovat do Ubuntu balíčky, na kterých závisí Mojžíš i Mojžíš pro pouhé smrtelníky.
  • Vytvořit: Zkompilovat Mojžíše a další požadované balíčky pomocí jediného příkazu.
  • Vytvořte testovací soubory: Extrahovat z původního korpusu korpus pro trénink, soubory pro vyladění a soubory pro testování výsledků tréninku.
  • Vlak: Proškolit potřebné jazykové páry, protože Mojžíš je nezávislý na jazyce a umí pracovat s jakýmkoli jazykem / abecedou.
  • přeložit: Produkovat strojové překlady nových dokumentů.
  • Skóre: Automaticky vyhodnotit Mojžíšovy překlady proti lidskému překladu považovanému za zlatý standard pomocí BLEU a Metriky NIST algoritmy, abychom získali představu o úrovni výkonu.
  • Přeneste školení na jiné místo: Přenos motorů / tréninků do jiných složek ve stejném počítači nebo do jiného počítače.

MMM přichází s ukázkovým korpusem o 200 000 segmentech - který je příliš malý na to, aby vyhověl kvalitativním výsledkům dosažitelným u Mojžíše, ale je schopen poskytnout realistický pohled na relativní trvání příslušných kroků a je užitečný k testování, zda byla instalace provedena správně . Abychom dosáhli dobrých výsledků, potřebujeme korpus s několika miliony segmentů. Každý ortogonální korpus se skládá ze dvou přísně zarovnaných souborů UTF-8, jednoho ve zdrojovém jazyce a druhého v cílovém jazyce. Nevyžadují se žádné znalosti gramatiky, i když některé jazykové páry poskytují lepší výsledky než jiné. Obecně morfologicky bohaté jazyky poskytují horší výsledky.

Doplňky

MMM také obsahuje (pro Windows a Linux):

  • Extract_TMX_Corpus: Aplikace pro převod jednoho nebo více souborů ve formátu TMX do dvou paralelních a dokonale sladěných souborů (ve zdrojovém a cílovém jazyce) potřebných k procvičení jazykové dvojice.
  • Moses2TMX: Aplikace pro zarovnání originálů a překladů Mojžíše a zabalení každého souboru do souboru TMX se specifickými atributy tak, aby překlady Mojžíše byly identifikovány jako MT a byly přeloženy Mojžíšem a lze je použít s nástrojem překladové paměti s relativní pokutou k lidským vzpomínkám.

MMM také obsahuje soubor Nonbreaking_prefix.pt, seznam zkratek specifických pro portugalský jazyk, založený na anglické a německé verzi, která je již k dispozici v balíčku Mojžíš.

Softwarové funkce

Mojžíš pro pouhé smrtelníky má také některé originální funkce:

  • Odebere řídicí znaky ze vstupních souborů (mohou selhat při tréninku);
  • Z korpusu extrahuje 2 tréninkové soubory, 2 ladicí soubory a 2 testovací soubory (jeden ve zdrojovém jazyce a jeden v cílovém jazyce) s náhodně vybranými, nenasledujícími segmenty, které jsou ze souborů korpusu vymazány;
  • Nové školení nezasahuje do souborů z předchozího školení;
  • Nové školení co nejvíce využívá soubory vytvořené na předchozích školeních (čímž šetří čas);
  • Končí informativní zprávou, pokud některá z fází školení (tvorba jazykových modelů, školení rektorů, školení korpusu, mapování paměti, ladění nebo test školení) nepřinese očekávané výsledky;
  • Může omezit dobu ladění na zadaný počet iterací;
  • Může vygenerovat v jediném kroku skóre BLEU a NIST pro jeden překlad nebo sadu překladů přítomných v adresáři (buď pro každý celý dokument nebo pro každý segment každého dokumentu);
  • Umožňuje přenos tréninku korpusu do jiného počítače nebo do jiné instalace ve stejném počítači;
  • Umožňuje ovládání parametrů mkcls, GIZA a MGIZA pomocí parametrů ve vlakovém skriptu;
  • Umožňuje ovládat vybrané parametry ve Mojžíšových skriptech a Mojžíšově dekodéru přes vlak a překládat skripty.

Reference

  1. ^ A b „Mojžíš pro pouhé smrtelníky“. GitHub. Citováno 2014-11-28.
  2. ^ „Vítejte u Mojžíše!“. Citováno 2012-01-29.
  3. ^ "mosesdecoder". Citováno 2012-01-29.