Mojžíš pro pouhé smrtelníky - Moses for Mere Mortals
Mojžíš pro pouhé smrtelníky (MMM)[1] je bezplatný open source software složený ze sady skripty navržen tak, aby umožňoval automatizaci procesů pro instalaci a provoz systému Moses Open Source Translation System, a statistický strojový překlad Systém.
MMM staví prototyp překladového řetězce s Moses + IRSTLM + RandLM + MGIZA.[2][3]
První verze Mojžíše pro pouhé smrtelníky byla vydána v listopadu 2009 a byla aktualizována a testována na distribucích Linux - Ubuntu. MMM je k dispozici v Hostování projektu GitHub webová stránka.[1]
Přehled
Jeho hlavní cíle jsou:
- pomoci vybudovat prototyp překladatelského řetězce pro skutečný svět;
- průvodce prvními kroky uživatelů, kteří Mojžíše teprve začínají používat;
- umožnit jednoduché a rychlé vyhodnocení Mojžíše;
- umožnit uživateli provádět vlastní překlady, aniž by musel důvěřovat třetím (překladatelským) stranám;
- integrovat strojový překlad a překladové paměti.
Přestože je hlavní tah zaměřen na Linux, dvě Windows doplňky pomozte postavit most z MS Windows na Linux a poté zpět z Linuxu.
Obecné rysy
Mojžíš umožňuje výcvik korpusů, kde je každé slovo prezentováno společně například s příslušnými slovy lemma a / nebo část řeči značky („Zapracované školení“). Skripty tento typ školení nepokrývají.
MMM se skládá ze sedmi skriptů pro Linux, důkladně otestovaných Ubuntu (12.04 a 14.04, 64bitová verze):
- Nainstalujte: Chcete-li nainstalovat do Ubuntu balíčky, na kterých závisí Mojžíš i Mojžíš pro pouhé smrtelníky.
- Vytvořit: Zkompilovat Mojžíše a další požadované balíčky pomocí jediného příkazu.
- Vytvořte testovací soubory: Extrahovat z původního korpusu korpus pro trénink, soubory pro vyladění a soubory pro testování výsledků tréninku.
- Vlak: Proškolit potřebné jazykové páry, protože Mojžíš je nezávislý na jazyce a umí pracovat s jakýmkoli jazykem / abecedou.
- přeložit: Produkovat strojové překlady nových dokumentů.
- Skóre: Automaticky vyhodnotit Mojžíšovy překlady proti lidskému překladu považovanému za zlatý standard pomocí BLEU a Metriky NIST algoritmy, abychom získali představu o úrovni výkonu.
- Přeneste školení na jiné místo: Přenos motorů / tréninků do jiných složek ve stejném počítači nebo do jiného počítače.
MMM přichází s ukázkovým korpusem o 200 000 segmentech - který je příliš malý na to, aby vyhověl kvalitativním výsledkům dosažitelným u Mojžíše, ale je schopen poskytnout realistický pohled na relativní trvání příslušných kroků a je užitečný k testování, zda byla instalace provedena správně . Abychom dosáhli dobrých výsledků, potřebujeme korpus s několika miliony segmentů. Každý ortogonální korpus se skládá ze dvou přísně zarovnaných souborů UTF-8, jednoho ve zdrojovém jazyce a druhého v cílovém jazyce. Nevyžadují se žádné znalosti gramatiky, i když některé jazykové páry poskytují lepší výsledky než jiné. Obecně morfologicky bohaté jazyky poskytují horší výsledky.
Doplňky
MMM také obsahuje (pro Windows a Linux):
- Extract_TMX_Corpus: Aplikace pro převod jednoho nebo více souborů ve formátu TMX do dvou paralelních a dokonale sladěných souborů (ve zdrojovém a cílovém jazyce) potřebných k procvičení jazykové dvojice.
- Moses2TMX: Aplikace pro zarovnání originálů a překladů Mojžíše a zabalení každého souboru do souboru TMX se specifickými atributy tak, aby překlady Mojžíše byly identifikovány jako MT a byly přeloženy Mojžíšem a lze je použít s nástrojem překladové paměti s relativní pokutou k lidským vzpomínkám.
MMM také obsahuje soubor Nonbreaking_prefix.pt, seznam zkratek specifických pro portugalský jazyk, založený na anglické a německé verzi, která je již k dispozici v balíčku Mojžíš.
Softwarové funkce
Mojžíš pro pouhé smrtelníky má také některé originální funkce:
- Odebere řídicí znaky ze vstupních souborů (mohou selhat při tréninku);
- Z korpusu extrahuje 2 tréninkové soubory, 2 ladicí soubory a 2 testovací soubory (jeden ve zdrojovém jazyce a jeden v cílovém jazyce) s náhodně vybranými, nenasledujícími segmenty, které jsou ze souborů korpusu vymazány;
- Nové školení nezasahuje do souborů z předchozího školení;
- Nové školení co nejvíce využívá soubory vytvořené na předchozích školeních (čímž šetří čas);
- Končí informativní zprávou, pokud některá z fází školení (tvorba jazykových modelů, školení rektorů, školení korpusu, mapování paměti, ladění nebo test školení) nepřinese očekávané výsledky;
- Může omezit dobu ladění na zadaný počet iterací;
- Může vygenerovat v jediném kroku skóre BLEU a NIST pro jeden překlad nebo sadu překladů přítomných v adresáři (buď pro každý celý dokument nebo pro každý segment každého dokumentu);
- Umožňuje přenos tréninku korpusu do jiného počítače nebo do jiné instalace ve stejném počítači;
- Umožňuje ovládání parametrů mkcls, GIZA a MGIZA pomocí parametrů ve vlakovém skriptu;
- Umožňuje ovládat vybrané parametry ve Mojžíšových skriptech a Mojžíšově dekodéru přes vlak a překládat skripty.
Reference
- ^ A b „Mojžíš pro pouhé smrtelníky“. GitHub. Citováno 2014-11-28.
- ^ „Vítejte u Mojžíše!“. Citováno 2012-01-29.
- ^ "mosesdecoder". Citováno 2012-01-29.