Strojový překlad podle pravidel - Rule-based machine translation
Strojový překlad podle pravidel (RBMT; "Klasický přístup" MT) je strojový překlad systémy založené na jazykové informace o zdrojovém a cílovém jazyce v podstatě získaném z (jednojazyčného, dvojjazyčného nebo vícejazyčného) slovníky a gramatiky pokrývající hlavní sémantické, morfologické a syntaktické zákonitosti každého jazyka. Díky vstupním větám (v některých zdrojových jazycích) je systém RBMT generuje pro výstup vět (v některých cílových jazycích) na základě morfologických, syntaktických a sémantická analýza zdrojového i cílového jazyka zapojeného do konkrétního úkolu překladu.
Dějiny
První systémy RBMT byly vyvinuty na začátku 70. let. Nejdůležitějšími kroky této evoluce byl vznik následujících systémů RBMT:
- Systran (http://www.systran.de/ )
- Japonské systémy MT (http://aamt.info/english/mtsys.htm, http://www.wtec.org/loyola/ar93_94/mt.htm )
- EUROTRA (Eurotra )
Mezi další běžné systémy RBMT dnes patří:
Druhy RBMT
Existují tři různé typy systémů strojového překladu založených na pravidlech:
- Přímé systémy (Strojový překlad založený na slovníku ) mapujte vstup na výstup se základními pravidly.
- Přenos systémů RBMT (Strojový překlad založený na přenosu ) používají morfologickou a syntaktickou analýzu.
- Mezijazykové systémy RBMT (Interlingua ) použít abstraktní význam.[1][2]
Systémy RBMT lze také charakterizovat jako systémy naproti systémům strojového překladu založeným na příkladech (Příkladový strojový překlad ), zatímco systémy hybridních strojových překladů využívají mnoho principů odvozených z RBMT.
Základní principy
Hlavní přístup systémů RBMT je založen na propojení struktury dané vstupní věty se strukturou požadované výstupní věty, přičemž je nutně nutné zachovat jejich jedinečný význam. Následující příklad může ilustrovat obecný rámec RBMT:
- Dívka jí jablko. Zdrojový jazyk = angličtina; Požadovaný cílový jazyk = němčina
K získání německého překladu této anglické věty je třeba:
- Slovník, který mapuje každé anglické slovo na příslušné německé slovo.
- Pravidla představující běžnou anglickou strukturu vět.
- Pravidla představující regulární německou strukturu vět.
A nakonec potřebujeme pravidla, podle nichž lze tyto dvě struktury spojit dohromady.
Můžeme tedy uvést následující fáze překladu:
- 1. místo: získání základních informací o řeči každého zdrojového slova:
- a = neurčitý článek; dívka = podstatné jméno; jí = sloveso; an = neurčitý článek; apple = podstatné jméno
- 2. místo: získávání syntaktických informací o slovesu "k jídlu":
- NP-jíst-NP; zde: jíst - současné jednoduché, 3. osoba singulární, aktivní hlas
- 3. místo: analýza zdrojové věty:
- (NP jablko) = předmět jídla
K získání syntaktické struktury zdrojové věty a k její mapování na strukturu cílové věty často stačí pouze částečná analýza.
- 4. místo: přeložit anglická slova do němčiny
- a (category = indef.article) => ein (category = indef.article)
- girl (category = podstatné jméno) => Mädchen (category = podstatné jméno)
- jíst (kategorie = sloveso) => essen (kategorie = sloveso)
- an (category = neurčitý článek) => ein (category = neurčitý článek)
- apple (category = podstatné jméno) => Apfel (category = podstatné jméno)
- 5 .: Mapování slovníkových záznamů do příslušných skloňovaných forem (finální generace):
- Dívka jí jablko. => Ein Mädchen isst einen Apfel.
Součásti
Systém RBMT obsahuje:
- A SL morfologický analyzátor - analyzuje slovo ve zdrojovém jazyce a poskytuje morfologické informace;
- A Analyzátor SL - je analyzátor syntaxe, který analyzuje věty zdrojového jazyka;
- A překladatel - slouží k překladu slova ze zdrojového jazyka do cílového jazyka;
- A TL morfologický generátor - pracuje jako generátor příslušných slov cílového jazyka pro danou informaci gramatiky;
- A Analyzátor TL - pracuje jako skladatel vhodných vět v cílovém jazyce;
- Několik slovníků - konkrétněji minimálně tři slovníky:
- A SL slovník - potřebuje morfologický analyzátor zdrojového jazyka pro morfologickou analýzu,
- A dvojjazyčný slovník - použitý překladatelem k překladu slov ze zdrojového jazyka do slov v cílovém jazyce,
- A Slovník TL - potřebný morfologickým generátorem cílového jazyka ke generování slov cílového jazyka.[3]
Systém RBMT využívá následující:
- A Zdrojová gramatika pro vstupní jazyk, který staví syntaktické konstrukce ze vstupních vět;
- A Zdroj Lexicon který zachycuje veškerý povolený slovník v doméně;
- Pravidla pro mapování zdrojů které naznačují, jak jsou syntaktické hlavy a gramatické funkce ve zdrojovém jazyce mapovány na koncepty domén a sémantické role v interlingua;
- A Doménový model/Ontologie který definuje třídy konceptů domén a omezuje výplně sémantických rolí pro každou třídu;
- Pravidla pro mapování cílů které naznačují, jak jsou koncepty domén a sémantické role v interlingua mapovány na syntaktické hlavy a gramatické funkce v cílovém jazyce;
- A Cílový lexikon který obsahuje vhodné cílové lexémy pro každý koncept domény;
- A Target Grammar pro cílový jazyk, který realizuje cílové syntaktické konstrukce jako linearizované výstupní věty.[4]
Výhody
- Ne dvojjazyčné texty jsou potřeba. Díky tomu je možné vytvořit překladové systémy pro jazyky, které nemají společné texty nebo dokonce žádná digitalizovaná data.
- Nezávislé na doméně. Pravidla jsou obvykle psána způsobem nezávislým na doméně, takže drtivá většina pravidel bude „fungovat“ pouze v každé doméně a pouze několik konkrétních případů na doménu může vyžadovat pravidla pro ně napsaná.
- Žádný kvalitní strop. Každou chybu lze opravit pomocí cíleného pravidla, i když je spouštěcí případ extrémně vzácný. To je v rozporu se statistickými systémy, kde budou nepravidelné formuláře ve výchozím nastavení odplaveny.
- Úplná kontrola. Protože jsou všechna pravidla psána ručně, můžete snadno vyladit systém založený na pravidlech a zjistit, kde přesně daná chyba do systému vstoupí, a proč.
- Opakovaná použitelnost. Protože systémy RBMT jsou obecně vytvářeny ze silné analýzy zdrojového jazyka, která se přivádí do kroku přenosu a generátoru cílového jazyka, analýza zdrojového jazyka a cíl generace jazyků části lze sdílet mezi více překladovými systémy, což vyžaduje specializaci pouze kroku přenosu. Analýzu zdrojového jazyka pro jeden jazyk lze navíc znovu použít k zavedení úzce související jazykové analýzy.
Nedostatky
- Nedostatečné množství opravdu dobrých slovníků. Vytváření nových slovníků je drahé.
- Některé jazykové informace je třeba nastavit ručně.
- Je těžké se vypořádat s interakcemi pravidel ve velkých systémech, nejednoznačností a idiomatickými výrazy.
- Neschopnost přizpůsobit se novým doménám. Ačkoli systémy RBMT obvykle poskytují mechanismus pro vytváření nových pravidel a rozšiřování a přizpůsobování lexikonu, změny jsou obvykle velmi nákladné a výsledky se často nevyplácejí.[5]
Reference
- ^ Koehn, Philipp (2010). Statistický strojový překlad. Cambridge: Cambridge University Press. p. 15. ISBN 9780521874151.
- ^ Nirenburg, Sergei (1989). "Znalostní strojový překlad". Machine Trandation 4 (1989), 5-24. Kluwer Academic Publishers. 4 (1): 5–24. JSTOR 40008396.
- ^ Hettige, B .; Karunananda, A.S. (2011). „Výpočetní model gramatiky pro strojový překlad z angličtiny do sinhálštiny“. 2011 Mezinárodní konference o pokroku v IKT pro rozvíjející se regiony (ICTer). Mezinárodní konference o pokroku v IKT pro rozvíjející se regiony - ICTer20 11: 026-031. 26–31. doi:10.1109 / ICTer.2011.6075022. ISBN 978-1-4577-1114-5. S2CID 45871137.
- ^ Lonsdale, Deryle; Mitamura, Teruko; Nyberg, Eric (1995). „Akvizice velkých lexikonů pro praktické MT založené na znalostech“. Strojový překlad 9: 251-283. Kluwer Academic Publishers. 9 (3–4): 251–283. doi:10.1007 / BF00980580. S2CID 1106335.
- ^ Lagarda, A.-L .; Alabau, V .; Casacuberta, F .; Silva, R .; Díaz-de-Liaño, E. (2009). „Statistická dodatečná úprava systému strojového překladu založeného na pravidlech“ (PDF). Sborník NAACL HLT 2009: Short Papers, strany 217–220, Boulder, Colorado. Sdružení pro výpočetní lingvistiku. Citováno 20. června 2012.
Literatura
- Arnold, D.J. et al. (1993): Machine Translation: an Introductory Guide
- Hutchins, W. J. (1986): Machine Translation: Past, Present, Future
Odkazy
- První mezinárodní workshop o strojovém překladu založeném na pravidlech zdarma / open-source
- https://web.archive.org/web/20120306014535/http://www.inf.ed.ac.uk/teaching/courses/mt/lectures/history.pdf
- https://web.archive.org/web/20150914205051/http://www.csse.unimelb.edu.au/research/lt/nlp06/materials/Bond/mt-intro.pdf