EuroMatrixPlus - EuroMatrixPlus

The EuroMatrixPlus je projekt, který probíhal od března 2009 do února 2012. EuroMatrixPlus uspěl v projektu s názvem EuroMatrix (Září 2006 až únor 2009) a pokračovala v dalším vývoji a zlepšování strojový překlad (MT) systémy pro jazyky EU Evropská unie (EU).

Cíle projektu

EuroMatrixPlus se zaměřil na dosažení několika cílů:

  • Pokračovat v rozvoji technologie MT (vytvářet systémy MT pro všechny oficiální jazyky EU a poskytovat ostatním výzkumníkům MT stávající data a infrastrukturu).
  • Neustále rozšiřovat a zkoumat různé přístupy a techniky MT; zůstat otevřený novým kombinacím metod MT.
  • Přivést MT k uživatelům. Uživatelé post-editují výstup statistických modelů a systém se učí ze zpětné vazby a vylepšuje se. Byly zaměřeny dvě skupiny uživatelů:
    • Profesionální překladatelé a překladatelské agentury
    • Uživatelé, kteří dobrovolně překládají texty do svého rodného jazyka
  • Přispívat k výzkumu MT v Evropě.
  • Vytvořit ukázkovou aplikaci pro automatický překlad zpráv a webových stránek a učinit tuto aplikaci volně přístupnou.

Výsledek

EuroMatrixPlus přispěl k MT poli několika způsoby. Pokračovala ve vývoji statistického motoru s otevřeným zdrojem Mojžíš. Projekt pracoval na výzkumu v hybridní přístupy k MT (kombinace na základě pravidel a statistický techniky). Projekt zorganizoval několik „MT maratonů“ a každoroční hodnotící kampaně. Výsledkem projektu bylo také vydání 196 vědeckých publikací.

Výsledky práce byly uspořádány do deseti pracovních balíčků:[1]

  • WP1: Statistický překlad založený na bohatých stromech
  • WP2: Hybridní strojový překlad
  • WP3: Pokročilé metody učení pro MT
  • WP4: Open Source Tools and Data
  • WP5: Překladová prostředí "WikiTrans"
  • WP6: Integrovaný lokalizační pracovní postup
  • WP7: Hodnotící kampaň
  • WP8: Řízení a šíření projektu
  • WP9: Integrace zdrojů ve slovenském jazyce
  • WP10: Statistický překlad založený na HPSG

Software a data

Zde je seznam softwaru a dat, které byly vydány projektem:[2]

  • Appraise - open source nástroj pro manuální vyhodnocení výstupu MT
  • BURGER - bulharský zdroj
  • BulTreeBank - bulvár bulharštiny
  • CSLM toolkit - bezplatný nástroj pro školení modelů nepřetržitého vesmírného jazyka (CSLM) pro velké úkoly
  • Caitra - nástroj pro následné úpravy výsledků MT
  • Europarl - Souběžný korpus Evropského parlamentu
  • IRSTLM toolkit - nástroj pro výuku jazykových modelů
  • Joshua - open-source statistický strojový překladový dekodér pro hierarchické a syntaxe založené MT
  • MT Server Land - architektura open-source pro MT
  • Mojžíš - statistická MT
  • MultiUN Corpora - paralelní korpus extrahovaný z webových stránek OSN
  • PCEDT 2.0 - Praha Česko-anglická závislost Treebank
  • PEDT 2.0 - anglická část pražského česko-anglického stromu závislostí
  • Slovenské korpusy - anglicko-slovenský a česko-slovenský i slovensko-anglický a slovensko-český paralelní korpus
  • Slovak treebank - A dependency treebank
  • TermEx - nástroj pro extrakci statistické terminologie vhodný pro RBMT
  • Treex, TectoMT

Financování

Projekt EuroMatrixPlus sponzoroval Program EU pro technologii informační společnosti.

Celkové náklady na projekt činily 5 942 121 EUR, z čehož Evropská unie přispěla částkou 4 266 896 EUR.[3]

Členové projektu

Aby byl zajištěn postup v MT, bylo spojeno několik organizací, které jsou odborníky v různých oborech (lingvistika, informatika, matematika, překlady), aby spolupracovaly na EuroMatrixPlus.

Konsorcium se skládalo z akademických i komerčních partnerů. Akademickými partnery byli University of Edinburgh (Spojené království), DFKI - Německé výzkumné středisko pro umělou inteligenci (Německo), Univerzita Karlova (Česká republika), Univerzita Johna Hopkinse (Spojené státy), University of Le Mans (Francie), Fondazione Bruno Kessler (Itálie), Dublin City University (Irsko). Asi jeden rok se do projektu zapojily dvě instituce. Jednalo se o lingvistický institut L'udovíta Štúra (Slovenská republika) a IICT - Ústav informačních a komunikačních technologií Bulharské akademie věd (Bulharsko).

Mezi obchodní partnery patřila Lucy Software and Services GmbH (Německo) a CEET s.r.o. (Česká republika).

Koordinace projektu byla v rukou společnosti DFKI s její laboratoří jazykových technologií v Saarbrückenu. Hlavním řešitelem a vědeckým koordinátorem byl Hans Uszkoreit, profesor počítačové lingvistiky na Sárská univerzita.

Reference

externí odkazy