Mapa LRE - LRE Map
The Mapa LRE (Jazykové zdroje a hodnocení) je volně přístupná velká databáze zdrojů věnovaných Zpracování přirozeného jazyka. Původním rysem LRE Map je, že záznamy jsou shromažďovány během předkládání různých majorů Zpracování přirozeného jazyka konference. Záznamy jsou poté vyčištěny a shromážděny do globální databáze s názvem „Mapa LRE“.[1]
Mapa LRE má být nástrojem pro sběr informací o jazykových zdrojích a zároveň se má stát komunitou uživatelů, místem pro sdílení a objevování zdrojů, diskusi o názorech, poskytování zpětné vazby, objevování nových trendů atd. je nástrojem pro objevování, prohledávání a dokumentování jazykových zdrojů, zde zamýšlených v širokém smyslu jako data i nástroje.
Velké množství informací obsažených v Mapě lze analyzovat mnoha různými způsoby. Například mapa LRE může poskytnout informace o nejčastějším typu zdroje, nejvíce zastoupeném jazyce, aplikacích, pro které se zdroje používají nebo se vyvíjejí, podílu nových zdrojů oproti již existujícím nebo o způsobu, jakým zdroje jsou distribuovány komunitě.
Kontext
Několik institucí po celém světě vede katalogy jazykových zdrojů (ELRA, LDC, NICT Univerzální katalog, ACL Repozitář dat a kódů, OLAC, LT World atd.)[2] Odhaduje se však, že je známo pouze 10% stávajících zdrojů, a to buď prostřednictvím distribučních katalogů, nebo prostřednictvím přímé reklamy poskytovatelů (webové stránky apod.). Zbytek zůstává skrytý, jedinou příležitostí, kde se krátce objeví, je představení zdroje v kontextu výzkumné práce nebo zprávy na nějaké konferenci. I v tomto případě by se však mohlo stát, že zdroj zůstane v pozadí jednoduše proto, že výzkum není zaměřen na zdroj per se.
Dějiny
Mapa LRE vznikla pod názvem "Mapa LREC" během přípravy LREC Konference 2010.[3] Konkrétněji byla tato myšlenka projednána v rámci projektu FlaReNet a ve spolupráci s ELRA a Ústav výpočetní lingvistiky CNR v Pise byla mapa zavedena na konferenci LREC 2010.[4] Organizátoři LREC požádali autory, aby poskytli některé základní informace o všech zdrojích (v širším smyslu, tj. Včetně nástrojů, standardů a hodnotících balíčků), ať už použitých nebo vytvořených, popsaných v jejich příspěvcích. Všechny tyto deskriptory byly poté shromážděny v globální matici zvané LREC mapa.
Stejná metodika a požadavky autorů byly poté použity a rozšířeny na další konference, konkrétně COLING-2010,[5] EMNLP-2010,[6] RANLP-2011,[7] LREC 2012,[8] LREC 2014[9] a LREC 2016.[10]
Po tomto zobecnění na jiné konference byla mapa LREC přejmenována na Mapa LRE.
Velikost a obsah
Velikost databáze se časem zvyšuje. Shromážděná data činí 4776 záznamů.
Každý zdroj je popsán podle následujících atributů:
- Typ zdroje, např. Lexikon, anotační nástroj, tagger / parser.
- Stav výroby zdrojů, např. nově vytvořené dokončené, existující aktualizované.
- Dostupnost zdrojů, např. volně dostupné z datového centra.
- Modalita zdrojů, např. mluvený projev, psaný, znaková řeč.
- Využití zdrojů, např. uznání pojmenované entity, jazyková identifikace, strojový překlad.
- Zdrojový jazyk, např. Angličtina, 23 jazyků Evropské unie, oficiální jazyky Indie.
Použití
Mapa LRE je velmi důležitým nástrojem pro mapování pole NLP. Ve srovnání s jinými studovanými na základě subjektivního hodnocení je mapa LRE tvořena skutečnými fakty.
Mapa má velký potenciál pro mnoho použití, kromě toho, že je nástrojem pro shromažďování informací:
- Je to skvělý nástroj pro sledování vývoje oboru (užitečný pro finančníky), pokud se používá v různých kontextech a dobách.
- Lze to považovat za obrovské společné úsilí, začátek ještě větší kooperativní akce nejen mezi několika vůdci, ale i mezi všemi výzkumníky.
- Je to také „vzdělávací“ prostředek k širokému uznání potřeby meta-výzkumných aktivit s aktivním zapojením mnoha lidí.
- Pomáhá také při zavádění nového pojmu „citace zdrojů“, který by mohl poskytnout ocenění a prostředek vědeckého uznání pro výzkumné pracovníky zabývající se tvorbou zdrojů.
- Používá se jako pomoc při organizaci konferencí v oboru LREC.
Odvozené matice
Data byla poté vyčištěna a tříděna podle Joseph Mariani (CNRS-LIMSI IMMI) a Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) za účelem výpočtu různých matic konečného FLaReNet[11] zprávy. Jednou z nich je matice pro zapsaná data na konferenci LREC 2010:
Korpus | Lexikon | Ontologie | Gramatika / jazyk Modelka | Terminologie | |
---|---|---|---|---|---|
bulharský | 7 | 6 | 1 | 1 | 1 |
čeština | 12 | 7 | 2 | 1 | 1 |
dánština | 6 | 2 | 0 | 2 | 0 |
holandský | 17 | 8 | 2 | 1 | 2 |
Angličtina | 206 | 77 | 18 | 11 | 10 |
estonština | 3 | 1 | 0 | 0 | 1 |
Finština | 3 | 2 | 0 | 1 | 0 |
francouzština | 44 | 24 | 3 | 4 | 5 |
Němec | 43 | 15 | 4 | 2 | 3 |
řecký | 10 | 3 | 2 | 0 | 0 |
maďarský | 8 | 4 | 0 | 1 | 1 |
irština | 1 | 0 | 0 | 0 | 0 |
italština | 32 | 16 | 4 | 2 | 0 |
lotyšský | 9 | 0 | 0 | 0 | 1 |
Litevský | 4 | 0 | 2 | 0 | 1 |
maltština | 1 | 0 | 0 | 1 | 0 |
polština | 7 | 2 | 1 | 2 | 1 |
portugalština | 19 | 6 | 1 | 1 | 0 |
rumunština | 12 | 7 | 1 | 1 | 0 |
Slovák | 2 | 0 | 0 | 1 | 0 |
slovinština | 5 | 1 | 0 | 0 | 0 |
španělština | 29 | 19 | 4 | 5 | 2 |
švédský | 19 | 4 | 0 | 1 | 0 |
Jiná Evropa | 19 | 11 | 3 | 3 | 2 |
Regionální Evropa | 18 | 8 | 0 | 1 | 3 |
Vícejazyčné | 5 | 3 | 1 | 0 | 1 |
Nezávislý na jazyce | 9 | 3 | 16 | 2 | 1 |
Nepoužitelný | 2 | 0 | 2 | 1 | 0 |
Celkový | 552 | 229 | 67 | 45 | 36 |
Angličtina je nejvíce studovaným jazykem. Zadruhé přijďte francouzsky a německy a poté italsky a španělsky.
Budoucnost
Mapa LRE byla rozšířena o jazykové zdroje a hodnotící deník[12] a další konference.
Reference
- ^ Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 Mapa jazykových zdrojů a technologií LREC. LREC-2010, Malta
- ^ Technická zpráva FlaReNet, mapa jazykových zdrojů a hodnocení (LRE), Nicoletta Calzolari (CNR-ILC Pisa, Itálie), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Projekt eContentPlus [1]
- ^ Nicoletta Calzolari, představení předsedy konference LREC 2010
- ^ 7. vydání konference o jazykových zdrojích a hodnocení, Valletta, Malta
- ^ 23. mezinárodní konference o počítačové lingvistice, Peking, Čína [2]
- ^ Empirické metody ve zpracování přirozeného jazyka 9. – 11. Října, MIT Stata Center, Cambridge, Massachusetts, USA [3]
- ^ Poslední pokroky ve zpracování přirozeného jazyka 12. – 14. Září, Hissar, Bulharsko [4]
- ^ 8. ročník konference o jazykových zdrojích a hodnocení, Istanbul, Turecko
- ^ 9. ročník konference o jazykových zdrojích a hodnocení, Reykjavík, Island
- ^ 10. ročník konference o jazykových zdrojích a hodnocení, Portorož, Slovinsko
- ^ FLaReNet (Fostering Language Resources Network) je projekt financovaný EU, jehož cílem je vyvinout společnou vizi v oblasti jazykových zdrojů a jazykových technologií pro příští roky a podpořit evropskou strategii pro konsolidaci odvětví a zvýšení konkurenceschopnosti na úrovni EU i na celém světě .
- ^ Jazykové zdroje a evaluační deník Ed. Springer