Mapa LRE - LRE Map

The Mapa LRE (Jazykové zdroje a hodnocení) je volně přístupná velká databáze zdrojů věnovaných Zpracování přirozeného jazyka. Původním rysem LRE Map je, že záznamy jsou shromažďovány během předkládání různých majorů Zpracování přirozeného jazyka konference. Záznamy jsou poté vyčištěny a shromážděny do globální databáze s názvem „Mapa LRE“.[1]

Mapa LRE má být nástrojem pro sběr informací o jazykových zdrojích a zároveň se má stát komunitou uživatelů, místem pro sdílení a objevování zdrojů, diskusi o názorech, poskytování zpětné vazby, objevování nových trendů atd. je nástrojem pro objevování, prohledávání a dokumentování jazykových zdrojů, zde zamýšlených v širokém smyslu jako data i nástroje.

Velké množství informací obsažených v Mapě lze analyzovat mnoha různými způsoby. Například mapa LRE může poskytnout informace o nejčastějším typu zdroje, nejvíce zastoupeném jazyce, aplikacích, pro které se zdroje používají nebo se vyvíjejí, podílu nových zdrojů oproti již existujícím nebo o způsobu, jakým zdroje jsou distribuovány komunitě.

Kontext

Několik institucí po celém světě vede katalogy jazykových zdrojů (ELRA, LDC, NICT Univerzální katalog, ACL Repozitář dat a kódů, OLAC, LT World atd.)[2] Odhaduje se však, že je známo pouze 10% stávajících zdrojů, a to buď prostřednictvím distribučních katalogů, nebo prostřednictvím přímé reklamy poskytovatelů (webové stránky apod.). Zbytek zůstává skrytý, jedinou příležitostí, kde se krátce objeví, je představení zdroje v kontextu výzkumné práce nebo zprávy na nějaké konferenci. I v tomto případě by se však mohlo stát, že zdroj zůstane v pozadí jednoduše proto, že výzkum není zaměřen na zdroj per se.

Dějiny

Mapa LRE vznikla pod názvem "Mapa LREC" během přípravy LREC Konference 2010.[3] Konkrétněji byla tato myšlenka projednána v rámci projektu FlaReNet a ve spolupráci s ELRA a Ústav výpočetní lingvistiky CNR v Pise byla mapa zavedena na konferenci LREC 2010.[4] Organizátoři LREC požádali autory, aby poskytli některé základní informace o všech zdrojích (v širším smyslu, tj. Včetně nástrojů, standardů a hodnotících balíčků), ať už použitých nebo vytvořených, popsaných v jejich příspěvcích. Všechny tyto deskriptory byly poté shromážděny v globální matici zvané LREC mapa.

Stejná metodika a požadavky autorů byly poté použity a rozšířeny na další konference, konkrétně COLING-2010,[5] EMNLP-2010,[6] RANLP-2011,[7] LREC 2012,[8] LREC 2014[9] a LREC 2016.[10]
Po tomto zobecnění na jiné konference byla mapa LREC přejmenována na Mapa LRE.

Velikost a obsah

Velikost databáze se časem zvyšuje. Shromážděná data činí 4776 záznamů.

Každý zdroj je popsán podle následujících atributů:

Použití

Mapa LRE je velmi důležitým nástrojem pro mapování pole NLP. Ve srovnání s jinými studovanými na základě subjektivního hodnocení je mapa LRE tvořena skutečnými fakty.

Mapa má velký potenciál pro mnoho použití, kromě toho, že je nástrojem pro shromažďování informací:

  • Je to skvělý nástroj pro sledování vývoje oboru (užitečný pro finančníky), pokud se používá v různých kontextech a dobách.
  • Lze to považovat za obrovské společné úsilí, začátek ještě větší kooperativní akce nejen mezi několika vůdci, ale i mezi všemi výzkumníky.
  • Je to také „vzdělávací“ prostředek k širokému uznání potřeby meta-výzkumných aktivit s aktivním zapojením mnoha lidí.
  • Pomáhá také při zavádění nového pojmu „citace zdrojů“, který by mohl poskytnout ocenění a prostředek vědeckého uznání pro výzkumné pracovníky zabývající se tvorbou zdrojů.
  • Používá se jako pomoc při organizaci konferencí v oboru LREC.

Odvozené matice

Data byla poté vyčištěna a tříděna podle Joseph Mariani (CNRS-LIMSI IMMI) a Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) za účelem výpočtu různých matic konečného FLaReNet[11] zprávy. Jednou z nich je matice pro zapsaná data na konferenci LREC 2010:

KorpusLexikonOntologieGramatika / jazyk
Modelka
Terminologie
bulharský76111
čeština127211
dánština62020
holandský178212
Angličtina20677181110
estonština31001
Finština32010
francouzština4424345
Němec4315423
řecký103200
maďarský84011
irština10000
italština3216420
lotyšský90001
Litevský40201
maltština10010
polština72121
portugalština196110
rumunština127110
Slovák20010
slovinština51000
španělština2919452
švédský194010
Jiná Evropa1911332
Regionální Evropa188013
Vícejazyčné53101
Nezávislý na jazyce931621
Nepoužitelný20210
Celkový552229674536

Angličtina je nejvíce studovaným jazykem. Zadruhé přijďte francouzsky a německy a poté italsky a španělsky.

Budoucnost

Mapa LRE byla rozšířena o jazykové zdroje a hodnotící deník[12] a další konference.

Reference

  1. ^ Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 Mapa jazykových zdrojů a technologií LREC. LREC-2010, Malta
  2. ^ Technická zpráva FlaReNet, mapa jazykových zdrojů a hodnocení (LRE), Nicoletta Calzolari (CNR-ILC Pisa, Itálie), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Projekt eContentPlus [1]
  3. ^ Nicoletta Calzolari, představení předsedy konference LREC 2010
  4. ^ 7. vydání konference o jazykových zdrojích a hodnocení, Valletta, Malta
  5. ^ 23. mezinárodní konference o počítačové lingvistice, Peking, Čína [2]
  6. ^ Empirické metody ve zpracování přirozeného jazyka 9. – 11. Října, MIT Stata Center, Cambridge, Massachusetts, USA [3]
  7. ^ Poslední pokroky ve zpracování přirozeného jazyka 12. – 14. Září, Hissar, Bulharsko [4]
  8. ^ 8. ročník konference o jazykových zdrojích a hodnocení, Istanbul, Turecko
  9. ^ 9. ročník konference o jazykových zdrojích a hodnocení, Reykjavík, Island
  10. ^ 10. ročník konference o jazykových zdrojích a hodnocení, Portorož, Slovinsko
  11. ^ FLaReNet (Fostering Language Resources Network) je projekt financovaný EU, jehož cílem je vyvinout společnou vizi v oblasti jazykových zdrojů a jazykových technologií pro příští roky a podpořit evropskou strategii pro konsolidaci odvětví a zvýšení konkurenceschopnosti na úrovni EU i na celém světě .
  12. ^ Jazykové zdroje a evaluační deník Ed. Springer

externí odkazy