Mapa LRE - LRE Map

The Mapa LRE (Jazykové zdroje a hodnocení) je volně přístupná velká databáze zdrojů věnovaných Zpracování přirozeného jazyka. Původním rysem LRE Map je, že záznamy jsou shromažďovány během předkládání různých majorů Zpracování přirozeného jazyka konference. Záznamy jsou poté vyčištěny a shromážděny do globální databáze s názvem „Mapa LRE“.^[1]

Mapa LRE má být nástrojem pro sběr informací o jazykových zdrojích a zároveň se má stát komunitou uživatelů, místem pro sdílení a objevování zdrojů, diskusi o názorech, poskytování zpětné vazby, objevování nových trendů atd. je nástrojem pro objevování, prohledávání a dokumentování jazykových zdrojů, zde zamýšlených v širokém smyslu jako data i nástroje.

Velké množství informací obsažených v Mapě lze analyzovat mnoha různými způsoby. Například mapa LRE může poskytnout informace o nejčastějším typu zdroje, nejvíce zastoupeném jazyce, aplikacích, pro které se zdroje používají nebo se vyvíjejí, podílu nových zdrojů oproti již existujícím nebo o způsobu, jakým zdroje jsou distribuovány komunitě.

Kontext

Několik institucí po celém světě vede katalogy jazykových zdrojů (ELRA, LDC, NICT Univerzální katalog, ACL Repozitář dat a kódů, OLAC, LT World atd.)^[2] Odhaduje se však, že je známo pouze 10% stávajících zdrojů, a to buď prostřednictvím distribučních katalogů, nebo prostřednictvím přímé reklamy poskytovatelů (webové stránky apod.). Zbytek zůstává skrytý, jedinou příležitostí, kde se krátce objeví, je představení zdroje v kontextu výzkumné práce nebo zprávy na nějaké konferenci. I v tomto případě by se však mohlo stát, že zdroj zůstane v pozadí jednoduše proto, že výzkum není zaměřen na zdroj per se.

Dějiny

Mapa LRE vznikla pod názvem "Mapa LREC" během přípravy LREC Konference 2010.^[3] Konkrétněji byla tato myšlenka projednána v rámci projektu FlaReNet a ve spolupráci s ELRA a Ústav výpočetní lingvistiky CNR v Pise byla mapa zavedena na konferenci LREC 2010.^[4] Organizátoři LREC požádali autory, aby poskytli některé základní informace o všech zdrojích (v širším smyslu, tj. Včetně nástrojů, standardů a hodnotících balíčků), ať už použitých nebo vytvořených, popsaných v jejich příspěvcích. Všechny tyto deskriptory byly poté shromážděny v globální matici zvané LREC mapa.

Stejná metodika a požadavky autorů byly poté použity a rozšířeny na další konference, konkrétně COLING-2010,^[5] EMNLP-2010,^[6] RANLP-2011,^[7] LREC 2012,^[8] LREC 2014^[9] a LREC 2016.^[10]
Po tomto zobecnění na jiné konference byla mapa LREC přejmenována na Mapa LRE.

Velikost a obsah

Velikost databáze se časem zvyšuje. Shromážděná data činí 4776 záznamů.

Každý zdroj je popsán podle následujících atributů:

Typ zdroje, např. Lexikon, anotační nástroj, tagger / parser.
Stav výroby zdrojů, např. nově vytvořené dokončené, existující aktualizované.
Dostupnost zdrojů, např. volně dostupné z datového centra.
Modalita zdrojů, např. mluvený projev, psaný, znaková řeč.
Využití zdrojů, např. uznání pojmenované entity, jazyková identifikace, strojový překlad.
Zdrojový jazyk, např. Angličtina, 23 jazyků Evropské unie, oficiální jazyky Indie.

Použití

Mapa LRE je velmi důležitým nástrojem pro mapování pole NLP. Ve srovnání s jinými studovanými na základě subjektivního hodnocení je mapa LRE tvořena skutečnými fakty.

Mapa má velký potenciál pro mnoho použití, kromě toho, že je nástrojem pro shromažďování informací:

Je to skvělý nástroj pro sledování vývoje oboru (užitečný pro finančníky), pokud se používá v různých kontextech a dobách.
Lze to považovat za obrovské společné úsilí, začátek ještě větší kooperativní akce nejen mezi několika vůdci, ale i mezi všemi výzkumníky.
Je to také „vzdělávací“ prostředek k širokému uznání potřeby meta-výzkumných aktivit s aktivním zapojením mnoha lidí.
Pomáhá také při zavádění nového pojmu „citace zdrojů“, který by mohl poskytnout ocenění a prostředek vědeckého uznání pro výzkumné pracovníky zabývající se tvorbou zdrojů.
Používá se jako pomoc při organizaci konferencí v oboru LREC.

Odvozené matice

Data byla poté vyčištěna a tříděna podle Joseph Mariani (CNRS-LIMSI IMMI) a Gil Francopoulo (CNRS-LIMSI IMMI + Tagmatica) za účelem výpočtu různých matic konečného FLaReNet^[11] zprávy. Jednou z nich je matice pro zapsaná data na konferenci LREC 2010:

	Korpus	Lexikon	Ontologie	Gramatika / jazyk Modelka	Terminologie
bulharský	7	6	1	1	1
čeština	12	7	2	1	1
dánština	6	2	0	2	0
holandský	17	8	2	1	2
Angličtina	206	77	18	11	10
estonština	3	1	0	0	1
Finština	3	2	0	1	0
francouzština	44	24	3	4	5
Němec	43	15	4	2	3
řecký	10	3	2	0	0
maďarský	8	4	0	1	1
irština	1	0	0	0	0
italština	32	16	4	2	0
lotyšský	9	0	0	0	1
Litevský	4	0	2	0	1
maltština	1	0	0	1	0
polština	7	2	1	2	1
portugalština	19	6	1	1	0
rumunština	12	7	1	1	0
Slovák	2	0	0	1	0
slovinština	5	1	0	0	0
španělština	29	19	4	5	2
švédský	19	4	0	1	0
Jiná Evropa	19	11	3	3	2
Regionální Evropa	18	8	0	1	3
Vícejazyčné	5	3	1	0	1
Nezávislý na jazyce	9	3	16	2	1
Nepoužitelný	2	0	2	1	0
Celkový	552	229	67	45	36

Angličtina je nejvíce studovaným jazykem. Zadruhé přijďte francouzsky a německy a poté italsky a španělsky.

Budoucnost

Mapa LRE byla rozšířena o jazykové zdroje a hodnotící deník^[12] a další konference.

Reference

^ Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 Mapa jazykových zdrojů a technologií LREC. LREC-2010, Malta
^ Technická zpráva FlaReNet, mapa jazykových zdrojů a hodnocení (LRE), Nicoletta Calzolari (CNR-ILC Pisa, Itálie), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Projekt eContentPlus [1]
^ Nicoletta Calzolari, představení předsedy konference LREC 2010
^ 7. vydání konference o jazykových zdrojích a hodnocení, Valletta, Malta
^ 23. mezinárodní konference o počítačové lingvistice, Peking, Čína [2]
^ Empirické metody ve zpracování přirozeného jazyka 9. – 11. Října, MIT Stata Center, Cambridge, Massachusetts, USA [3]
^ Poslední pokroky ve zpracování přirozeného jazyka 12. – 14. Září, Hissar, Bulharsko [4]
^ 8. ročník konference o jazykových zdrojích a hodnocení, Istanbul, Turecko
^ 9. ročník konference o jazykových zdrojích a hodnocení, Reykjavík, Island
^ 10. ročník konference o jazykových zdrojích a hodnocení, Portorož, Slovinsko
^ FLaReNet (Fostering Language Resources Network) je projekt financovaný EU, jehož cílem je vyvinout společnou vizi v oblasti jazykových zdrojů a jazykových technologií pro příští roky a podpořit evropskou strategii pro konsolidaci odvětví a zvýšení konkurenceschopnosti na úrovni EU i na celém světě .
^ Jazykové zdroje a evaluační deník Ed. Springer

externí odkazy

Stránka výzkumu LREC Map

[1] Nicoletta Calzolari, Claudia Soria, Riccardo Del Gratta, Sara Goggi, Valeria Quochi, Irene Russo, Khalid Choukri, Joseph Mariani, Stelios Piperidis, 2010 Mapa jazykových zdrojů a technologií LREC. LREC-2010, Malta

[2] Technická zpráva FlaReNet, mapa jazykových zdrojů a hodnocení (LRE), Nicoletta Calzolari (CNR-ILC Pisa, Itálie), Claudia Soria, Irene Russo, Francesco Rubino, Riccardo Del Gratta. Projekt eContentPlus [1]

[3] Nicoletta Calzolari, představení předsedy konference LREC 2010

[4] 7. vydání konference o jazykových zdrojích a hodnocení, Valletta, Malta

[5] 23. mezinárodní konference o počítačové lingvistice, Peking, Čína [2]

[6] Empirické metody ve zpracování přirozeného jazyka 9. – 11. Října, MIT Stata Center, Cambridge, Massachusetts, USA [3]

[7] Poslední pokroky ve zpracování přirozeného jazyka 12. – 14. Září, Hissar, Bulharsko [4]

[8] 8. ročník konference o jazykových zdrojích a hodnocení, Istanbul, Turecko

[9] 9. ročník konference o jazykových zdrojích a hodnocení, Reykjavík, Island

[10] 10. ročník konference o jazykových zdrojích a hodnocení, Portorož, Slovinsko

[11] FLaReNet (Fostering Language Resources Network) je projekt financovaný EU, jehož cílem je vyvinout společnou vizi v oblasti jazykových zdrojů a jazykových technologií pro příští roky a podpořit evropskou strategii pro konsolidaci odvětví a zvýšení konkurenceschopnosti na úrovni EU i na celém světě .

[12] Jazykové zdroje a evaluační deník Ed. Springer

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]