Bulharský národní korpus - Bulgarian National Corpus

The Bulharský národní korpus (BulNC) je velký zástupce korpus bulharštiny obsahující přibližně 200 000 textů a více než 1 miliardu slov.^[1]

Dějiny

Bulharský národní korpus je vytvořen v Ústavu pro bulharský jazyk „Prof. L. Andreychin “výzkumnými pracovníky z Katedry počítačové lingvistiky a Katedry bulharské lexikologie a lexikografie. BulNC zahrnuje několik jednotlivých elektronických korpusů vyvinutých v období 2001–2009 pro účely těchto dvou oddělení. Korpus se neustále rozšiřuje o nové texty.^[2]^[3]

Obsah

Bulharský národní korpus se skládá z jednojazyčné (bulharské) části a 47 paralelních korpusů. Bulharská část obsahuje přibližně 1,2 miliardy slov ve více než 240 000 textových ukázkách. Materiály v Korpusu odrážejí stav bulharského jazyka (hlavně v jeho písemné podobě) od poloviny 20. století (1945) do současnosti.^[4]

Zahrnuje také paralelní korpusy různé velikosti pro 47 cizích jazyků.^[5]

BulNC je anotován na různých jazykových úrovních.^[6]

Aplikace

Bulharský národní korpus umožňuje řadu aplikací v různých jazykových oblastech: ve výpočetní lingvistice; v lexikografii; v rámci teoretických studií konkrétních jazykových jevů; pro pozorování charakteristik jednotlivých jazykových domén; za extrakci příkladných vět pro výuku v bulharském jazyce atd.

Níže jsou uvedeny některé konkrétnější aplikace korpusu:

Extrakce konkrétních nebo obecných podkorpusů podle konkrétních kritérií (předmět, autor, rok / období vydání, zdroj atd.), Které lze použít jako cvičné korpusy pro řadu aplikací - mimo jiné gramatické a sémantické značení jako i pro jiné výzkumné účely.
Pozorování četnosti používání slov nebo jazykových konstrukcí, vytváření seznamů frekvencí atd.
Hledá v Korpusu příklady konkrétních jazykových jevů, lexikografické příklady nebo pro vzdělávací účely v bulharské jazykové výuce (dostupné k použití přes internet).

Přístup

Přístup na BulNC je pro veřejné použití zdarma^{[je zapotřebí objasnění ]} a zahrnuje:

Přístup k BulNC vyhledávač
Určité subcorpora jsou k dispozici pro stažení

Viz také

Odkazy

Reference

^ Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN 2299-8470. [1]^{[trvalý mrtvý odkaz ]}
^ Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulharské označené korpusy“. In: Sborník z páté mezinárodní konference Formální přístupy k jihoslovanským a balkánským jazykům, 18. – 20. Října 2006, Sofie, Bulharsko, s. 78-86.
^ Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) „Bulharský národní korpusový projekt“. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678-3684.
^ Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN 2299-8470. [2]^{[trvalý mrtvý odkaz ]}
^ Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12)
^ Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceedings of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.

[1] Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN 2299-8470. [1]^{[trvalý mrtvý odkaz ]}

[2] Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulharské označené korpusy“. In: Sborník z páté mezinárodní konference Formální přístupy k jihoslovanským a balkánským jazykům, 18. – 20. Října 2006, Sofie, Bulharsko, s. 78-86.

[3] Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) „Bulharský národní korpusový projekt“. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678-3684.

[4] Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN 2299-8470. [2]^{[trvalý mrtvý odkaz ]}

[5] Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12)

[6] Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceedings of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.

[1]

[2]

[3]

[4]

[5]

[6]