Bulharský národní korpus - Bulgarian National Corpus

The Bulharský národní korpus (BulNC) je velký zástupce korpus bulharštiny obsahující přibližně 200 000 textů a více než 1 miliardu slov.[1]

Dějiny

Bulharský národní korpus je vytvořen v Ústavu pro bulharský jazyk „Prof. L. Andreychin “výzkumnými pracovníky z Katedry počítačové lingvistiky a Katedry bulharské lexikologie a lexikografie. BulNC zahrnuje několik jednotlivých elektronických korpusů vyvinutých v období 2001–2009 pro účely těchto dvou oddělení. Korpus se neustále rozšiřuje o nové texty.[2][3]

Obsah

Bulharský národní korpus se skládá z jednojazyčné (bulharské) části a 47 paralelních korpusů. Bulharská část obsahuje přibližně 1,2 miliardy slov ve více než 240 000 textových ukázkách. Materiály v Korpusu odrážejí stav bulharského jazyka (hlavně v jeho písemné podobě) od poloviny 20. století (1945) do současnosti.[4]

Zahrnuje také paralelní korpusy různé velikosti pro 47 cizích jazyků.[5]

BulNC je anotován na různých jazykových úrovních.[6]

Aplikace

Bulharský národní korpus umožňuje řadu aplikací v různých jazykových oblastech: ve výpočetní lingvistice; v lexikografii; v rámci teoretických studií konkrétních jazykových jevů; pro pozorování charakteristik jednotlivých jazykových domén; za extrakci příkladných vět pro výuku v bulharském jazyce atd.

Níže jsou uvedeny některé konkrétnější aplikace korpusu:

  • Extrakce konkrétních nebo obecných podkorpusů podle konkrétních kritérií (předmět, autor, rok / období vydání, zdroj atd.), Které lze použít jako cvičné korpusy pro řadu aplikací - mimo jiné gramatické a sémantické značení jako i pro jiné výzkumné účely.
  • Pozorování četnosti používání slov nebo jazykových konstrukcí, vytváření seznamů frekvencí atd.
  • Hledá v Korpusu příklady konkrétních jazykových jevů, lexikografické příklady nebo pro vzdělávací účely v bulharské jazykové výuce (dostupné k použití přes internet).

Přístup

Přístup na BulNC je pro veřejné použití zdarma[je zapotřebí objasnění ] a zahrnuje:

Viz také

Odkazy

Reference

  1. ^ Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN  2299-8470. [1][trvalý mrtvý odkaz ]
  2. ^ Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulharské označené korpusy“. In: Sborník z páté mezinárodní konference Formální přístupy k jihoslovanským a balkánským jazykům, 18. – 20. Října 2006, Sofie, Bulharsko, s. 78-86.
  3. ^ Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) „Bulharský národní korpusový projekt“. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678-3684.
  4. ^ Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN  2299-8470. [2][trvalý mrtvý odkaz ]
  5. ^ Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12)
  6. ^ Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceedings of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.