Bulharský národní korpus - Bulgarian National Corpus
![]() | tento článek se mohou příliš spoléhat na zdroje příliš úzce souvisí s tématem, což potenciálně brání tomu, aby článek byl ověřitelný a neutrální.Květen 2015) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The Bulharský národní korpus (BulNC) je velký zástupce korpus bulharštiny obsahující přibližně 200 000 textů a více než 1 miliardu slov.[1]
Dějiny
Bulharský národní korpus je vytvořen v Ústavu pro bulharský jazyk „Prof. L. Andreychin “výzkumnými pracovníky z Katedry počítačové lingvistiky a Katedry bulharské lexikologie a lexikografie. BulNC zahrnuje několik jednotlivých elektronických korpusů vyvinutých v období 2001–2009 pro účely těchto dvou oddělení. Korpus se neustále rozšiřuje o nové texty.[2][3]
Obsah
Bulharský národní korpus se skládá z jednojazyčné (bulharské) části a 47 paralelních korpusů. Bulharská část obsahuje přibližně 1,2 miliardy slov ve více než 240 000 textových ukázkách. Materiály v Korpusu odrážejí stav bulharského jazyka (hlavně v jeho písemné podobě) od poloviny 20. století (1945) do současnosti.[4]
Zahrnuje také paralelní korpusy různé velikosti pro 47 cizích jazyků.[5]
BulNC je anotován na různých jazykových úrovních.[6]
Aplikace
Bulharský národní korpus umožňuje řadu aplikací v různých jazykových oblastech: ve výpočetní lingvistice; v lexikografii; v rámci teoretických studií konkrétních jazykových jevů; pro pozorování charakteristik jednotlivých jazykových domén; za extrakci příkladných vět pro výuku v bulharském jazyce atd.
Níže jsou uvedeny některé konkrétnější aplikace korpusu:
- Extrakce konkrétních nebo obecných podkorpusů podle konkrétních kritérií (předmět, autor, rok / období vydání, zdroj atd.), Které lze použít jako cvičné korpusy pro řadu aplikací - mimo jiné gramatické a sémantické značení jako i pro jiné výzkumné účely.
- Pozorování četnosti používání slov nebo jazykových konstrukcí, vytváření seznamů frekvencí atd.
- Hledá v Korpusu příklady konkrétních jazykových jevů, lexikografické příklady nebo pro vzdělávací účely v bulharské jazykové výuce (dostupné k použití přes internet).
Přístup
Přístup na BulNC je pro veřejné použití zdarma[je zapotřebí objasnění ] a zahrnuje:
- Přístup k BulNC vyhledávač
- Určité subcorpora jsou k dispozici pro stažení
Viz také
Odkazy
Reference
- ^ Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN 2299-8470. [1][trvalý mrtvý odkaz ]
- ^ Svetla Koeva, Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova (2006) „Bulharské označené korpusy“. In: Sborník z páté mezinárodní konference Formální přístupy k jihoslovanským a balkánským jazykům, 18. – 20. Října 2006, Sofie, Bulharsko, s. 78-86.
- ^ Koeva Sv., Blagoeva, D., Kolkovska, S. (2010) „Bulharský národní korpusový projekt“. In: Proceedings of LREC-2010, Valletta, ELRA, pp. 3678-3684.
- ^ Koeva, Svetla, Ivelina Stoyanova, Svetlozara Leseva, Tsvetana Dimitrova, Rositsa Dekova a Ekaterina Tarpomanova (2012) „The Bulgarian National Corpus: Theory and Practice in Corpus Design“ - Journal of Language Modeling, 2012, Vol. 0, č. 1, str. 65-110. ISSN 2299-8470. [2][trvalý mrtvý odkaz ]
- ^ Koeva, S., Dekova, R., Stoyanova, I., Rizov, B., Genov, A. (2012) „Bulgarian X-language Parallel Corpus“. In: Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12)
- ^ Koeva, Sv., Genov, A. (2011) „Bulgarian Language Processing Chain“. In: Proceedings of the Workshop Integration of multilingual resources and tools in Web applications, Hamburg.