BulPosCor - BulPosCor

The Bulharská část korpusu s anotací řeči (BulPosCor) (v bulharský: Български Пос анотиран корпус (БулПосКор)) je morfologicky anotovaný obecný jednojazyčný jazyk korpus psaného jazyka, kde je každé položce v textu přiřazena gramatická značka. BulPosCor je vytvořen Katedra počítačové lingvistiky na Institut pro bulharský jazyk z Bulharská akademie věd a skládá se ze 174 697 lexikálních položek. BulPosCor byl sestaven ze strukturovaného "hnědého" korpusu bulharštiny vzorkováním 300+ výňatků slov (rozšířených na hranici věty) z původních souborů BCB takovým způsobem, aby byla zachována celková struktura BCB . Proces anotace sestává z primární fáze automatického přiřazování značek z Bulharského gramatického slovníku a fáze manuálního řešení morfologických nejasností. Disambiguated corpus sestává ze 174 697 lexikálních jednotek.

Přístup

Rozhraní vyhledávání BulPOSCor

Reference

Koeva, Sv. Gramatichen Rechnik na Balgarskiya ezik.Opisanie na koncepciyata za organizaciyata na lingvistichnite danni. (Grammatical Dictionary of Bulgarian.), В: Български език, 6, 1998, с. 49-58. Koeva, Sv., Sv. Leseva, I. Stoyanova, E. Tarpomanova, M. Todorova. Bulharské značkové korpusy, Sborník z páté mezinárodní konference Formální přístupy k jihoslovanským a balkánským jazykům, 18. – 20. Října 2006, Sofie, Bulharsko, s. 78–86. Todorova, Maria, Rositsa Dekova. Balgarski POS anotiran korpus - osobnosti na gramatichnata anotaciya. (Bulharský korpus s anotací POS - specifika gramatické anotace) в: Езикови ресурси и технологии за български език. Състав. и научн. ред. Св. Коева, Д. Благоева, Т. Тинчев. София: Академично издателство „Марин Дринов“, 2014.

Viz také

externí odkazy