BulSemCor - BulSemCor - Wikipedia

The Korpus s poznámkami o bulharském smyslu (BulSemCor) (bulharský: Български семантично анотиран корпус (БулСемКор)) je strukturovaný korpus bulharských textů, ve kterém je každé lexikální položce přiřazen sense tag. BulSemCor vytvořil Ústav počítačové lingvistiky[1] na Institut pro bulharský jazyk z Bulharská akademie věd.

Struktura

BulSemCor byl vytvořen v rámci národně financovaného projektu s názvem „BulNet - lexiko-sémantická síť pro bulharský jazyk“ (2005–2010). Řídí se obecnou metodikou SemCor[2] v kombinaci s některými konkrétními principy.[3] Korpus pro anotaci se skládá ze 101 791 žetonů pokrývajících výňatek z bulharského „hnědého“ korpusu[4] po vzoru hnědého korpusu.Francis Kučera Důležitým rysem BulSemCor je, že vzorky jsou vybírány pomocí heuristiky, která poskytuje optimální pokrytí nejednoznačné lexiky.

BulSemCor je ručně smyslově anotován podle Bulharský WordNet. Jeho velikost je srovnatelná s velikostí jiných současných sémanticky anotovaných korpusů nebo souboru přijatelných jazykových prvků. Sémantická anotace spočívá v přiřazení každé lexikální položky v korpusu přesně jedné sada synonym (synset) v bulharském WordNetu, který nejlépe popisuje jeho smysl v konkrétním kontextu. Výběr nejlepší shody mezi navrhovanými kandidáty je založen na sadě postupů, jako jsou ostatní členové synsetu, lesk synsetu (vysvětlující definice) a pozice daného kandidáta ve struktuře WordNet.

Měřítko

Počet komentovaných tokenů je 99 480 (rozdíl v počtu tokenů ve srovnání s původním korpusem je způsoben skutečností, že některé z nich nejsou jazykovými položkami). Jednoduchý počet slov je 86 842 a víceslovná vyjádření (MWE) jsou 5 797 (12 638 žetonů).

Specifické funkce

Všechna slova v BulSemCor mají přiřazen smysl, zatímco podle zavedené praxe jsou anotovány pouze jednoduchá slova obsahu nebo třídy slov obsahu (obvykle podstatná jména a slovesa). Od roku 2000 se rozvoj jazykových zdrojů rozšířil o anotaci funkčních slov a víceslovných výrazů pokrývajících konkrétní smysly nebo typy slov a výrazů. V tomto ohledu je anotace BulSemCor vyčerpávající, a proto poskytuje větší příležitosti pro lingvistická pozorování a aplikace nelineárního programování (NLP).

Anotované položky dědí jazykové informace spojené s odpovídající synset, které spolu s morfologickými a sémantickými značkami mohou obsahovat anotaci na jedné nebo více z následujících dalších úrovní:[5]

  • Částečné informace o syntaktické struktuře typů MWE - zejména informace o syntaktických hlavách a jejich závislých osobách;
  • Informace o kategorii pojmenovaných entit - jména, umístění, organizace, data, čísla atd .;
  • Informace o taxonomické kategorii příslovcí, jako je čas, místo, způsob, stupeň, množství atd .;
  • Informace o typu syntaktických vztahů - koordinace nebo podřízenosti - vyjádřené spojkami;
  • Informace o původní části řeči substantivizovaných slov (podstatná jména, která v konkrétním kontextu fungují jako podstatná jména);
  • Stylistické / registrační, gramatické a další informace o synsetech nebo jednotlivých členech synsetu;

Viz také

Reference

  • Koeva, Svetla (2010). „Balgarskiyat semantichno anotiran korpus“ [Korpus s bulharským smyslem].CS1 maint: ref = harv (odkaz)
  • Koeva, Svetla; Leseva, S .; Todorova, M. (23. května 2006). Korpus označený bulharským smyslem. 5. seminář SALTMIL o jazycích menšin: Strategie rozvoje strojového překladu pro jazyky menšin. str. 79–87.CS1 maint: ref = harv (odkaz)
  • Miller, G. A. (1995). „Vytváření sémantických shod: disambiguace vs. anotace Technická zpráva AAAI SS-95-01“ (PDF): 92–94. Citovat deník vyžaduje | deník = (Pomoc)CS1 maint: ref = harv (odkaz)
  • Todorova, M .; Kukova, H .; Leseva, S. (2014). Semantichno anotirani resursi za balgarskiya ezik - BulSemCor (Semantically-annotated Resources for Bulgarian - BulSemCor) [Jazykové zdroje a technologie pro bulharštinu]. Ezikovi resursi i tehnologii za balgarski ezik. Akademické nakladatelství. str. 80–104. ISBN  978-954-322-797-6.CS1 maint: ref = harv (odkaz)
  • Francis, N .; Kučera, H. (1979), Manuál informací doprovázející standardní vzorek současné americké angličtiny pro použití s ​​digitálními počítači, Providence, Rhode Island: Ústav jazykovědy, Brown University, archivovány od originál dne 18. května 2014, vyvoláno 7. července 2013CS1 maint: ref = harv (odkaz)

externí odkazy