BulSemCor - BulSemCor - Wikipedia
The Korpus s poznámkami o bulharském smyslu (BulSemCor) (bulharský: Български семантично анотиран корпус (БулСемКор)) je strukturovaný korpus bulharských textů, ve kterém je každé lexikální položce přiřazen sense tag. BulSemCor vytvořil Ústav počítačové lingvistiky[1] na Institut pro bulharský jazyk z Bulharská akademie věd.
Struktura
BulSemCor byl vytvořen v rámci národně financovaného projektu s názvem „BulNet - lexiko-sémantická síť pro bulharský jazyk“ (2005–2010). Řídí se obecnou metodikou SemCor[2] v kombinaci s některými konkrétními principy.[3] Korpus pro anotaci se skládá ze 101 791 žetonů pokrývajících výňatek z bulharského „hnědého“ korpusu[4] po vzoru hnědého korpusu.Francis Kučera Důležitým rysem BulSemCor je, že vzorky jsou vybírány pomocí heuristiky, která poskytuje optimální pokrytí nejednoznačné lexiky.
BulSemCor je ručně smyslově anotován podle Bulharský WordNet. Jeho velikost je srovnatelná s velikostí jiných současných sémanticky anotovaných korpusů nebo souboru přijatelných jazykových prvků. Sémantická anotace spočívá v přiřazení každé lexikální položky v korpusu přesně jedné sada synonym (synset) v bulharském WordNetu, který nejlépe popisuje jeho smysl v konkrétním kontextu. Výběr nejlepší shody mezi navrhovanými kandidáty je založen na sadě postupů, jako jsou ostatní členové synsetu, lesk synsetu (vysvětlující definice) a pozice daného kandidáta ve struktuře WordNet.
Měřítko
Počet komentovaných tokenů je 99 480 (rozdíl v počtu tokenů ve srovnání s původním korpusem je způsoben skutečností, že některé z nich nejsou jazykovými položkami). Jednoduchý počet slov je 86 842 a víceslovná vyjádření (MWE) jsou 5 797 (12 638 žetonů).
Specifické funkce
Všechna slova v BulSemCor mají přiřazen smysl, zatímco podle zavedené praxe jsou anotovány pouze jednoduchá slova obsahu nebo třídy slov obsahu (obvykle podstatná jména a slovesa). Od roku 2000 se rozvoj jazykových zdrojů rozšířil o anotaci funkčních slov a víceslovných výrazů pokrývajících konkrétní smysly nebo typy slov a výrazů. V tomto ohledu je anotace BulSemCor vyčerpávající, a proto poskytuje větší příležitosti pro lingvistická pozorování a aplikace nelineárního programování (NLP).
Anotované položky dědí jazykové informace spojené s odpovídající synset, které spolu s morfologickými a sémantickými značkami mohou obsahovat anotaci na jedné nebo více z následujících dalších úrovní:[5]
- Částečné informace o syntaktické struktuře typů MWE - zejména informace o syntaktických hlavách a jejich závislých osobách;
- Informace o kategorii pojmenovaných entit - jména, umístění, organizace, data, čísla atd .;
- Informace o taxonomické kategorii příslovcí, jako je čas, místo, způsob, stupeň, množství atd .;
- Informace o typu syntaktických vztahů - koordinace nebo podřízenosti - vyjádřené spojkami;
- Informace o původní části řeči substantivizovaných slov (podstatná jména, která v konkrétním kontextu fungují jako podstatná jména);
- Stylistické / registrační, gramatické a další informace o synsetech nebo jednotlivých členech synsetu;
Viz také
- Korpusová lingvistika
- Zpracování přirozeného jazyka
- Bulharský národní korpus
- Bulharský WordNet
- BulPosCor
Reference
- ^ Katedra počítačové lingvistiky Archivováno 18. května 2015, v Wayback Machine
- ^ Miller 1995.
- ^ Koeva 2010.
- ^ Bulharský „hnědý“ korpus Archivováno 18. května 2015, v Wayback Machine Koeva, Leseva & Todorova 2006
- ^ Todorova, Kukova & Leseva 2014.
- Koeva, Svetla (2010). „Balgarskiyat semantichno anotiran korpus“ [Korpus s bulharským smyslem].CS1 maint: ref = harv (odkaz)
- Koeva, Svetla; Leseva, S .; Todorova, M. (23. května 2006). Korpus označený bulharským smyslem. 5. seminář SALTMIL o jazycích menšin: Strategie rozvoje strojového překladu pro jazyky menšin. str. 79–87.CS1 maint: ref = harv (odkaz)
- Miller, G. A. (1995). „Vytváření sémantických shod: disambiguace vs. anotace Technická zpráva AAAI SS-95-01“ (PDF): 92–94. Citovat deník vyžaduje
| deník =
(Pomoc)CS1 maint: ref = harv (odkaz) - Todorova, M .; Kukova, H .; Leseva, S. (2014). Semantichno anotirani resursi za balgarskiya ezik - BulSemCor (Semantically-annotated Resources for Bulgarian - BulSemCor) [Jazykové zdroje a technologie pro bulharštinu]. Ezikovi resursi i tehnologii za balgarski ezik. Akademické nakladatelství. str. 80–104. ISBN 978-954-322-797-6.CS1 maint: ref = harv (odkaz)
- Francis, N .; Kučera, H. (1979), Manuál informací doprovázející standardní vzorek současné americké angličtiny pro použití s digitálními počítači, Providence, Rhode Island: Ústav jazykovědy, Brown University, archivovány od originál dne 18. května 2014, vyvoláno 7. července 2013CS1 maint: ref = harv (odkaz)