Omezovací gramatika - Constraint grammar - Wikipedia
Omezovací gramatika (CG) je metodické paradigma pro zpracování přirozeného jazyka (NLP). Napsáno lingvistou, kontextově závislé pravidla jsou sestavena do gramatiky, která přiřazuje gramatické značky („čtení“) slovům nebo jiným tokenům v běžícím textu. Typická adresa značky lemmatizace (lexém nebo základní forma ), skloňování, derivace, syntaktická funkce závislost, mocenství, role případu, sémantický typ atd. Každé pravidlo v daném kontextu věty buď přidá, odebere, vybere nebo nahradí značku nebo sadu gramatických značek. Kontextové podmínky lze propojit s libovolnou značkou nebo sadou značek libovolného slova kdekoli ve větě, a to buď lokálně (definované vzdálenosti), nebo globálně (nedefinované vzdálenosti). Kontextové podmínky ve stejném pravidle mohou být propojeny, tj. Vzájemně podmíněny, negovány nebo blokovány rušivými slovy nebo tagy. Typické CG se skládají z tisíců pravidel, která jsou aplikována v progresivních krocích a pokrývají stále pokročilejší úrovně analýzy. V rámci každé úrovně se používají bezpečná pravidla před heuristickými pravidly a žádné pravidlo nesmí odstraňovat poslední čtení daného druhu, což poskytuje vysoký stupeň robustnosti.
Koncept CG byl spuštěn společností Fred Karlsson v roce 1990 (Karlsson 1990; Karlsson et al., eds, 1995) a tagy a analyzátory CG byly od té doby napsány pro širokou škálu jazyků a rutinně dosahují F-skóre přesnosti pro část mluvy (slovní třída) více než 99%.[1] Řada syntaktických CG systémů uvádí F-skóre kolem 95% pro štítky syntaktických funkcí. Systémy CG lze použít k vytvoření úplných syntaktických stromů v jiných formalizmech přidáním malých terminálových systémů gramatiky frázové struktury nebo závislostní gramatiky a řada Treebank projekty používaly CG pro automatickou anotaci. Metodika CG byla také použita v řadě aplikací jazykových technologií, jako např kontrola pravopisu a strojový překlad systémy.
Implementace
CG-1
První implementací CG byl CGP od Freda Karlssona na počátku 90. let. Bylo to čistě LISP -na základě, a syntaxe byla založena na s-výrazech LISP (Karlsson 1990).
CG-2
Pasi Tapanainenova implementace CG-2 mdis[2] odstranil některé závorky ve formátu gramatiky a byl implementován v C ++ a interpretoval gramatiku jako a Převodník konečných stavů pro rychlost.
CG-2 byla později znovu implementována (metodou jiné než FST) skupinou VISL v Syddansk Universitet jako open source VISL CG [1], zachovávající stejný formát jako Tapanainenův uzavřený zdroj mdis.
CG-3
Projekt VISL se později změnil na VISL CG-3, což přineslo další změny a doplňky do gramatického formátu, např .:
- úplný Unicode podpora prostřednictvím Mezinárodní komponenty pro Unicode
- odlišná interpretace negace (NE)
- pojmenované relace kromě jednoduchých relací závislosti
- nastavení proměnných
- full regex matching
- obaly na čtení / zápis Apertium a HFST formáty
- podpora podnadpisů (kde jedno čtení má několik „částí“, používá se pro víceslovné výrazy a sloučeniny)
- skenování kolem počátečního bodu nebo dokonce hranic oken
Na rozdíl od implementace Tapanainen nepoužívají implementace VISL snímače konečných stavů. Pravidla jsou uspořádána v sekcích, což poskytuje větší předvídatelnost při psaní gramatik, ale za cenu pomalejší analýzy a možnosti nekonečných smyček.
V poslední době existují experimentální open-source implementace založené na FST, které pro malé gramatiky dosahují rychlosti VISL CG-3, pokud ne mdis.[3]
Seznam systémů
- Svobodný software
- VISL CG-3 CGrammar kompilátor / analyzátor
- Severní a Lule Sami, Faerský, Komi a Grónský z University of Tromsø (více informací, Dokumentace Northern Sami )
- estonština [2]
- Norština Nynorsk a Bokmål online, Značkovač Oslo-Bergen (zdrojový kód )
- Breton, velština, Irská gaelština a Norština (převedeno z výše uvedeného) v Apertium (vidět CG v Apertium )
- Nesvobodný software
- Baskičtina [3]
- Katalánština KOCOUR
- dánština DanGram
- Angličtina ENGCG, ENGCG-2, VISL-ENGCG
- esperanto EspGram
- francouzština FrAG
- Němec GerGram
- irština online
- italština ItaGram
- španělština HISPAL
- švédský SWECG
- Svahilština
- portugalština PALAVRAS
Reference
![]() | Scholia má téma profil pro Omezovací gramatika. |
- ^ Informace o angličtině viz například Tapanainen a Voutilainen 1994.
- ^ Tapanainen, Pasi 1996: The Constraint Grammar Parser CG-2. Publikace University of Helsinki č. 27.
- ^ Nemeskey, D. M., Tyers, F. M. a Hulden, M. (2014) „Why Implementation Matters: Evaluation of an Open-source Constraint Grammar Parser“. Sborník z 25. mezinárodní konference o počítačové lingvistice (COLING 2014) (k dispozici)
- Bick, Eckhard. 2000. Systém analýzy „Palavras“: Automatická gramatická analýza portugalštiny v rámci gramatiky omezení. Aarhus: Aarhus University Press. ISBN 87-7288-910-1.
- Karlsson, Fred. 1990. Omezovací gramatika jako rámec pro analýzu neomezeného textu. H. Karlgren, vyd., Sborník ze 13. mezinárodní konference počítačové lingvistiky, Sv. 3. Helsinki 1990, 168-173.
- Redaktoři Karlsson, Fred, Atro Voutilainen, Juha Heikkilä a Arto Anttila. 1995. Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text. Zpracování přirozeného jazyka, č. 4. Mouton de Gruyter, Berlín a New York. ISBN 3-11-014179-5.
- Tapanainen, Pasi a Atro Voutilainen 1994: Přesné označování: nehádejte, pokud víte. ANLC '94 Proceedings of the quarter conference on Applied natural language processing.
externí odkazy
- Výukový program CG Kevin Donnelly
- VISL CG-3, překladač / analyzátor gramatiky
- Seznam některých publikací gramatiky omezení (minimálně do roku 2010)