Omezovací gramatika - Constraint grammar - Wikipedia

Omezovací gramatika (CG) je metodické paradigma pro zpracování přirozeného jazyka (NLP). Napsáno lingvistou, kontextově závislé pravidla jsou sestavena do gramatiky, která přiřazuje gramatické značky („čtení“) slovům nebo jiným tokenům v běžícím textu. Typická adresa značky lemmatizace (lexém nebo základní forma ), skloňování, derivace, syntaktická funkce závislost, mocenství, role případu, sémantický typ atd. Každé pravidlo v daném kontextu věty buď přidá, odebere, vybere nebo nahradí značku nebo sadu gramatických značek. Kontextové podmínky lze propojit s libovolnou značkou nebo sadou značek libovolného slova kdekoli ve větě, a to buď lokálně (definované vzdálenosti), nebo globálně (nedefinované vzdálenosti). Kontextové podmínky ve stejném pravidle mohou být propojeny, tj. Vzájemně podmíněny, negovány nebo blokovány rušivými slovy nebo tagy. Typické CG se skládají z tisíců pravidel, která jsou aplikována v progresivních krocích a pokrývají stále pokročilejší úrovně analýzy. V rámci každé úrovně se používají bezpečná pravidla před heuristickými pravidly a žádné pravidlo nesmí odstraňovat poslední čtení daného druhu, což poskytuje vysoký stupeň robustnosti.

Koncept CG byl spuštěn společností Fred Karlsson v roce 1990 (Karlsson 1990; Karlsson et al., eds, 1995) a tagy a analyzátory CG byly od té doby napsány pro širokou škálu jazyků a rutinně dosahují F-skóre přesnosti pro část mluvy (slovní třída) více než 99%.[1] Řada syntaktických CG systémů uvádí F-skóre kolem 95% pro štítky syntaktických funkcí. Systémy CG lze použít k vytvoření úplných syntaktických stromů v jiných formalizmech přidáním malých terminálových systémů gramatiky frázové struktury nebo závislostní gramatiky a řada Treebank projekty používaly CG pro automatickou anotaci. Metodika CG byla také použita v řadě aplikací jazykových technologií, jako např kontrola pravopisu a strojový překlad systémy.

Implementace

CG-1

První implementací CG byl CGP od Freda Karlssona na počátku 90. let. Bylo to čistě LISP -na základě, a syntaxe byla založena na s-výrazech LISP (Karlsson 1990).

CG-2

Pasi Tapanainenova implementace CG-2 mdis[2] odstranil některé závorky ve formátu gramatiky a byl implementován v C ++ a interpretoval gramatiku jako a Převodník konečných stavů pro rychlost.

CG-2 byla později znovu implementována (metodou jiné než FST) skupinou VISL v Syddansk Universitet jako open source VISL CG [1], zachovávající stejný formát jako Tapanainenův uzavřený zdroj mdis.

CG-3

Projekt VISL se později změnil na VISL CG-3, což přineslo další změny a doplňky do gramatického formátu, např .:

  • úplný Unicode podpora prostřednictvím Mezinárodní komponenty pro Unicode
  • odlišná interpretace negace (NE)
  • pojmenované relace kromě jednoduchých relací závislosti
  • nastavení proměnných
  • full regex matching
  • obaly na čtení / zápis Apertium a HFST formáty
  • podpora podnadpisů (kde jedno čtení má několik „částí“, používá se pro víceslovné výrazy a sloučeniny)
  • skenování kolem počátečního bodu nebo dokonce hranic oken

Na rozdíl od implementace Tapanainen nepoužívají implementace VISL snímače konečných stavů. Pravidla jsou uspořádána v sekcích, což poskytuje větší předvídatelnost při psaní gramatik, ale za cenu pomalejší analýzy a možnosti nekonečných smyček.

V poslední době existují experimentální open-source implementace založené na FST, které pro malé gramatiky dosahují rychlosti VISL CG-3, pokud ne mdis.[3]

Seznam systémů

Svobodný software
Nesvobodný software

Reference

  1. ^ Informace o angličtině viz například Tapanainen a Voutilainen 1994.
  2. ^ Tapanainen, Pasi 1996: The Constraint Grammar Parser CG-2. Publikace University of Helsinki č. 27.
  3. ^ Nemeskey, D. M., Tyers, F. M. a Hulden, M. (2014) „Why Implementation Matters: Evaluation of an Open-source Constraint Grammar Parser“. Sborník z 25. mezinárodní konference o počítačové lingvistice (COLING 2014) (k dispozici)
  • Bick, Eckhard. 2000. Systém analýzy „Palavras“: Automatická gramatická analýza portugalštiny v rámci gramatiky omezení. Aarhus: Aarhus University Press. ISBN  87-7288-910-1.
  • Karlsson, Fred. 1990. Omezovací gramatika jako rámec pro analýzu neomezeného textu. H. Karlgren, vyd., Sborník ze 13. mezinárodní konference počítačové lingvistiky, Sv. 3. Helsinki 1990, 168-173.
  • Redaktoři Karlsson, Fred, Atro Voutilainen, Juha Heikkilä a Arto Anttila. 1995. Constraint Grammar: A Language-Independent System for Parsing Unrestricted Text. Zpracování přirozeného jazyka, č. 4. Mouton de Gruyter, Berlín a New York. ISBN  3-11-014179-5.
  • Tapanainen, Pasi a Atro Voutilainen 1994: Přesné označování: nehádejte, pokud víte. ANLC '94 Proceedings of the quarter conference on Applied natural language processing.

externí odkazy