MontyLingua - MontyLingua
MontyLingua je populární zpracování přirozeného jazyka sada nástrojů. Je to sada knihovny a programy pro symbolické a statistické zpracování přirozeného jazyka (NLP) pro oba Krajta a Jáva programovací jazyky. Je obohacen o zdravý rozum znalosti o každodenním světě z Open Mind Common Sense. Z anglických vět extrahuje předmětové / slovesné / n-tické n-tice, extrahuje adjektiva, podstatné jména a slovesné fráze a extrahuje jména lidí, místa, události, data a časy a další sémantické informace. Nevyžaduje školení. To napsal Hugo Liu v MIT v roce 2003.
Protože je obohacen o zdravý rozum znalost může zabránit mnoha chybám. např.:
- „(NX the / DT mosquito / NN bit / NN NX) (NX the / DT boy / NN NX)“
vs.
- „(NX the / DT mosquito / NN NX) (VX bit / VBD VX) (NX the / DT boy / NN NX)“[1]
Nekomerční použití je zdarma. Pokud je vaším záměrem používat tento software pro nekomerční, nechráněné účely, například pro účely akademického výzkumu, je tento software bezplatný a vztahuje se na něj GNU. Licence GPL.
Schopnosti
- MontyTokenizer: normalizuje interpunkci, mezery a kontrakce s citlivostí na zkratky.
- MontyTagger: Značení části řeči pomocí Penn Treebank sada značek, obohacená o „Common Sense“ z projektu Open Mind Common Sense. Překračuje přesnost značkovače Brill94 tbl pomocí výchozích tréninkových souborů
- MontyREChunker: blokuje označený text na bloky slovesa, podstatného jména a adjektiva (VX, NX a AX)
- MontyExtractor: extrahuje sloveso-argumentové struktury, fráze a další sémanticky cenné informace z vět a vrátí věty jako „digest“
- MontyLemmatiser: citově citlivá část řeči. Proužky v množném čísle (husy -> husy) a napjaté (byly -> byly, měly -> měly). Zahrnuje regulární výrazy z Humphreys a Carrollova morph.lex a korpus XTAG společnosti UPENN
- MontyNLGenerator: generuje souhrny, generuje povrchové věty, určuje a počítá slovesa NP a časů, odpovídá větě_typu