Obecná architektura pro textové inženýrství - General Architecture for Text Engineering
![]() Hlavní okno GATE Developer v5 | |
Vývojáři | Výzkumný tým GATE, Katedra informatiky, University of Sheffield |
---|---|
První vydání | 1995 |
Stabilní uvolnění | 8.6 (10. června 2019[±] | )
Náhled verze | 8.5 (28. listopadu 2020 (vydává se každý večer)) [±] |
Úložiště | ![]() |
Napsáno | Jáva |
Operační systém | Cross-platform |
K dispozici v | Angličtina |
Typ | Dolování textu Extrakce informací |
Licence | LGPL |
webová stránka | brána |
Obecná architektura pro textové inženýrství nebo BRÁNA je Jáva sada nástrojů původně vyvinutých na University of Sheffield začíná v roce 1995 a nyní je celosvětově využívána širokou komunitou vědců, společností, učitelů a studentů pro mnohé zpracování přirozeného jazyka úkoly, včetně extrakce informací v mnoha jazycích.[1]
GATE byla porovnána s NLTK, R a RapidMiner.[2] Kromě toho, že je sám o sobě široce používán, tvoří základ sémantické platformy KIM.[3]
Komunita a výzkum GATE se účastní několika evropských výzkumných projektů včetně TAO, SEKT, NeOn, Mediální kampaň, Musing, Vyhledávač služeb, LIRICS a Web znalostí, stejně jako mnoho dalších projektů.
K 28. květnu 2011 je na poštovním seznamu uživatelů brány na SourceForge.net 881 lidí a 111932 stažení z SourceForge jsou zaznamenány od doby, kdy se projekt přesunul do SourceForge v roce 2005.[4] Příspěvek „GATE: Rámec a grafické vývojové prostředí pro robustní nástroje a aplikace NLP“[5] za sedm let od zveřejnění obdržela přes 800 citací (podle Google Scholar). Knihy o používání GATE, kromě uživatelské příručky GATE,[6] zahrnout „Vytváření vyhledávacích aplikací: Lucene, LingPipe a Gate“, autor: Manu Konchady,[7] a „Úvod do lingvistické anotace a textové analýzy“, autor Graham Wilcock.[8]
Funkce
GATE zahrnuje extrakce informací systém volal ANNIE (Téměř nový systém pro extrakci informací), což je sada modulů zahrnujících a tokenizer, a místopisný seznam, a rozdělovač vět, a část označovače řeči, a pojmenované entity převodník a koreference označovač. ANNIE lze použít tak, jak je, k poskytnutí základního extrakce informací nebo poskytnout výchozí bod pro konkrétnější úkoly.
Mezi jazyky, s nimiž se aktuálně pracuje v GATE, patří Angličtina, čínština, arabština, bulharský, francouzština, Němec, hindština, italština, Cebuano, rumunština, ruština, dánština.
Pluginy jsou zahrnuty pro strojové učení s Weka, RASP, MAXENT, SVM Light, stejně jako a LIBSVM integrace a interní perceptron implementace, pro správu ontologie jako WordNet, pro dotazování vyhledávače jako Google nebo Yahoo, pro součást značkování řeči s Brill nebo TreeTagger a mnoho dalších. K dispozici je také mnoho externích pluginů pro zpracování např. tweety.[9]
GATE přijímá vstupy v různých formátech, například TXT, HTML, XML, Doc, PDF dokumenty a Serial Java, PostgreSQL, Lucene, Věštec Databáze s pomocí RDBMS skladování skončilo JDBC.
ŽERT snímače se používají v GATE k manipulaci s anotacemi k textu. Dokumentace je uvedena v Uživatelské příručce GATE.[10] Výukový program také napsal Press Association Images.[11]
Vývojář GATE

Snímek obrazovky ukazuje prohlížeč dokumentů použitý k zobrazení dokumentu a jeho anotací. Růžově jsou anotace hypertextového odkazu z HTML soubor. Pravý seznam je seznam sad anotací a dolní tabulka je seznam anotací. Ve středu je okno editoru anotací.
GATE Mímir
GATE generuje obrovské množství informací, včetně; text v přirozeném jazyce, sémantické anotace a ontologické informace. Někdy jsou samotná data konečným produktem aplikace, ale často by byly informace užitečnější, pokud by bylo možné je efektivně vyhledávat. GATE Mimir poskytuje podporu pro indexování a vyhledávání jazykových a sémantických informací generovaných takovými aplikacemi a umožňuje dotazovat se na informace pomocí libovolných kombinací textu, strukturálních informací a SPARQL.
Viz také
- Nestrukturovaná architektura správy informací (UIMA)
- OpenNLP
- Pheme, významný projekt EU spravovaný skupinou GATE o včasném odhalení nepravdivých informací v sociálních médiích
Reference
- ^ Jazyky uvedené na http://gate.ac.uk/gate/plugins/ patří arabština, bulharština, Cebuano, čínština, francouzština, němčina, hindština, italština, rumunština a ruština.
- ^ „Open Source Text Analytics od Setha Grimese - BeyeNETWORK“. Citováno 17. prosince 2016.
- ^ Popov, Borislav; Kirjakov, Atanas; Ognyanoff, Damyan; Manov, Dimitar; Kirilov, Angel (1. září 2004). „KIM - sémantická platforma pro extrakci a vyhledávání informací“. Přirozené jazykové inženýrství. 10 (3–4): 375–392. doi:10.1017 / S135132490400347X. Citováno 17. prosince 2016 - přes Cambridge Core.
- ^ "BRÁNA". Citováno 17. prosince 2016.
- ^ „GATE: Rámec a grafické vývojové prostředí pro robustní nástroje a aplikace NLP“ autor: Cunningham H., Maynard D., Bontcheva K. a Tablan V. (ve shodě se 40. výročím zasedání Asociace pro výpočetní lingvistiku, 2002)
- ^ „GATE.ac.uk - výprodej / tao / split.html“. Citováno 17. prosince 2016.
- ^ Konchady, Manu. Vytváření vyhledávacích aplikací: Lucene, LingPipe a Gate. Mustru Publishing. 2008.
- ^ Wilcock, Graham (1. ledna 2009). Úvod do lingvistické anotace a textové analýzy. Vydavatelé Morgan & Claypool. ISBN 9781598297386. Citováno 17. prosince 2016 - prostřednictvím Knih Google.
- ^ „GATE.ac.uk - wiki / twitie.html“. Citováno 17. prosince 2016.
- ^ „GATE.ac.uk - výprodej / tao / splitch8.html“. Citováno 17. prosince 2016.
- ^ Thakker, Dhavalkumar (17. července 2009). „Realizace sémantického webu: Výuka gramatiky JAPE“. Citováno 17. prosince 2016.