Skica Engine - Sketch Engine
![]() Logo skicáře | |
![]() Stránka shody Engine Sketch Engine | |
Původní autoři | Adam Kilgarriff, Pavel Rychlý |
---|---|
Vývojáři | Lexical Computing Ltd. |
První vydání | 23. července 2003[1] |
Napsáno | C ++, Krajta, JavaScript, jQuery |
Operační systém | Linux, Mac OS X |
Plošina | IA-32, x64 nebo IA-64 |
Standard (s) | Unicode |
K dispozici v | 12 jazyků |
Seznam jazyků Angličtina, čeština, čínština (tradiční, zjednodušená), gaeilge, slovinština, chorvatština, arabština, španělština, francouzština, ukrajinština, polština | |
Typ | Manažer korpusu pro více než 90 jazyků, Systém pro správu databází |
Licence | Proprietární software; oba komerční a freeware edice jsou k dispozici |
webová stránka | www |
Skica Engine je korpusový manažer a textová analýza software vyvinutý společností Lexical Computing Limited od roku 2003. Jeho účelem je umožnit lidem studovat jazykové chování (lexikografové, vědci v korpusová lingvistika, překladatelé nebo studenti jazyků) prohledávat rozsáhlé textové sbírky podle složitých a jazykově motivovaných dotazů. Sketch Engine získal své jméno po jedné z klíčových funkcí, náčrtky slov: jednostránkové automatické shrnutí gramatického a kolokačního chování slova odvozené od korpusu.[2] V současné době podporuje a poskytuje korpusy ve více než 90 jazycích.[3]
Historie vývoje
Sketch Engine je produktem společnosti Lexical Computing Limited, společnosti založené v roce 2003 lexikografem a vědeckým pracovníkem Adam Kilgarriff.[4] Navázal spolupráci s Pavlem Rychlým, počítačovým vědcem pracujícím v Centru zpracování přirozeného jazyka v Masarykova univerzita[5] a vývojář Manatee a Bonito (dvě hlavní části softwarové sady) a představili koncept náčrtky slov.
Od té doby je Sketch Engine komerčním softwarem, avšak všechny základní funkce Manatee a Bonito, které byly vyvinuty do roku 2003 (a od té doby rozšířeny), jsou volně dostupné pod GPL licence v sadě NoSketch Engine.[6]
Funkce
- Náčrtky slov - jednostránkový automatický odvozený souhrn gramatického a kolokačního chování slova
- Rozdíl v náčrtu slov - porovnává a porovnává dvě slova analýzou jejich řazení
- Distribuční Tezaurus - automatický tezaurus, který hledá slova s podobným významem nebo se objevují ve stejném / podobném kontextu
- Shoda hledat - najde příklady slovního tvaru, lemmatu, fráze, značky nebo složité struktury
- Kolokace vyhledávání - analýza společného výskytu slov zobrazující nejčastější slova (k hledanému slovu), která lze považovat za kandidáty na kolokaci
- Seznamy slov - generuje seznamy frekvencí, které lze filtrovat podle komplexních kritérií
- n-gramů - generuje frekvenční seznamy víceslovných výrazů
- Terminologie / Klíčové slovo extrakce (jednojazyčná i dvojjazyčná) - automatická extrakce klíčových slov a víceslovných výrazů z textů (na základě četnosti frekvencí a jazykových kritérií)
- Diachronická analýza (Trendy )[7] - detekce slov, která podléhají změnám v četnosti použití v čase (zobrazit trendová slova)
- Budování a správa korpusu - vytvářejte korpusy z webu nebo nahraných textů včetně značení části řeči a lemmatizace které lze použít jako dolování dat software
- Paralelní korpus (dvojjazyčné) vybavení - vyhledávání příkladů překladu (korpus EUR-Lex, Korpus Europarl, OPUS korpus atd.) Nebo budování paralelního korpusu z vlastních zarovnaných textů
Architektura

Sketch Engine se skládá ze tří hlavních komponent: podkladové Systém pro správu databází Manatee, rozhraní pro vyhledávání webového rozhraní s názvem Bonito a webové rozhraní pro vytváření a správu korpusu s názvem Corpus Architect.[8]
Manatee
Manatee je a Systém pro správu databází speciálně navrženo pro efektivní indexování velkých textových korpusů. Je založen na myšlence obrácené indexování (vedení rejstříku všech pozic daného slova v textu). Používá se k indexování textových korpusů obsahujících desítky miliard slov.[9]
Hledání korpusů indexovaných Manatee se provádí formulací dotazů v Corpus Query Language (CQL).[10]
Manatee je napsán C ++ a nabízí API pro řadu dalších programovacích jazyků včetně Krajta, Jáva, Perl a Rubín. Nedávno to bylo přepsáno do Jít pro rychlejší zpracování korpusových dotazů.[11]
Bonito
Bonito je webové rozhraní pro Manatee, které poskytuje přístup k vyhledávání korpusu. V model klient-server „Manatee je server a Bonito hraje roli klienta. Je napsán v Krajta.[8]
Korpusový architekt
Corpus Architect je webové rozhraní poskytující funkce budování a správy korpusu. Je také napsán v Krajta.
Aplikace
Sketch Engine byl používán významnými britskými nebo jinými vydavatelstvími pro výrobu slovníků, jako je Macmillan anglický slovník, Slovníky Le Robert, Oxford University Press nebo Shogakukan a čtyři z pěti největších britských vydavatelů slovníků používají Sketch Engine.[12]
Viz také
- SkELL - bezplatná webová služba pro studenty a učitele anglického jazyka založená na Sketch Engine
- Rodina TenTen Corpus - vícejazyčný soubor srovnatelných webové korpusy dostupné prostřednictvím Sketch Engine
Reference
- ^ Obchodní dům Hledáno na Spojené království je registrátor společností (Název společnosti: LEXICAL COMPUTING LIMITED nebo číslo společnosti: 04841901)
- ^ Kilgarriff, Adam; Baisa, Vít; Bušta, Jan; Jakubíček, Miloš; Kovář, Vojtěch; Michelfeit, Jan; Rychlý, Pavel; Suchomel, Vít (10. července 2014). „Sketch Engine: po deseti letech“. Lexikografie. 1 (1): 7–36. doi:10.1007 / s40607-014-0009-9. ISSN 2197-4292.
- ^ „Jazyky v modulu Sketch Engine“. Skica Engine. Lexical Computing s.r.o. Citováno 22. ledna 2018.
- ^ Domovská stránka Adama Kilgarriffa
- ^ Centrum zpracování přirozeného jazyka, Masarykova univerzita
- ^ NoSketch Engine
- ^ Kilgarriff, Adam; Herman, Ondřej; Bušta, Jan; Rychlý, Pavel; Jakubíček, Miloš (2015). „DIACRAN: rámec pro diachronní analýzu“ (PDF). Korpusová lingvistika 2015: 65–70.
- ^ A b Rychlý, Pavel (2007). „Manatee / bonito - modulární správce korpusu“ (PDF). 1. Workshop o posledních pokrokech ve slovanském zpracování přirozeného jazyka: 65–70.
- ^ Pomikálek, Jan; Jakubíček, Miloš; Rychlý, Pavel (2012). „Vytváření 70 miliard slovního korpusu angličtiny z ClueWeb“ (PDF). Sborník příspěvků z osmé mezinárodní konference o jazykových zdrojích a hodnocení (LREC'12).
- ^ „CQL - Corpus Query Language“. Skica Engine. Lexical Computing s.r.o. Citováno 22. ledna 2018.
- ^ Rychlý, Pavel; Rábara, Radoslav (2015). „Souběžné zpracování textových korpusových dotazů“ (PDF). Workshop o posledních pokrokech ve slovanském zpracování přirozeného jazyka: 49–58.
- ^ „Používání výpočetní lexikografie pro produkci slovníků pomocí nástroje Sketch Engine“. Případové studie dopadů REF. University of Brighton. Citováno 18. dubna 2015.
Další čtení
- Thomas, James (březen 2016). Objevování angličtiny pomocí Sketch Engine: korpusový přístup k průzkumu jazyků. Sešit a glosář. Brno: Všestranný. ISBN 9788026095798.