Obecný internetový korpus ruštiny - General Internet Corpus of Russian

**Obecný internetový korpus ruštiny**
Typ webu	vzdělávací / vědecký projekt
K dispozici v	ruský jazyk
Vytvořil	Vladimir Selegey, Vladimir Belikov, Serge Sharoff
URL	www.webcorpora.ru/ en
Komerční	Ne
Registrace	potřeboval; dáno na žádost
Spuštěno	2012
Aktuální stav	Beta-testování

Obecný internetový korpus ruštiny (GICR) je korpus ruských internetových textů, který je na vyžádání přístupný prostřednictvím rozhraní online dotazů od roku 2013. Korpus obsahuje bohaté textové materiály z blogosféry, sociálních sítí, významných zpravodajských zdrojů a literárních časopisů.

Cíle projektu

Projekt má status vzdělávacího a vědeckého a mnoho úkolů výpočetní lingvistiky řeší nezávislí vědci a výzkumné skupiny s materiály získanými GICR. Zatímco jiné korpusové projekty ruštiny jsou zaměřeny na beletrii a editované texty, General Internet Corpus poskytuje lingvistům včasnou příležitost naučit se jazyk takový, jaký je, se všemi slangovými a regionálními zvláštnostmi.

Corpus dává příležitost provádět výzkum v

Jazykový výzkum široké škály: dialektologický výzkum, studium distribuce slov, studium jazyka sociálních sítí, studium vlivu pohlaví, věku a dalších faktorů na jazyk, četnost slov, ustálené výrazy a různé konstrukce, stylistické vlastnosti textů různých segmentů internetu atd.
Analýza sociálních médií
Strojové učení založené na korpusu pro vyhodnocení automatického značkování^[1]

Studenti, absolventi a zaměstnanci MSU, MIPT, Ruské státní humanitární univerzity, Státní univerzity v Novosibirsku, Vysoké školy ekonomické, Ruské akademie věd, SFU, CSU, v různých časech prováděli na projektovém materiálu studentské práce a nezávislé výzkumy. SGMP, IAAS z MSU.

Vedoucí vědeckých projektů:

Belikov V. - RSUH, Moskva, Rusko
Selegey V. - RSUH, ABBYY, Moskva, Rusko
Sharoff S. - RSUH, Moskva, Rusko; University of Leeds, UK^[2]

Organizace zapojené do podpory GICR:

Velikost a obsah korpusu

Velikost korpusu pro léto 2016 je 19,8 miliardy tokenů, z čehož 49% pochází VKontakte, 40% je z LiveJournal, další 4% - z Mail.ru Blogy a novinky a 2% - z Ruská časopisová síň.^[3]Zdroje shromážděné v segmentu zpráv jsou: RIA Novosti, Regnum, Lenta.ru, Rosbalt Texty jsou opatřeny metamarkupem (podle data vytvoření textu, pohlaví, místa a roku narození autora, internetového žánru atd.); všechny texty jsou vybaveny automatickým morfologickým značkováním a lemmatizací.^[4]Většina shromážděných textů pochází z let 2013–2014, kdy byly vytvořeny, i když v některých segmentech, například v Ruském časopise, se některé texty shromažďují od roku 1994.^[5]

Korpusový segment	Slova, miliony	Dokumenty
Blogy Mail.Ru	707	9882120
VKontakte	9820	193770717
Živý deník	8110	73229158
Ruská časopisová síň	313	56547
Novinky (ria, regnum, lentaru, rosbalt)	851	2964897
Všechny korpusy	19801	279903439

GICR je dnes jedním z mála megakorporálních projektů, což znamená, že jeho dostupná velikost dosahuje několika miliard slov.

Korpus	Jazyky	Přístup	Stránky	Velikost	Zařízení
COW: Zdarma, velké webové korpusy v evropských jazycích	Angličtina, francouzština, němčina, španělština, švédština, holandština	zdarma, po registraci je možný zkušební přístup bez registrace	[1]	30 miliard slov	Formát KWIC, morfologické značení, vyhledávání CQP, značení a vyhledávání podle data, URL, země, města atd.
Skica Engine	Angličtina, francouzština, němčina, italština, arabština, ruština, španělština, portugalština, korejština, japonština, čínština + další jazyky jsou k dispozici za příplatek	Placený přístup, zkušební přístup je možný po registraci	[2]	86 miliard slov	konkordance, skica gramatiky, tezaurus, KWIC, morfologické značení, CQP vyhledávání
Aranea Corpora	Angličtina, ruština, finština, francouzština, němčina, maďarština, španělština, italština, holandština, polština, slovenština	Zdarma, po registraci je možný zkušební přístup bez registrace	[3]	14 miliard slov	noSketch Engine, konkordance, náčrtová gramatika, tezaurus, KWIC, morfologické značení, CQP vyhledávání, srovnatelné výsledky dotazů v různých jazycích
GICR (General Internet Corpus of Russian)	ruština	Zdarma, registrace na vyžádání	[4]	20 miliard slov	konkordance, tezaurus, KWIC, morfologické značení, CQP vyhledávání, značení a vyhledávání podle data, země, města, internetového segmentu, pohlaví, roku a místa narození autora, „dotazovací pošty“ pro uživatele.
GloWbE (Corpus of Global Web-Based English)	Angličtina, specifikace pro 20 zemí	Žádná registrace	[5]	1,9 miliardy slov	KWIC, konkordance, kolokace, výsledky srovnatelné podle dialektů, CQP vyhledávání, korpus lze stáhnout

Přístup

V současné době je rozhraní GICR ve fázi beta, takže přístup k vyhledávání v korpusech je poskytován a je zdarma, ale je k dispozici výzkumným pracovníkům na vyžádání.^[6]

Viz také

Reference

^ Automatická klasifikace webových textů pomocí funkčních rozměrů textu
^ http://www.webcorpora.ru/en/collective
^ http://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
^ : //www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
^ Příspěvek v blogu: https://vk.com/wall-89094852_220
^ http://www.webcorpora.ru/contacts

Další čtení

externí odkazy

• Oficiální stránky GICR

[1] Automatická klasifikace webových textů pomocí funkčních rozměrů textu

[2] ttp://www.webcorpora.ru/en/collective

[3] ttp://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5

[4] : //www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5

[5] Příspěvek v blogu: https://vk.com/wall-89094852_220

[6] ttp://www.webcorpora.ru/contacts

[1]

[2]

[3]

[4]

[5]

[6]