Obecný internetový korpus ruštiny - General Internet Corpus of Russian

Obecný internetový korpus ruštiny
Typ webu
vzdělávací / vědecký projekt
K dispozici vruský jazyk
VytvořilVladimir Selegey, Vladimir Belikov, Serge Sharoff
URLwww.webcorpora.ru/ en
KomerčníNe
Registracepotřeboval; dáno na žádost
Spuštěno2012
Aktuální stavBeta-testování

Obecný internetový korpus ruštiny (GICR) je korpus ruských internetových textů, který je na vyžádání přístupný prostřednictvím rozhraní online dotazů od roku 2013. Korpus obsahuje bohaté textové materiály z blogosféry, sociálních sítí, významných zpravodajských zdrojů a literárních časopisů.

Cíle projektu

Projekt má status vzdělávacího a vědeckého a mnoho úkolů výpočetní lingvistiky řeší nezávislí vědci a výzkumné skupiny s materiály získanými GICR. Zatímco jiné korpusové projekty ruštiny jsou zaměřeny na beletrii a editované texty, General Internet Corpus poskytuje lingvistům včasnou příležitost naučit se jazyk takový, jaký je, se všemi slangovými a regionálními zvláštnostmi.

Corpus dává příležitost provádět výzkum v

  • Jazykový výzkum široké škály: dialektologický výzkum, studium distribuce slov, studium jazyka sociálních sítí, studium vlivu pohlaví, věku a dalších faktorů na jazyk, četnost slov, ustálené výrazy a různé konstrukce, stylistické vlastnosti textů různých segmentů internetu atd.
  • Analýza sociálních médií
  • Strojové učení založené na korpusu pro vyhodnocení automatického značkování[1]

Studenti, absolventi a zaměstnanci MSU, MIPT, Ruské státní humanitární univerzity, Státní univerzity v Novosibirsku, Vysoké školy ekonomické, Ruské akademie věd, SFU, CSU, v různých časech prováděli na projektovém materiálu studentské práce a nezávislé výzkumy. SGMP, IAAS z MSU.

Vedoucí vědeckých projektů:

  • Belikov V. - RSUH, Moskva, Rusko
  • Selegey V. - RSUH, ABBYY, Moskva, Rusko
  • Sharoff S. - RSUH, Moskva, Rusko; University of Leeds, UK[2]

Organizace zapojené do podpory GICR:

Velikost a obsah korpusu

Velikost korpusu pro léto 2016 je 19,8 miliardy tokenů, z čehož 49% pochází VKontakte, 40% je z LiveJournal, další 4% - z Mail.ru Blogy a novinky a 2% - z Ruská časopisová síň.[3]Zdroje shromážděné v segmentu zpráv jsou: RIA Novosti, Regnum, Lenta.ru, Rosbalt Texty jsou opatřeny metamarkupem (podle data vytvoření textu, pohlaví, místa a roku narození autora, internetového žánru atd.); všechny texty jsou vybaveny automatickým morfologickým značkováním a lemmatizací.[4]Většina shromážděných textů pochází z let 2013–2014, kdy byly vytvořeny, i když v některých segmentech, například v Ruském časopise, se některé texty shromažďují od roku 1994.[5]

Korpusový segmentSlova, milionyDokumenty
Blogy Mail.Ru7079882120
VKontakte9820193770717
Živý deník811073229158
Ruská časopisová síň31356547
Novinky (ria, regnum, lentaru, rosbalt)8512964897
Všechny korpusy19801279903439

GICR je dnes jedním z mála megakorporálních projektů, což znamená, že jeho dostupná velikost dosahuje několika miliard slov.

KorpusJazykyPřístupStránkyVelikostZařízení
COW: Zdarma, velké webové korpusy v evropských jazycíchAngličtina, francouzština, němčina, španělština, švédština, holandštinazdarma, po registraci je možný zkušební přístup bez registrace[1]30 miliard slovFormát KWIC, morfologické značení, vyhledávání CQP, značení a vyhledávání podle data, URL, země, města atd.
Skica EngineAngličtina, francouzština, němčina, italština, arabština, ruština, španělština, portugalština, korejština, japonština, čínština + další jazyky jsou k dispozici za příplatekPlacený přístup, zkušební přístup je možný po registraci[2]86 miliard slovkonkordance, skica gramatiky, tezaurus, KWIC, morfologické značení, CQP vyhledávání
Aranea CorporaAngličtina, ruština, finština, francouzština, němčina, maďarština, španělština, italština, holandština, polština, slovenštinaZdarma, po registraci je možný zkušební přístup bez registrace[3]14 miliard slovnoSketch Engine, konkordance, náčrtová gramatika, tezaurus, KWIC, morfologické značení, CQP vyhledávání, srovnatelné výsledky dotazů v různých jazycích
GICR (General Internet Corpus of Russian)ruštinaZdarma, registrace na vyžádání[4]20 miliard slovkonkordance, tezaurus, KWIC, morfologické značení, CQP vyhledávání, značení a vyhledávání podle data, země, města, internetového segmentu, pohlaví, roku a místa narození autora, „dotazovací pošty“ pro uživatele.
GloWbE (Corpus of Global Web-Based English)Angličtina, specifikace pro 20 zemíŽádná registrace[5]1,9 miliardy slovKWIC, konkordance, kolokace, výsledky srovnatelné podle dialektů, CQP vyhledávání, korpus lze stáhnout

Přístup

V současné době je rozhraní GICR ve fázi beta, takže přístup k vyhledávání v korpusech je poskytován a je zdarma, ale je k dispozici výzkumným pracovníkům na vyžádání.[6]

Viz také

Reference

Další čtení

  1. Belikov V., Kopylov N., Piperski A., Selegey V., Sharoff S., (2013), Velký a rozmanitý je krásný: Velký korpus ruštiny ke studiu jazykových variací. Na webu jako Workshop Corpus (WAC-8).
  2. Lagutin M. B., Katinskaya A. Y., Selegey V. P., Sharoff S., Sorokin A. A. (2015) Automatic Classification of Web Texts using Functional Text Dimensions. In Dialogue, Russian International Conference on Computational Linguistics, Bekasovo
  3. Katinskaya A., Sharoff S. (2015) Aplikování vícerozměrné analýzy na ruský Webcorpus: Hledání důkazů žánrů, v Proc. Workshopu o zpracování baltoslovanského přirozeného jazyka spojeného s mezinárodní konferencí RANLP, Hissar, Bulharsko.

externí odkazy

Oficiální stránky GICR