Obecný internetový korpus ruštiny - General Internet Corpus of Russian
![]() | tento článek příliš spoléhá na Reference na primární zdroje.Červen 2016) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
![]() | tento článek nemusí se soustředit nebo se může týkat více než jednoho tématu.Červen 2016) ( |
Typ webu | vzdělávací / vědecký projekt |
---|---|
K dispozici v | ruský jazyk |
Vytvořil | Vladimir Selegey, Vladimir Belikov, Serge Sharoff |
URL | www |
Komerční | Ne |
Registrace | potřeboval; dáno na žádost |
Spuštěno | 2012 |
Aktuální stav | Beta-testování |
Obecný internetový korpus ruštiny (GICR) je korpus ruských internetových textů, který je na vyžádání přístupný prostřednictvím rozhraní online dotazů od roku 2013. Korpus obsahuje bohaté textové materiály z blogosféry, sociálních sítí, významných zpravodajských zdrojů a literárních časopisů.
Cíle projektu
Projekt má status vzdělávacího a vědeckého a mnoho úkolů výpočetní lingvistiky řeší nezávislí vědci a výzkumné skupiny s materiály získanými GICR. Zatímco jiné korpusové projekty ruštiny jsou zaměřeny na beletrii a editované texty, General Internet Corpus poskytuje lingvistům včasnou příležitost naučit se jazyk takový, jaký je, se všemi slangovými a regionálními zvláštnostmi.
Corpus dává příležitost provádět výzkum v
- Jazykový výzkum široké škály: dialektologický výzkum, studium distribuce slov, studium jazyka sociálních sítí, studium vlivu pohlaví, věku a dalších faktorů na jazyk, četnost slov, ustálené výrazy a různé konstrukce, stylistické vlastnosti textů různých segmentů internetu atd.
- Analýza sociálních médií
- Strojové učení založené na korpusu pro vyhodnocení automatického značkování[1]
Studenti, absolventi a zaměstnanci MSU, MIPT, Ruské státní humanitární univerzity, Státní univerzity v Novosibirsku, Vysoké školy ekonomické, Ruské akademie věd, SFU, CSU, v různých časech prováděli na projektovém materiálu studentské práce a nezávislé výzkumy. SGMP, IAAS z MSU.
Vedoucí vědeckých projektů:
- Belikov V. - RSUH, Moskva, Rusko
- Selegey V. - RSUH, ABBYY, Moskva, Rusko
- Sharoff S. - RSUH, Moskva, Rusko; University of Leeds, UK[2]
Organizace zapojené do podpory GICR:
- Ruská státní univerzita humanitních věd
- Společnost ABBYY
- Moskevský institut fyziky a technologie
- Vědeckotechnický institut ve Skolkově
Velikost a obsah korpusu
Velikost korpusu pro léto 2016 je 19,8 miliardy tokenů, z čehož 49% pochází VKontakte, 40% je z LiveJournal, další 4% - z Mail.ru Blogy a novinky a 2% - z Ruská časopisová síň.[3]Zdroje shromážděné v segmentu zpráv jsou: RIA Novosti, Regnum, Lenta.ru, Rosbalt Texty jsou opatřeny metamarkupem (podle data vytvoření textu, pohlaví, místa a roku narození autora, internetového žánru atd.); všechny texty jsou vybaveny automatickým morfologickým značkováním a lemmatizací.[4]Většina shromážděných textů pochází z let 2013–2014, kdy byly vytvořeny, i když v některých segmentech, například v Ruském časopise, se některé texty shromažďují od roku 1994.[5]
Korpusový segment | Slova, miliony | Dokumenty |
---|---|---|
Blogy Mail.Ru | 707 | 9882120 |
VKontakte | 9820 | 193770717 |
Živý deník | 8110 | 73229158 |
Ruská časopisová síň | 313 | 56547 |
Novinky (ria, regnum, lentaru, rosbalt) | 851 | 2964897 |
Všechny korpusy | 19801 | 279903439 |
GICR je dnes jedním z mála megakorporálních projektů, což znamená, že jeho dostupná velikost dosahuje několika miliard slov.
Korpus | Jazyky | Přístup | Stránky | Velikost | Zařízení |
---|---|---|---|---|---|
COW: Zdarma, velké webové korpusy v evropských jazycích | Angličtina, francouzština, němčina, španělština, švédština, holandština | zdarma, po registraci je možný zkušební přístup bez registrace | [1] | 30 miliard slov | Formát KWIC, morfologické značení, vyhledávání CQP, značení a vyhledávání podle data, URL, země, města atd. |
Skica Engine | Angličtina, francouzština, němčina, italština, arabština, ruština, španělština, portugalština, korejština, japonština, čínština + další jazyky jsou k dispozici za příplatek | Placený přístup, zkušební přístup je možný po registraci | [2] | 86 miliard slov | konkordance, skica gramatiky, tezaurus, KWIC, morfologické značení, CQP vyhledávání |
Aranea Corpora | Angličtina, ruština, finština, francouzština, němčina, maďarština, španělština, italština, holandština, polština, slovenština | Zdarma, po registraci je možný zkušební přístup bez registrace | [3] | 14 miliard slov | noSketch Engine, konkordance, náčrtová gramatika, tezaurus, KWIC, morfologické značení, CQP vyhledávání, srovnatelné výsledky dotazů v různých jazycích |
GICR (General Internet Corpus of Russian) | ruština | Zdarma, registrace na vyžádání | [4] | 20 miliard slov | konkordance, tezaurus, KWIC, morfologické značení, CQP vyhledávání, značení a vyhledávání podle data, země, města, internetového segmentu, pohlaví, roku a místa narození autora, „dotazovací pošty“ pro uživatele. |
GloWbE (Corpus of Global Web-Based English) | Angličtina, specifikace pro 20 zemí | Žádná registrace | [5] | 1,9 miliardy slov | KWIC, konkordance, kolokace, výsledky srovnatelné podle dialektů, CQP vyhledávání, korpus lze stáhnout |
Přístup
V současné době je rozhraní GICR ve fázi beta, takže přístup k vyhledávání v korpusech je poskytován a je zdarma, ale je k dispozici výzkumným pracovníkům na vyžádání.[6]
Viz také
Reference
- ^ Automatická klasifikace webových textů pomocí funkčních rozměrů textu
- ^ http://www.webcorpora.ru/en/collective
- ^ http://www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
- ^ : //www.webcorpora.ru/%D0%BE-%D0%BA%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%B5
- ^ Příspěvek v blogu: https://vk.com/wall-89094852_220
- ^ http://www.webcorpora.ru/contacts
Další čtení
- Belikov V., Kopylov N., Piperski A., Selegey V., Sharoff S., (2013), Velký a rozmanitý je krásný: Velký korpus ruštiny ke studiu jazykových variací. Na webu jako Workshop Corpus (WAC-8).
- Lagutin M. B., Katinskaya A. Y., Selegey V. P., Sharoff S., Sorokin A. A. (2015) Automatic Classification of Web Texts using Functional Text Dimensions. In Dialogue, Russian International Conference on Computational Linguistics, Bekasovo
- Katinskaya A., Sharoff S. (2015) Aplikování vícerozměrné analýzy na ruský Webcorpus: Hledání důkazů žánrů, v Proc. Workshopu o zpracování baltoslovanského přirozeného jazyka spojeného s mezinárodní konferencí RANLP, Hissar, Bulharsko.