Seznam textových korpusů - List of text corpora
Následuje a seznam textových korpusů v různých jazycích. „Textové korpusy“ je množné číslo „textový korpus ". Textový korpus je velká a strukturovaná sada textů (dnes se obvykle elektronicky ukládají a zpracovávají). Textové korpusy se používají ke statistickým analýzám a testování hypotéz, ke kontrole výskytů nebo k ověření jazykových pravidel na území konkrétního jazyka. Pro komplexnější informace seznam textových korpusů, viz https://linguistlist.org/sp/GetWRListings.cfm?wrtypeid=1
anglický jazyk
- Americký národní korpus
- Bank of English
- Britský národní korpus
- Bergen Corpus of London Teenage Language (COLT)
- Hnědý korpus, tvořící součást "hnědé rodiny" korpusů, spolu s LOB „Zamrač se a F-LOB
- Korpus současné americké angličtiny (COCA) 425 milionů slov, 1990–2011. Zdarma prohledávatelné online
- Corpus Resource Database (CoRD), více než 80 korpusů v anglickém jazyce.[1]
- GUM korpus, open source Georgetown University Vícevrstvý korpus s velmi mnoha anotačními vrstvami
- Korpus Google Books Ngram[2][3]
- Mezinárodní korpus angličtiny
- Oxford English Corpus
- RE3D (datová sada pro vyhodnocení vztahů a extrakcí entit)
- Corpus Santa Barbara of Spoken American English
- Skotský korpus textů a řeči
Evropské jazyky
- CETENFolha
- Korpus elektronických textů
- Corpus Inscriptionum Insularum Celticarum (CIIC), pokrývající Primitivní irština nápisy v Ogham
- Korpus Google Books Ngram
- Korpus gruzínského jazyka
- Tezaurus Linguae Graecae (Starořečtina)
- Východní arménský národní korpus (EANC) 110 milionů slov. Zdarma prohledávatelné online.
- Španělský textový korpus Molino de Ideas, který obsahuje 660 milionů slov.[4]
- CorALit: Korpus akademických litevských akademických textů publikovaných v letech 1999–2009 (přibližně 9 milionů slov). Sestaveno na litevské univerzitě ve Vilniusu[5]
- Referenční korpus současné portugalštiny (CRPC)
- Turecký národní korpus[6]
- CoRoLa - Referenční korpus současného rumunského jazyka (Corpus reprezentativ al limbii române contemporane)
- TS Corpus - Velká sada tureckých korpusů. TS Corpus je bezplatný a nezávislý projekt, jehož cílem je budování tureckých korpusů, nástrojů NLP a jazykových datových sad ...
- MacMorpho - anotovaný korpus brazilského portugalského textu
slovanský
Východoslovanský
- Běloruský N-korpus
- Ruský národní korpus
- Obecný internetový korpus ruštiny
- Obecně regionálně anotovaný korpus ukrajinštiny
- Korpus ukrajinského jazyka
- Araneum Russicum
- Ruský korpus životopisných textů[7]
- RuTweetCorp[8]
- RusAge: Korpus pro klasifikaci textu podle věku
Jihoslovanský
- Bulharský národní korpus[9]
- Korpus v chorvatském jazyce
- Chorvatský národní korpus
- Slovinský národní korpus
Západoslovanský
Němec
- Německý referenční korpus (DeReKo) Více než 4 miliardy slov současné psané němčiny.
- Zdarma korpus německých chyb od lidí s dyslexií
Středovýchodní jazyky
- Corpus Inscriptionum Semiticarum
- Kanaanäische und Aramäische Inschriften
- Hamshahri Corpus (Peršan )
- Perština v korpusu MULTEXT-EAST (Peršan)[11]
- Amarna dopisy, (pro Akkadština, Egyptský, Sumerogram atd.)
- TEP: Teheránský anglicko-perský paralelní korpus[12]
- TMC: Teheránský jednojazyčný korpus, Standardní korpus pro modelování v perském jazyce[12]
- Persian Today Corpus: Nejčastější slova dnešního perštiny, založená na korpusu s jedním slovem (v perštině: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz), Hamid Hassani Teherán, Íránský jazykový institut (ILI), 2005, 322 stran. ISBN 964-8699-32-1
- Kurdský korpus.uok.ac.ir (Kurdish-corpus Sorani dialect) University of Kurdistan, Department of English Language and Linguistics
- Bijankhan Corpus Současný perský korpus pro výzkumy NLP, Teheránská univerzita, 2012
- Projekt neoasyrského textového korpusu
- Koránský arabský korpus (Klasická arabština)
- Elektronický textový korpus sumerské literatury
- Otevřete bohatě anotovaný klínový korpus
- Korpus textu Asosoft[13]
Devanagari
- Nepálský textový korpus (Více než 90 milionů slov / 6,5 milionu vět)
Východoasijské jazyky
- Korpus japonského jazyka Kotonoha[14]
- Synchronní korpus LIVAC (Čínština)
Jihoasijské jazyky
- SinMin datová sada[15] (Sinhálština )
Souběžné korpusy různých jazyků
- Europarl Corpus - jednání Evropského parlamentu z let 1996–201
- Korpus EUR-Lex - sbírka všech úředních jazyků Evropské unie vytvořená z databáze EUR-Lex[16]
- OPUS: Open source Parallel Corpus v mnoha mnoha jazycích[17]
- Tatoeba Souběžný korpus, který obsahuje více než 8,9 milionu vět ve více jazycích; 107 jazyků má každý více než 1 000 vět; dalších 81 jazyků má od 100 do 1 000 vět.[18]
- Vícejazyčný korpus NTU v 7 jazycích (ara, eng, ind, jpn, kor, mcn, vie)[19] (starší repo )
- Sazenice corpus - Semenový korpus pro projekt lidského jazyka s více než 1000 jazyky z různých zdrojů.[20]
- GRALIS paralelní texty pro různé slovanské jazyky, sestavené Ústavem pro slovanské jazyky na univerzitě v Grazu (Branko Tošović a kol.)
- ACTRES Parallel Corpus (P-ACTRES 2.0) je obousměrný anglicko-španělský korpus skládající se z originálních textů v jednom jazyce a jejich překladu do druhého. P-ACTRES 2.0 obsahuje více než 6 milionů slov s ohledem na oba směry dohromady.[21]
- Vícejazyčný paralelní korpus JRC-Acquis celkového těla Evropská unie (EU) právo: Acquis Communautaire s 231 jazykovými páry.[22]
- Řízení v Evropském parlamentu Parallel Corpus 1996-2011
- Projekt Opus si klade za cíl shromáždit volně dostupné paralelní korpusy
- Japonsko-anglický dvojjazyčný korpus článků z Kjóta z Wikipedie
- COMPARA - portugalské / anglické paralelní korpusy
- TERMSEARCH - anglické / ruské / francouzské paralelní korpusy (hlavní mezinárodní smlouvy, úmluvy, dohody atd.
- TradooIT - angličtina / francouzština / španělština - online nástroje zdarma
- Nunavut Hansard - anglický / inuktitutský paralelní korpus
- ParaSol - paralelní korpus slovanských a jiných jazyků
- Glosbe: Vícejazyčné paralelní korpusy s online vyhledávacím rozhraním
- InterCorp: Vícejazyčný paralelní korpus 20+ jazyků sladěných s češtinou, online vyhledávací rozhraní
- myCAT - Olanto, harmonikář (open source AGPL) s online vyhledáváním v korpusu JCR a UNO
- TAUS s online vyhledávacím rozhraním.
- linguatools vícejazyčné paralelní korpusy, online vyhledávací rozhraní.
- EUR-Lex Corpus - korpus vybudované z EUR-Lex databáze se skládá z Právo Evropské unie a další veřejné dokumenty Evropská unie
- Language Grid - Vícejazyčná servisní platforma, která zahrnuje paralelní textové služby
Srovnatelné korpusy
- WaCky - Yinitiativní web Web-As-Corpus Kool jako Corpus (eng, fre, deu, ita)
- Disambiguating Similar Language Corpora Collection (DSLCC)[23] (Bosenština, chorvatština, srbština, indonéština, malajština, čeština, slovenština, brazilská portugalština, evropská portugalština, poloostrovní španělština, argentinská španělština)
- Wikipedia Srovnatelné korpusy (41 milionů zarovnaných článků na Wikipedii pro 253 jazykových párů)
- Rodina TenTen Corpus - srovnatelné webové korpusy cílové velikosti 10 miliard slov. Tyto korpusy jsou k dispozici v systému správy korpusu Skica Engine, v současné době existují korporace TenTen pro více než 30 jazyků (například anglický korpus TenTen,[24] Arabský TenTen korpus,[25] Španělský korpus TenTen,[26] Ruský stanový korpus,[27][28]). Přehled stávajících korpusů TenTen najdete na https://www.sketchengine.co.uk/documentation/tenten-corpora/
- Časové razítko JSI webové korpusy - webové korpusy zpravodajských článků procházených ze seznamu RSS kanálů. Korpusy zpravodajských kanálů se připravují v rámci projektu realizovaného Institut Jožefa Stefana ve slovinském vědeckovýzkumném ústavu.[29] a publikováno ve Sketch Engine. Více informací o projektu je na webové stránky projektu.
L2 korpusy
- Cambridge Learner Corpus[30]
- Korpus akademické psané a mluvené angličtiny (CAWSE),[31] sbírka ukázek anglického jazyka čínských studentů v akademickém prostředí. Zdarma ke stažení online.
- Angličtina jako Lingua Franca v akademickém prostředí (ELFA),[32] akademický korpus ELF.[33][34]
- International Corpus of Learner English (ICLE),[35] korpus studenta psaný anglicky.
- Louvain International Database of Spoken English Interlanguage (LINDSEI),[36] korpus studenta mluvený anglicky.
- Trinity Lancaster Corpus, jeden z největších korpusů L2 mluvené angličtiny.[37][38]
- Corpus University of Pittsburgh English Language Institute (PELIC)[39]
- Vídeň-Oxfordský mezinárodní korpus angličtiny (VOICE),[40] korpus ELF.[33]
Reference
- ^ „Corpus Resource Database (CoRD)“. Katedra angličtiny, University of Helsinki.
- ^ Profesor Mark Davies z BYU vytvořil online nástroj pro vyhledávání korpusu anglického jazyka Google, čerpaného z Knih Google, na adrese http://googlebooks.byu.edu/x.asp.
- ^ "PhraseFinder". Vyhledávač pro Google Books Ngram Corpus, který podporuje dotazy se zástupnými znaky a nabízí API.
- ^ (ve španělštině) "Molinolabs - korpus". molinolabs.com. Citováno 12. ledna 2014.
- ^ „CorALit - CorALit - Lietuvių mokslo kalbos tekstynas“. coralit.lt. Citováno 12. ledna 2014.
- ^ „Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage“. tnc.org.tr. Citováno 12. ledna 2014.
- ^ Glazkova, A (2018). "Automatické vyhledávání fragmentů obsahujících biografické informace v textu v přirozeném jazyce". Sborník Ústavu pro systémové programování RAS. 30 (6): 221–236. doi:10.15514 / ISPRAS-2018-30 (6) -12.
- ^ Rubtsova, Yu (2015). „Konstrukce korpusu pro výcvik klasifikace sentimentu“. Software a systémy. 1: 72–78. doi:10.15827 / 0236-235X.109.072-078.
- ^ „Probíhá aktualizace“. hledat.dcl.bas.bg. Citováno 12. ledna 2014.
- ^ "Portál | Český národní korpus".
- ^ Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). „Dostupné od CLARIN“. http://nl.ijs.si/me/v4/. Externí odkaz v
| deník =
(Pomoc) - ^ A b „University of Tehran NLP Lab“. ece.ut.ac.ir. Archivovány od originál dne 28. ledna 2014. Citováno 12. ledna 2014.
- ^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Směrem ke zpracování kurdského jazyka: Experimenty se shromažďováním a zpracováním textového korpusu AsoSoft, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074
- ^ „KOTONOHA「 現代 日本語 書 き 言葉 均衡 コ ー パ ス 」少 納 言“. kotonoha.gr.jp. Citováno 12. ledna 2014.
- ^ D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva a G. Dias. 2015. Implementace korpusu pro jazyk Sinhala. Na sympoziu o jazykových technologiích pro jižní Asii.
- ^ „EUR-Lex Corpus“. sketchengine.co.uk. Citováno 27. října 2016.
- ^ „OPUS - open source paralelní korpus“. opus.lingfil.uu.se. Citováno 12. ledna 2014.
- ^ „Tatoeba - počet vět na jazyk“. tatoeba.org. Citováno 23. listopadu 2020.
- ^ Liling Tan a Francis Bond (14. května 2012). „Vytváření a anotace jazykově rozmanitého NTU-MC (NTU - Multilingual Corpus)“ (PDF). International Journal of Asian Language Processing. 22 (4): 161–174. Archivovány od originál (PDF) dne 16. ledna 2014. Citováno 12. ledna 2014.
- ^ Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer a Michaela Regneri. 2014. SeedLing: Budování a používání seed korpusu pro projekt Human Language. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.
- ^ H. Sanjurjo-González a M. Izquierdo. 2019. P-ACTRES 2.0: Paralelní korpus pro mezijazykový výzkum. In Parallel Corpora for Contrastive and Translation Studies: New resources and applications (pp. 215-231). Nakladatelství John Benjamins.
- ^ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006). JRC-Acquis: Vícejazyčný zarovnaný paralelní korpus s více než 20 jazyky. Sborník z 5. mezinárodní konference o jazykových zdrojích a hodnocení (LREC'2006). Janov, Itálie, 24. – 26. Května 2006.
- ^ Liling Tan, Marcos Zampieri, Nikola Ljubešic a Jörg Tiedemann. Sloučení srovnatelných zdrojů dat pro diskriminaci podobných jazyků: Sbírka korpusů DSL. Ve sborníku ze 7. workshopu o budování a používání srovnatelných korpusů (BUCC). 2014.
- ^ Kilgarriff, Adam (2012). „Seznámení s vaším korpusem“. Text, řeč a dialog. Přednášky z informatiky. 7499. s. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.
- ^ Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: nový, rozsáhlý korpus pro arabštinu. Sborník WACL.
- ^ Kilgarriff, A., & Renau, I. (2013). esTenTen, rozsáhlý webový korpus poloostrovní a americké španělštiny. Procedurálně-sociální a behaviorální vědy, 95, 12-19.
- ^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. v Материалы научной конференции "Интернет и современное общество" (str. 74-77).
- ^ Khokhlova, M. (2016). Srovnání vysokofrekvenčních podstatných jmen z pohledu velkých korpusů. RASLAN 2016 Nedávné pokroky ve slovanském zpracování přirozeného jazyka, 9.
- ^ Trampuš, M., & Novak, B. (2012, říjen). Interní stránky agregovaného zdroje webových zpráv. v Sborník příspěvků z patnácté mezinárodní konference o informační vědě IS SiKDD 2012 (str. 431-434)
- ^ „Cambridge English Corpus“, Wikipedia, 2019-09-27, vyvoláno 2020-01-07
- ^ „CAWSE Corpus - The University of Nottingham Ningbo China - 宁波 诺丁汉 大学“. nottingham.edu.cn. Citováno 2020-01-07.
- ^ „Angličtina jako Lingua Franca v akademickém prostředí“. University of Helsinki. 2018-03-23. Citováno 2020-01-07.
- ^ A b „Angličtina jako lingua franca“, Wikipedia, 2019-12-14, vyvoláno 2020-01-07
- ^ Mauranen, A (2010). „Angličtina jako akademická lingua franca: projekt ELFA“. Angličtina pro specifické účely. 29 (3): 183–190. doi:10.1016 / j.esp.2009.10.001.
- ^ „ICLE“. UCLouvain. Citováno 2020-01-07.
- ^ „LINDSEI“. UCLouvain (francouzsky). Citováno 2020-01-07.
- ^ „Trinity Lancaster Corpus | Centrum ESRC pro korpusové přístupy k sociálním vědám (CASS)“. Citováno 2020-01-07.
- ^ Gablasova, D (2019). „The Trinity Lancaster Corpus: Development, Description and Application“. International Journal of Learner Corpus Research. 5 (2): 126–158. doi:10.1075 / ijlcr.19001.gab.
- ^ Juffs, A., Han, N-R., & Naismith, B. (2020). Korpus anglického jazyka University of Pittsburgh (PELIC) [soubor dat]. http://doi.org/10.5281/zenodo.3991977
- ^ "Projekt". univie.ac.at. Citováno 2020-01-07.