Seznam textových korpusů - List of text corpora

Následuje a seznam textových korpusů v různých jazycích. „Textové korpusy“ je množné číslo „textový korpus ". Textový korpus je velká a strukturovaná sada textů (dnes se obvykle elektronicky ukládají a zpracovávají). Textové korpusy se používají ke statistickým analýzám a testování hypotéz, ke kontrole výskytů nebo k ověření jazykových pravidel na území konkrétního jazyka. Pro komplexnější informace seznam textových korpusů, viz https://linguistlist.org/sp/GetWRListings.cfm?wrtypeid=1

anglický jazyk

Americký národní korpus
Bank of English
Britský národní korpus
Bergen Corpus of London Teenage Language (COLT)
Hnědý korpus, tvořící součást "hnědé rodiny" korpusů, spolu s LOB „Zamrač se a F-LOB
Korpus současné americké angličtiny (COCA) 425 milionů slov, 1990–2011. Zdarma prohledávatelné online
Corpus Resource Database (CoRD), více než 80 korpusů v anglickém jazyce.^[1]
GUM korpus, open source Georgetown University Vícevrstvý korpus s velmi mnoha anotačními vrstvami
Korpus Google Books Ngram^[2]^[3]
Mezinárodní korpus angličtiny
Oxford English Corpus
RE3D (datová sada pro vyhodnocení vztahů a extrakcí entit)
Corpus Santa Barbara of Spoken American English
Skotský korpus textů a řeči

Evropské jazyky

CETENFolha
Korpus elektronických textů
Corpus Inscriptionum Insularum Celticarum (CIIC), pokrývající Primitivní irština nápisy v Ogham
Korpus Google Books Ngram
Korpus gruzínského jazyka
Tezaurus Linguae Graecae (Starořečtina)
Východní arménský národní korpus (EANC) 110 milionů slov. Zdarma prohledávatelné online.
Španělský textový korpus Molino de Ideas, který obsahuje 660 milionů slov.^[4]
CorALit: Korpus akademických litevských akademických textů publikovaných v letech 1999–2009 (přibližně 9 milionů slov). Sestaveno na litevské univerzitě ve Vilniusu^[5]
Referenční korpus současné portugalštiny (CRPC)
Turecký národní korpus^[6]
CoRoLa - Referenční korpus současného rumunského jazyka (Corpus reprezentativ al limbii române contemporane)
TS Corpus - Velká sada tureckých korpusů. TS Corpus je bezplatný a nezávislý projekt, jehož cílem je budování tureckých korpusů, nástrojů NLP a jazykových datových sad ...
MacMorpho - anotovaný korpus brazilského portugalského textu

slovanský

Východoslovanský

Jihoslovanský

Západoslovanský

Němec

Německý referenční korpus (DeReKo) Více než 4 miliardy slov současné psané němčiny.
Zdarma korpus německých chyb od lidí s dyslexií

Středovýchodní jazyky

Corpus Inscriptionum Semiticarum
Kanaanäische und Aramäische Inschriften
Hamshahri Corpus (Peršan )
Perština v korpusu MULTEXT-EAST (Peršan)^[11]
Amarna dopisy, (pro Akkadština, Egyptský, Sumerogram atd.)
TEP: Teheránský anglicko-perský paralelní korpus^[12]
TMC: Teheránský jednojazyčný korpus, Standardní korpus pro modelování v perském jazyce^[12]
Persian Today Corpus: Nejčastější slova dnešního perštiny, založená na korpusu s jedním slovem (v perštině: Vāže-hā-ye Porkārbord-e Fārsi-ye Emrūz), Hamid Hassani Teherán, Íránský jazykový institut (ILI), 2005, 322 stran. ISBN 964-8699-32-1
Kurdský korpus.uok.ac.ir (Kurdish-corpus Sorani dialect) University of Kurdistan, Department of English Language and Linguistics
Bijankhan Corpus Současný perský korpus pro výzkumy NLP, Teheránská univerzita, 2012
Projekt neoasyrského textového korpusu
Koránský arabský korpus (Klasická arabština)
Elektronický textový korpus sumerské literatury
Otevřete bohatě anotovaný klínový korpus
Korpus textu Asosoft^[13]

Devanagari

Nepálský textový korpus (Více než 90 milionů slov / 6,5 milionu vět)

Východoasijské jazyky

Korpus japonského jazyka Kotonoha^[14]
Synchronní korpus LIVAC (Čínština)

Jihoasijské jazyky

SinMin datová sada^[15] (Sinhálština )

Souběžné korpusy různých jazyků

Europarl Corpus - jednání Evropského parlamentu z let 1996–201

Korpus EUR-Lex - sbírka všech úředních jazyků Evropské unie vytvořená z databáze EUR-Lex^[16]
OPUS: Open source Parallel Corpus v mnoha mnoha jazycích^[17]

Tatoeba Souběžný korpus, který obsahuje více než 8,9 milionu vět ve více jazycích; 107 jazyků má každý více než 1 000 vět; dalších 81 jazyků má od 100 do 1 000 vět.^[18]

Vícejazyčný korpus NTU v 7 jazycích (ara, eng, ind, jpn, kor, mcn, vie)^[19] (starší repo )

Sazenice corpus - Semenový korpus pro projekt lidského jazyka s více než 1000 jazyky z různých zdrojů.^[20]

GRALIS paralelní texty pro různé slovanské jazyky, sestavené Ústavem pro slovanské jazyky na univerzitě v Grazu (Branko Tošović a kol.)

ACTRES Parallel Corpus (P-ACTRES 2.0) je obousměrný anglicko-španělský korpus skládající se z originálních textů v jednom jazyce a jejich překladu do druhého. P-ACTRES 2.0 obsahuje více než 6 milionů slov s ohledem na oba směry dohromady.^[21]

Vícejazyčný paralelní korpus JRC-Acquis celkového těla Evropská unie (EU) právo: Acquis Communautaire s 231 jazykovými páry.^[22]
Řízení v Evropském parlamentu Parallel Corpus 1996-2011
Projekt Opus si klade za cíl shromáždit volně dostupné paralelní korpusy
Japonsko-anglický dvojjazyčný korpus článků z Kjóta z Wikipedie
COMPARA - portugalské / anglické paralelní korpusy
TERMSEARCH - anglické / ruské / francouzské paralelní korpusy (hlavní mezinárodní smlouvy, úmluvy, dohody atd.
TradooIT - angličtina / francouzština / španělština - online nástroje zdarma
Nunavut Hansard - anglický / inuktitutský paralelní korpus
ParaSol - paralelní korpus slovanských a jiných jazyků
Glosbe: Vícejazyčné paralelní korpusy s online vyhledávacím rozhraním
InterCorp: Vícejazyčný paralelní korpus 20+ jazyků sladěných s češtinou, online vyhledávací rozhraní
myCAT - Olanto, harmonikář (open source AGPL) s online vyhledáváním v korpusu JCR a UNO
TAUS s online vyhledávacím rozhraním.
linguatools vícejazyčné paralelní korpusy, online vyhledávací rozhraní.
EUR-Lex Corpus - korpus vybudované z EUR-Lex databáze se skládá z Právo Evropské unie a další veřejné dokumenty Evropská unie
Language Grid - Vícejazyčná servisní platforma, která zahrnuje paralelní textové služby

Srovnatelné korpusy

WaCky - Yinitiativní web Web-As-Corpus Kool jako Corpus (eng, fre, deu, ita)
Disambiguating Similar Language Corpora Collection (DSLCC)^[23] (Bosenština, chorvatština, srbština, indonéština, malajština, čeština, slovenština, brazilská portugalština, evropská portugalština, poloostrovní španělština, argentinská španělština)
Wikipedia Srovnatelné korpusy (41 milionů zarovnaných článků na Wikipedii pro 253 jazykových párů)
Rodina TenTen Corpus - srovnatelné webové korpusy cílové velikosti 10 miliard slov. Tyto korpusy jsou k dispozici v systému správy korpusu Skica Engine, v současné době existují korporace TenTen pro více než 30 jazyků (například anglický korpus TenTen,^[24] Arabský TenTen korpus,^[25] Španělský korpus TenTen,^[26] Ruský stanový korpus,^[27]^[28]). Přehled stávajících korpusů TenTen najdete na https://www.sketchengine.co.uk/documentation/tenten-corpora/
Časové razítko JSI webové korpusy - webové korpusy zpravodajských článků procházených ze seznamu RSS kanálů. Korpusy zpravodajských kanálů se připravují v rámci projektu realizovaného Institut Jožefa Stefana ve slovinském vědeckovýzkumném ústavu.^[29] a publikováno ve Sketch Engine. Více informací o projektu je na webové stránky projektu.

L2 korpusy

Cambridge Learner Corpus^[30]
Korpus akademické psané a mluvené angličtiny (CAWSE),^[31] sbírka ukázek anglického jazyka čínských studentů v akademickém prostředí. Zdarma ke stažení online.
Angličtina jako Lingua Franca v akademickém prostředí (ELFA),^[32] akademický korpus ELF.^[33]^[34]
International Corpus of Learner English (ICLE),^[35] korpus studenta psaný anglicky.
Louvain International Database of Spoken English Interlanguage (LINDSEI),^[36] korpus studenta mluvený anglicky.
Trinity Lancaster Corpus, jeden z největších korpusů L2 mluvené angličtiny.^[37]^[38]
Corpus University of Pittsburgh English Language Institute (PELIC)^[39]
Vídeň-Oxfordský mezinárodní korpus angličtiny (VOICE),^[40] korpus ELF.^[33]

Reference

^ „Corpus Resource Database (CoRD)“. Katedra angličtiny, University of Helsinki.
^ Profesor Mark Davies z BYU vytvořil online nástroj pro vyhledávání korpusu anglického jazyka Google, čerpaného z Knih Google, na adrese http://googlebooks.byu.edu/x.asp.
^ "PhraseFinder". Vyhledávač pro Google Books Ngram Corpus, který podporuje dotazy se zástupnými znaky a nabízí API.
^ (ve španělštině) "Molinolabs - korpus". molinolabs.com. Citováno 12. ledna 2014.
^ „CorALit - CorALit - Lietuvių mokslo kalbos tekstynas“. coralit.lt. Citováno 12. ledna 2014.
^ „Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage“. tnc.org.tr. Citováno 12. ledna 2014.
^ Glazkova, A (2018). "Automatické vyhledávání fragmentů obsahujících biografické informace v textu v přirozeném jazyce". Sborník Ústavu pro systémové programování RAS. 30 (6): 221–236. doi:10.15514 / ISPRAS-2018-30 (6) -12.
^ Rubtsova, Yu (2015). „Konstrukce korpusu pro výcvik klasifikace sentimentu“. Software a systémy. 1: 72–78. doi:10.15827 / 0236-235X.109.072-078.
^ „Probíhá aktualizace“. hledat.dcl.bas.bg. Citováno 12. ledna 2014.
^ "Portál | Český národní korpus".
^ Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). „Dostupné od CLARIN“. http://nl.ijs.si/me/v4/. Externí odkaz v | deník = (Pomoc)
^ ^A ^b „University of Tehran NLP Lab“. ece.ut.ac.ir. Archivovány od originál dne 28. ledna 2014. Citováno 12. ledna 2014.
^ Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Směrem ke zpracování kurdského jazyka: Experimenty se shromažďováním a zpracováním textového korpusu AsoSoft, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074
^ „KOTONOHA「現代日本語書き言葉均衡コーパス」少納言“. kotonoha.gr.jp. Citováno 12. ledna 2014.
^ D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva a G. Dias. 2015. Implementace korpusu pro jazyk Sinhala. Na sympoziu o jazykových technologiích pro jižní Asii.
^ „EUR-Lex Corpus“. sketchengine.co.uk. Citováno 27. října 2016.
^ „OPUS - open source paralelní korpus“. opus.lingfil.uu.se. Citováno 12. ledna 2014.
^ „Tatoeba - počet vět na jazyk“. tatoeba.org. Citováno 23. listopadu 2020.
^ Liling Tan a Francis Bond (14. května 2012). „Vytváření a anotace jazykově rozmanitého NTU-MC (NTU - Multilingual Corpus)“ (PDF). International Journal of Asian Language Processing. 22 (4): 161–174. Archivovány od originál (PDF) dne 16. ledna 2014. Citováno 12. ledna 2014.
^ Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer a Michaela Regneri. 2014. SeedLing: Budování a používání seed korpusu pro projekt Human Language. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.
^ H. Sanjurjo-González a M. Izquierdo. 2019. P-ACTRES 2.0: Paralelní korpus pro mezijazykový výzkum. In Parallel Corpora for Contrastive and Translation Studies: New resources and applications (pp. 215-231). Nakladatelství John Benjamins.
^ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006). JRC-Acquis: Vícejazyčný zarovnaný paralelní korpus s více než 20 jazyky. Sborník z 5. mezinárodní konference o jazykových zdrojích a hodnocení (LREC'2006). Janov, Itálie, 24. – 26. Května 2006.
^ Liling Tan, Marcos Zampieri, Nikola Ljubešic a Jörg Tiedemann. Sloučení srovnatelných zdrojů dat pro diskriminaci podobných jazyků: Sbírka korpusů DSL. Ve sborníku ze 7. workshopu o budování a používání srovnatelných korpusů (BUCC). 2014.
^ Kilgarriff, Adam (2012). „Seznámení s vaším korpusem“. Text, řeč a dialog. Přednášky z informatiky. 7499. s. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.
^ Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: nový, rozsáhlý korpus pro arabštinu. Sborník WACL.
^ Kilgarriff, A., & Renau, I. (2013). esTenTen, rozsáhlý webový korpus poloostrovní a americké španělštiny. Procedurálně-sociální a behaviorální vědy, 95, 12-19.
^ Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. v Материалы научной конференции "Интернет и современное общество" (str. 74-77).
^ Khokhlova, M. (2016). Srovnání vysokofrekvenčních podstatných jmen z pohledu velkých korpusů. RASLAN 2016 Nedávné pokroky ve slovanském zpracování přirozeného jazyka, 9.
^ Trampuš, M., & Novak, B. (2012, říjen). Interní stránky agregovaného zdroje webových zpráv. v Sborník příspěvků z patnácté mezinárodní konference o informační vědě IS SiKDD 2012 (str. 431-434)
^ „Cambridge English Corpus“, Wikipedia, 2019-09-27, vyvoláno 2020-01-07
^ „CAWSE Corpus - The University of Nottingham Ningbo China - 宁波诺丁汉大学“. nottingham.edu.cn. Citováno 2020-01-07.
^ „Angličtina jako Lingua Franca v akademickém prostředí“. University of Helsinki. 2018-03-23. Citováno 2020-01-07.
^ ^A ^b „Angličtina jako lingua franca“, Wikipedia, 2019-12-14, vyvoláno 2020-01-07
^ Mauranen, A (2010). „Angličtina jako akademická lingua franca: projekt ELFA“. Angličtina pro specifické účely. 29 (3): 183–190. doi:10.1016 / j.esp.2009.10.001.
^ „ICLE“. UCLouvain. Citováno 2020-01-07.
^ „LINDSEI“. UCLouvain (francouzsky). Citováno 2020-01-07.
^ „Trinity Lancaster Corpus | Centrum ESRC pro korpusové přístupy k sociálním vědám (CASS)“. Citováno 2020-01-07.
^ Gablasova, D (2019). „The Trinity Lancaster Corpus: Development, Description and Application“. International Journal of Learner Corpus Research. 5 (2): 126–158. doi:10.1075 / ijlcr.19001.gab.
^ Juffs, A., Han, N-R., & Naismith, B. (2020). Korpus anglického jazyka University of Pittsburgh (PELIC) [soubor dat]. http://doi.org/10.5281/zenodo.3991977
^ "Projekt". univie.ac.at. Citováno 2020-01-07.

[1] „Corpus Resource Database (CoRD)“. Katedra angličtiny, University of Helsinki.

[2] Profesor Mark Davies z BYU vytvořil online nástroj pro vyhledávání korpusu anglického jazyka Google, čerpaného z Knih Google, na adrese http://googlebooks.byu.edu/x.asp.

[3] "PhraseFinder". Vyhledávač pro Google Books Ngram Corpus, který podporuje dotazy se zástupnými znaky a nabízí API.

[molinolabs-4] (ve španělštině) "Molinolabs - korpus". molinolabs.com. Citováno 12. ledna 2014.

[coralit-5] „CorALit - CorALit - Lietuvių mokslo kalbos tekstynas“. coralit.lt. Citováno 12. ledna 2014.

[tnc.o-6] „Turkish National Corpus - Türkçe Ulusal Derlemi - Homepage“. tnc.org.tr. Citováno 12. ledna 2014.

[7] Glazkova, A (2018). "Automatické vyhledávání fragmentů obsahujících biografické informace v textu v přirozeném jazyce". Sborník Ústavu pro systémové programování RAS. 30 (6): 221–236. doi:10.15514 / ISPRAS-2018-30 (6) -12.

[8] Rubtsova, Yu (2015). „Konstrukce korpusu pro výcvik klasifikace sentimentu“. Software a systémy. 1: 72–78. doi:10.15827 / 0236-235X.109.072-078.

[search-9] „Probíhá aktualizace“. hledat.dcl.bas.bg. Citováno 12. ledna 2014.

[10] "Portál | Český národní korpus".

[11] Zdravkova, Katrina; Tufiş, Dan; Simov, Kiril; Radziszewski, Adam; Qasemizadeh, Behrang; Priest-Dorman, Greg; Petkevič, Vladimír; Oravecz, Csaba; Krstev, Cvetana; Kotsyba, Natalia; Kaalep, Heiki-Jaan; Ide, Nancy; Garabík, Radovan; Dimitrova, Ludmila; Derzhanski, Ivan; Barbu, Ana-Maria; Erjavec, Tomaž (2010-05-14). „Dostupné od CLARIN“. http://nl.ijs.si/me/v4/. Externí odkaz v | deník = (Pomoc)

[ut-12] A ^b „University of Tehran NLP Lab“. ece.ut.ac.ir. Archivovány od originál dne 28. ledna 2014. Citováno 12. ledna 2014.

[13] Hadi Veisi, Mohammad MohammadAmini, Hawre Hosseini; Směrem ke zpracování kurdského jazyka: Experimenty se shromažďováním a zpracováním textového korpusu AsoSoft, Digital Scholarship in the Humanities, fqy074, https://doi.org/10.1093/llc/fqy074

[kotonoha-14] „KOTONOHA「現代日本語書き言葉均衡コーパス」少納言“. kotonoha.gr.jp. Citováno 12. ledna 2014.

[15] D. Upeksha, C. Wijayarathna, M. Siriwardena, L. Lasandun, C. Wimalasuriya, N. de Silva a G. Dias. 2015. Implementace korpusu pro jazyk Sinhala. Na sympoziu o jazykových technologiích pro jižní Asii.

[sketchengine-16] „EUR-Lex Corpus“. sketchengine.co.uk. Citováno 27. října 2016.

[lingfil-17] „OPUS - open source paralelní korpus“. opus.lingfil.uu.se. Citováno 12. ledna 2014.

[TatoebaSentences-18] „Tatoeba - počet vět na jazyk“. tatoeba.org. Citováno 23. listopadu 2020.

[19] Liling Tan a Francis Bond (14. května 2012). „Vytváření a anotace jazykově rozmanitého NTU-MC (NTU - Multilingual Corpus)“ (PDF). International Journal of Asian Language Processing. 22 (4): 161–174. Archivovány od originál (PDF) dne 16. ledna 2014. Citováno 12. ledna 2014.

[20] Guy Emerson, Liling Tan, Susanne Fertmann, Alexis Palmer a Michaela Regneri. 2014. SeedLing: Budování a používání seed korpusu pro projekt Human Language. In Proceedings of the use of Computational methods in the study of Endangered Languages (ComputEL) Workshop. Baltimore, USA.

[21] H. Sanjurjo-González a M. Izquierdo. 2019. P-ACTRES 2.0: Paralelní korpus pro mezijazykový výzkum. In Parallel Corpora for Contrastive and Translation Studies: New resources and applications (pp. 215-231). Nakladatelství John Benjamins.

[22] Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006). JRC-Acquis: Vícejazyčný zarovnaný paralelní korpus s více než 20 jazyky. Sborník z 5. mezinárodní konference o jazykových zdrojích a hodnocení (LREC'2006). Janov, Itálie, 24. – 26. Května 2006.

[23] Liling Tan, Marcos Zampieri, Nikola Ljubešic a Jörg Tiedemann. Sloučení srovnatelných zdrojů dat pro diskriminaci podobných jazyků: Sbírka korpusů DSL. Ve sborníku ze 7. workshopu o budování a používání srovnatelných korpusů (BUCC). 2014.

[24] Kilgarriff, Adam (2012). „Seznámení s vaším korpusem“. Text, řeč a dialog. Přednášky z informatiky. 7499. s. 3–15. CiteSeerX 10.1.1.452.8074. doi:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.

[25] Belinkov, Y., Habash, N., Kilgarriff, A., Ordan, N., Roth, R., & Suchomel, V. (2013). arTen-Ten: nový, rozsáhlý korpus pro arabštinu. Sborník WACL.

[26] Kilgarriff, A., & Renau, I. (2013). esTenTen, rozsáhlý webový korpus poloostrovní a americké španělštiny. Procedurálně-sociální a behaviorální vědy, 95, 12-19.

[27] Хохлова, М. В. (2016). Обзор больших русскоязычных корпусов текстов. v Материалы научной конференции "Интернет и современное общество" (str. 74-77).

[28] Khokhlova, M. (2016). Srovnání vysokofrekvenčních podstatných jmen z pohledu velkých korpusů. RASLAN 2016 Nedávné pokroky ve slovanském zpracování přirozeného jazyka, 9.

[29] Trampuš, M., & Novak, B. (2012, říjen). Interní stránky agregovaného zdroje webových zpráv. v Sborník příspěvků z patnácté mezinárodní konference o informační vědě IS SiKDD 2012 (str. 431-434)

[30] „Cambridge English Corpus“, Wikipedia, 2019-09-27, vyvoláno 2020-01-07

[31] „CAWSE Corpus - The University of Nottingham Ningbo China - 宁波诺丁汉大学“. nottingham.edu.cn. Citováno 2020-01-07.

[32] „Angličtina jako Lingua Franca v akademickém prostředí“. University of Helsinki. 2018-03-23. Citováno 2020-01-07.

[English_as_a_lingua_franca-33] A ^b „Angličtina jako lingua franca“, Wikipedia, 2019-12-14, vyvoláno 2020-01-07

[34] Mauranen, A (2010). „Angličtina jako akademická lingua franca: projekt ELFA“. Angličtina pro specifické účely. 29 (3): 183–190. doi:10.1016 / j.esp.2009.10.001.

[35] „ICLE“. UCLouvain. Citováno 2020-01-07.

[36] „LINDSEI“. UCLouvain (francouzsky). Citováno 2020-01-07.

[37] „Trinity Lancaster Corpus | Centrum ESRC pro korpusové přístupy k sociálním vědám (CASS)“. Citováno 2020-01-07.

[38] Gablasova, D (2019). „The Trinity Lancaster Corpus: Development, Description and Application“. International Journal of Learner Corpus Research. 5 (2): 126–158. doi:10.1075 / ijlcr.19001.gab.

[39] Juffs, A., Han, N-R., & Naismith, B. (2020). Korpus anglického jazyka University of Pittsburgh (PELIC) [soubor dat]. http://doi.org/10.5281/zenodo.3991977

[40] "Projekt". univie.ac.at. Citováno 2020-01-07.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]