Korpus současné americké angličtiny - Corpus of Contemporary American English - Wikipedia
Tento článek má několik problémů. Prosím pomozte zlepšit to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) |
The Korpus současné americké angličtiny (KOKA) je více než 560 milionů slov korpus z americká angličtina. Vytvořil Mark Davies, Profesor Korpusová lingvistika v Univerzita Brighama Younga (BYU).[1]
Obsah
Korpus se skládá z více než 1 miliardy[2] slova z 220 225 textů, včetně 20 milionů slov z každého z let 1990 až 2017. Nejnovější aktualizace byla provedena v prosinci 2017. Korpus každý měsíc používají přibližně desítky tisíc lidí,[Citace je zapotřebí ] což z něj může udělat nejpoužívanější „strukturovaný“ korpus, který je v současné době k dispozici.[Citace je zapotřebí ]
Pro každý rok je korpus rovnoměrně rozdělen mezi následujících pět žánrů: mluvený jazyk, beletrie, populární časopisy, noviny a akademické časopisy. Texty pocházejí z různých zdrojů:
- Mluvené slovo: (85 milionů slov) Přepisy improvizované konverzace z téměř 150 různých televizních a rozhlasových programů.
- Beletrie: (81 milionů slov) Povídky a hry, první kapitoly knih od roku 1990 do současnosti a filmové scénáře.
- Populární časopisy: (86 milionů slov) Téměř 100 různých časopisů z různých oblastí, jako jsou zprávy, zdraví, domácnost a zahrádkářství, ženy, finance, náboženství a sport.
- Noviny: (81 milionů slov) Deset novin z celých USA s textem z různých částí novin, jako jsou místní zprávy, názory, sport a finanční sekce.
- Akademické časopisy: (81 milionů slov) Téměř 100 různých recenzovaných časopisů. Ty byly vybrány tak, aby pokrývaly celou škálu Systém klasifikace Library of Congress.
Dostupnost
Korpus může volně vyhledávat prostřednictvím svého webového rozhraní,[3] s omezením počtu dotazů za den a méně omezený přístup je k dispozici za cenu.[4]Celé texty korpusu jsou k dispozici za další poplatek.[5]
Dotazy
- Rozhraní je stejné jako rozhraní BYU-BNC pro 100 milionů slov Britský národní korpus, korpus časopisu TIME o 100 milionech slov a korpus 400 milionů slov * Historical * American English (COHA), 10. – 2. léta 20. století (viz odkazy níže)
- Dotazy podle slov, frází, alternativ, podřetězců, slovních druhů, lemmat, synonym (viz níže) a přizpůsobených seznamů (viz níže)
- Korpus je označen ZÁPASY, stejný část mluvy tagger, který byl použit pro BNC a korpus TIME
- Výpisy grafů (součty pro všechny odpovídající formy v každém žánru nebo roce, 1990 – současnost i pro podžánry) a výpisy tabulek (frekvence pro každou odpovídající formu v každém žánru nebo roce)
- Kompletní vyhledávání kolokátů (až deset slov nalevo a napravo od slova uzlu)
- Přeřazení shody, zobrazující nejběžnější slova / řetězce nalevo a napravo od hledaného slova
- Srovnání mezi žánry nebo časovými obdobími (např. Slova „židle“ ve beletrii nebo akademii, podstatná jména s „zlomit [N]“ v novinách nebo akademii, přídavná jména, která se vyskytují primárně ve sportovních časopisech, nebo slovesa, která jsou častější 2005–2010 než dříve)
- Jednokrokové srovnání kolokátů souvisejících slov, studium sémantických nebo kulturních rozdílů mezi slovy (např. Srovnání kolokátů „malého“, „malého“, „maličkého“, „miniaturního“ nebo liliputánského nebo „demokratů“ a „republikánů“ nebo „muži“ a „ženy“ nebo „okrádat“ vs. „krást“)
- Uživatelé mohou zahrnout sémantické informace ze 60 000 vstupních tezaurů přímo jako součást syntaxe dotazu (např. Frekvence a distribuce synonym „krásný“, synonyma „silný“ vyskytující se v beletrii, ale ne akademická, synonyma „čistý“ + podstatné jméno („ vyčistit podlahu ',' umyl nádobí '))
- Uživatelé mohou také vytvářet své vlastní „přizpůsobené“ seznamy slov a poté je znovu použít jako součást následných dotazů (např. Seznamy související s určitou sémantickou kategorií (oblečení, jídlo, emoce) nebo uživatelem definovanou část řeči)
- Korpus je kvůli omezením autorských práv k dispozici pouze prostřednictvím webového rozhraní.
Příbuzný
Korpus z Global Žodlivbased anglicky (GloWbE; vyslovuje se „zeměkoule“) obsahuje přibližně 1,9 miliardy slov textu z dvaceti různých zemí. Díky tomu je přibližně stokrát větší než jiné korpusy, jako je Mezinárodní korpus angličtiny, a umožňuje mnoho typů vyhledávání, které by jinak nebyly možné. Kromě tohoto online rozhraní si můžete z korpusu také stáhnout fulltextová data.
je jedinečný v tom, že umožňuje provádět srovnání mezi různými odrůdami angličtiny. GloWbE souvisí s mnoha dalšími korpusy angličtiny.[6]
Viz také
Bibliografie
- Davies, Mark (2010). "Korpus současné americké angličtiny jako první spolehlivý monitorovací korpus angličtiny". Literární a jazyková práce na počítači. 25 (4): 447–65. doi:10.1093 / llc / fqq018.
- Bennett, Gena R. (2010). Používání korpusů ve výuce jazyků: Korpusová lingvistika pro učitele. Ann Arbor, Michigan: Michiganská univerzita. p. 144. ISBN 978-0-472-03385-0.
- Davies, Mark (2010). „Více než kukátko: Používání velkých a rozmanitých online korpusů“. International Journal of Corpus Linguistics. 15 (3): 405–11. doi:10.1075 / ijcl.15.3.13dav.
- Anderson, Wendy; Corbett, John (2009), Zkoumání angličtiny s online korpusy, Palgrave Macmillan, str. 205, ISBN 978-0-230-55140-4
- Davies, Mark (2009). „Korpus více než 385 milionů slov současné americké angličtiny (1990 – současnost)“. International Journal of Corpus Linguistics. Nakladatelská společnost John Benjamins. 14 (2): 159–190(32). doi:10.1075 / ijcl.14.2.02dav.
- Lindquist, Hans (2009). Korpusová lingvistika a popis angličtiny. Edinburgh University Press. ISBN 978-0-7486-2615-1.
- Davies, Mark (2005). "Výhoda použití relačních databází pro velké korpusy: rychlost, pokročilé dotazy a neomezené anotace". International Journal of Corpus Linguistics. Nakladatelská společnost John Benjamins. 10 (3): 307–334(28). doi:10.1075 / ijcl.10.3.02dav.
Reference
- ^ Kauhanen, Henri (21.03.2011). „Korpus současné americké angličtiny: pozadí a historie“. VARIENG. Citováno 2011-10-13.
- ^ [1] oficiální web COCA
- ^ „Korpus současné americké angličtiny“. Korpus současné americké angličtiny. Citováno 20. července 2017.
- ^ „BYU corpora: Premium“. Korpusy BYU. Citováno 20. července 2017.
- ^ „Corpus data: Purchase“. Citováno 20. července 2017.
- ^ „Corpus of Web-Based Global English“. www.english-corpora.org. Citováno 2019-12-18.