Německý referenční korpus - German Reference Corpus - Wikipedia
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
The Německý referenční korpus (originál: Deutsches Referenzkorpus; krátký: DeReKo) je elektronický archiv textové korpusy z současná psaná němčina. Poprvé byl vytvořen v roce 1964 a je hostitelem Ústavu pro německý jazyk (IDS) v Mannheim, Německo. Archiv korpusů je průběžně aktualizován a rozšiřován. V současné době obsahuje více než 4,0 miliardy slovních tokenů (stav k srpnu 2010) a představuje největší lingvisticky motivovanou sbírku současných německých textů. Dnes je to jeden z hlavních světových zdrojů pro studium psané němčiny.
Alternativní názvy
Německý referenční korpus je často označován jinými jmény, například Korpusy Mannheim, Korpusy IDS, Korpusy COSMAS a odpovídající překlady do němčiny. Název Deutsches Referenzkorpus (DeReKo) byl původně použit pro konkrétní část současného archivu, kterou v letech 1999 až 2002 shromáždila řada institucí ve společném projektu pod stejným názvem. Od roku 2004 Deutsches Referenzkorpus (DeReKo) je oficiální název celého archivu korpusu.
Koncepce a složení
Německý referenční korpus zahrnuje fiktivní a akademické texty, velké množství novinových textů a několik dalších typů textů. Texty pokrývají časové rozmezí od roku 1950 do současnosti.
Na rozdíl od jiných známých archivů korpusů a korpusů (např Britský národní korpus ), nicméně německý referenční korpus není výslovně koncipován jako a vyvážený korpus: Distribuce textů DeReKo napříč časem nebo typy textů neodpovídá některým předdefinovaným procentům.
Tato koncepce odpovídá skutečnosti, že to, zda daný korpus představuje či nikoli, představuje vyvážený nebo dokonce reprezentativní jazyk vzorek lze hodnotit pouze s ohledem na konkrétní jazykovou doménu (tj statistická populace ). Protože různá lingvistická vyšetřování se obecně zaměřují na různé jazykové domény, deklarovaným účelem německého referenčního korpusu je sloužit jako všestranný nadřazený vzorek, nebo prvotní vzorek (Němec: Ur-Stichprobe) současné psané němčiny, ze které mohou uživatelé korpusu čerpat specializovaný dílčí vzorek (tzv virtuální korpus ) zastupující jazykovou doménu, kterou chtějí prozkoumat.
Přístup
Z důvodu autorských a licenčních omezení nemusí být archiv DeReKo kopírován ani nabízen ke stažení. Lze jej prostřednictvím systému bezplatně dotazovat a analyzovat COSMAS II - koncoví uživatelé jsou povinni se registrovat podle jména a souhlasit s používáním korpusových údajů výhradně pro nekomerční, akademické účely. COSMAS II umožňuje uživatelům kompilovat z DeReKo a virtuální korpus vhodné pro jejich konkrétní výzkumné otázky.
Viz také
- Textový korpus
- Korpusová lingvistika
- Americký národní korpus
- Bank of English
- Britský národní korpus
- Korpus současné americké angličtiny (KOKA)
- Oxford English Corpus
Reference
- Kupietz, M. & C. Belica & H. Keibel & A. Witt (2010): Německý referenční korpus DeReKo: prvotní vzorek pro lingvistický výzkum. In: Calzolari, N. a kol. (eds.): Sborník ze 7. konference o mezinárodních jazykových zdrojích a hodnocení (LREC 2010) (s. 1848–1854). Valletta, Malta: European Language Resources Association (ELRA).
- Kupietz, M. & H. Keibel (2009): Mannheimský německý referenční korpus (DeReKo) jako základ pro empirický lingvistický výzkum. In: Working Papers in Corpus-based Linguistics and Language Education, No. 3 (pp. 53–59). Tokio: Tokijská univerzita zahraničních studií (TUFS).
externí odkazy
- Web DeReKo (německy)
- COSMAS II - bezplatné rozhraní DeReKo (německý web)