Korpus v chorvatském jazyce - Croatian Language Corpus - Wikipedia
The Korpus v chorvatském jazyce (chorvatský: Hrvatski jezični korpus, HJK) je a korpus z chorvatský sestaven na Ústav chorvatského jazyka a lingvistiky (IHJJ ).
Pozadí
CLC byl původně financován jako dílčí projekt výzkumného programu Riznica (Repozitář chorvatského jazyka) podle Ministerstvo vědy, školství a sportu Chorvatské republiky (MZOŠ ) (projekt č. 0212010) z května 2005. Ve druhé vývojové fázi, od roku 2007, bylo do výzkumného programu začleněno další rozšíření a rozvoj CLC. Repozitář chorvatského jazyka (CLR), který poskytl MZOŠ (srov. Ćavar a Brozović Rončević, 2012[1]). Být výzkumným programem (PI Dunja Brozović Rončević ) s řadou zahrnutých nezávislých výzkumných projektů, které využívají CLC, je korpus vyvíjen hlavně jako vedlejší produkt těchto výzkumných projektů v rámci CLR. V současné době Dunja Brozović Rončević a Damir Ćavar mají na starosti vývoj korpusu.
Cíle
Jedním z hlavních cílů projektu CLC je vytvořit veřejně dostupný chorvatský korpus který je anotován na více úrovních, tj. lemmatizovaný, morfologicky segmentované a morfosyntakticky komentovaný, fonemicky přepsány a slabikovány a syntakticky analyzovány. Zatímco aktuální verze korpus poskytuje zdroje z chorvatský jazykový standard, několik korpusy z různých vývojových fází chorvatský jsou také vytvořeny, včetně digitalizace rukopisů a chorvatský slovníky.
Formát a dostupnost
Od samého začátku byly shromážděné a digitalizované texty v CLC anotovány pomocí Iniciativa pro kódování textu (TEI ) P5 XML Standard. V současné době cca 90 mil. tokeny jsou k dispozici v TEI P5 XML formát. The korpus lze přistupovat online přes Philologic[2] rozhraní (viz The ARTFL Project,[3] Katedra románských jazyků a literatur, University of Chicago ). Je virtualizován do různých podkorpusů a na vyžádání lze poskytnout individuální nebo konkrétní definice podkorpusů.
Obsah
CLC je sestaven z vybraného textu chorvatský, pokrývající různé funkční domény a žánry. Zahrnuje literaturu a další písemné prameny z období začátku konečného formování standardizace EU chorvatský jazyk, tj. od druhé poloviny 19. století.
CLC se skládá z:
- základní chorvatská literatura (např. romány, povídky, drama, poezie)
- literatura faktu
- vědecké publikace z různých oblastí a vysokoškolské učebnice
- školní knihy
- přeložená literatura od vynikajících chorvatský překladatelé
- online deníky a noviny
- knihy z předstandardizačního období chorvatský které jsou přizpůsobeny dnešnímu standardu chorvatský
Spolupráce
Realizace CLC byla umožněna ve spolupráci s:
- Školska knjiga d.d.
- Chorvatská akademie věd a umění (HAZU)
- Stoljeća hrvatske književnosti, Matica hrvatska
Reference
- ^ Ćavar a Brozović Rončević, 2012
- ^ Filologické
- ^ „Projekt ARTFL“. Archivovány od originál dne 4. 12. 2009. Citováno 2011-05-22.
externí odkazy
- Web chorvatského korpusu (CLC) a filologické rozhraní
- (v chorvatštině) Chorvatský národní korpus, další chorvatský korpus u Ústav jazykovědy z Fakulta humanitních a sociálních věd, Univerzita v Záhřebu