Korpus psaného tataru - Corpus of Written Tatar - Wikipedia
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
![]() | |
Typ webu | výzkumný / vzdělávací projekt |
---|---|
K dispozici v | Angličtina / ruština / tatarština |
Založený | 2011 |
Hlavní sídlo | Kazaň, Rusko |
Zakladatel (é) | Saykhunov M.R., Ibragimov T.I., Khusainov R.R. |
URL | korpus |
Spuštěno | 15. března 2012 |
Aktuální stav | Projekt se aktivně rozvíjí. |
Korpus psaného tatarštiny (Tatar Corpus) je elektronická korpus z Tatarský jazyk, který byl zpřístupněn online. Tato sbírka tatarských textů v elektronické podobě je určena pro zájemce o strukturu, současný stav a vyhlídky tatarského jazyka. Korpus psaného tatarského jazyka je nepostradatelný pro každého, kdo chce studovat tatarštinu metodami korpusová lingvistika.
Web byl otevřen 15. března 2012. Aktuální adresa http://corpus.tatar.
K dispozici v tatarštině, ruštině a angličtině.
Velikost korpusu
Velikost korpusového jazyka na konci roku 2014 je více než 116 milionů slov. Počet vět - 10 milionů, počet různých tvarů slov je asi 1,5 milionu.
Aby se zabránilo kopírování, jsou texty v korpusu ukládány jako smíšené věty.
Přístup
Přístup k Tatar Corpus pro výzkumné účely je zdarma.
O procesu vytváření korpusu
Vytvoření korpusu tatarského jazyka zahájila v roce 2010 skupina nadšenců. Úkol byl považován za naléhavý, protože poskytl potřebnou databázi textů pro práci na systémech strojového překladu pro tatarský jazyk a byl rovněž nepostradatelný při řešení problémů v tatarské syntéze a rozpoznávání řeči.
Praktická hodnota a oblasti použití
Základním účelem Korpusu psaného tatarského jazyka je poskytnout pomoc při výzkumu tatarské lexiky. Korpus lze dále použít při výuce jazyků a jako zdroj modelů pro různé typy dokumentů.
Corpus of Written Tatar umožňuje uživateli vyhledávat slova podle konkrétních funkcí, vidět slova v jejich kontextech a také mu poskytuje údaje o frekvenci.
Kontextový (statistický) korpus
Tento typ vyhledávání umožňuje vidět pravý, levý a sémantický kontext konkrétního slova seřazený podle frekvence.
Správný kontext - slova umístěná přímo za aktuální slovo.
Levý kontext - slova umístěná přímo před aktuální slovo.
Sémantický kontext - slova umístěná ve stejné větě s aktuálním slovem, tj. Existuje určitý druh implikovaného sémantického spojení mezi slovy.
Komplexní morfologické vyhledávání
V roce 2014 bylo provedeno morfologické značení Tatarského korpusu. Meta jazyk gramatických štítků je založen na systému značek pro turkické jazyky vyvinutém mezinárodním projektem Apertium. Tento projekt je zaměřen na vývoj systému automatického překladu pro širokou škálu jazyků. Hlavní argumenty ve prospěch výběru morfologického značkovače Apertium pro značení korpusu jsou:
- vysoká kvalita morfologické anotace;
- jedná se o projekt s otevřeným zdrojovým kódem: všechny zdrojové kódy a data jsou veřejně dostupná pro všechny zdarma.
Systém Complex Morphological Search, který jsme vyvinuli v letech 2015-2016, umožňuje provádět vyhledávání v korpusu pomocí různých kombinací takových parametrů, jako je tvar slova, lemma, sada morfologických (gramatických) značek, začátek slova, střední část, konec slova a vzdálenost mezi hledanými slovy. Maximální délka vyhledávacího dotazu je pět tokenů + odpovídající čtyři vzdálenosti mezi nimi.
Tatar Syntéza řeči
Korpus psaného tatarštiny nabízí uživateli jedinečnou příležitost poslouchat věty nalezené při vyhledávání a také poslouchat jakýkoli jiný text, který uživatel zadá do tohoto zařízení, viz http://search.corpus.tatar/search/sintez_en.html.
Statistická data
Tvůrci jazyka Korpus z Tataru nahrávají různá další statistická data, jakmile budou k dispozici v důsledku zpracování Korpusu, viz http://corpus.tatar/stat_en.htm.
Nedostatky a vyhlídky
- Absence offline verze korpusu.
- Automatická disambiguation.
Autoři
Tvůrci korpusu:
- Saykhunov M.R. (kandidát filologie, vědecký pracovník na Ústavu informatiky)
- Ibragimov T.I. (Kandidát na filologii, docent na katedře aplikované lingvistiky Kazanské federální univerzity)
- Khusainov R.R. (inženýr, „GDC“)
S pomocí:
- Republikánské centrum pro rozvoj tradiční kultury
- Výzkumná jednotka pro vulgární jazyky na Turku University (Finsko)
- «RX5» společnost
- Redakce populárně vědeckého časopisu „Фән һәм Тел“
Literatura[1]
- Татар теленең язма корпусы // «Мәдәни җомга» (2012 № 20)
- Татар теленең язма корпусы // "Фән һәм Тел" (2012 №1-2)
- Татар теленең язма корпусы һәм тел мәсьәләләре // "Мәдәни җомга" (2012 № 32)
- К построению структурно-функциональной модели ценностной ориентации татарского этноса (по материалам письменного корпуса татарского языка) // Языки России и стран ближнего зарубежья как иностранные: преподавание и изучение: материалы Международной научно-практической конференции (28-29 ноября 2013 г.)
- Письменный корпус татарского языка: идеи, проблемы, решения // Нематериальное культурное наследие тюркских народов как объект сохранения: сборник материалов Международной научно-практической конференции (16-19 июля 2014 г.)
- Письменный корпус татарского языка с озвучением визуализированных предложений как инструмент лингвистических исследований // Сопоставительная филология и полилингвизм: Материалы Всероссийской научно-практической конференции (Казань, 19-21 ноября 2014 г.)
- Письменный корпус татарского языка: структурные и функциональные характеристики // Актуальные проблемы диалектологии языков народов России: Материалы XIV Всероссийской научной конференции (Уфа, 20-22 ноября 2014 г.)
- Татар теле, татарлар һәм ассимиляция күренеше // "Фәнни Татарстан" (2015 №1)
- Jazyková situace etnické komunity (na materiálu Korpusu psaného tatarského jazyka) // „Tatarica“ (2015 №4)
- Další informace
- Фонология татарского языка в плане теории фонемы И.А. Бодуэна де Куртенэ // И.А. Бодуэн де Куртенэ и мировая лингвистика: международная конференция: V Бодуэновские чтения и