Korpus psaného tataru - Corpus of Written Tatar - Wikipedia

Korpus psaného tatarštiny
Результаты сложного морфологического поиска .jpg
Typ webu
výzkumný / vzdělávací projekt
K dispozici vAngličtina / ruština / tatarština
Založený2011; Před 9 lety (2011)
Hlavní sídloKazaň, Rusko
Zakladatel (é)Saykhunov M.R., Ibragimov T.I., Khusainov R.R.
URLkorpus.Tatar/ en
Spuštěno15. března 2012; před 8 lety (2012-03-15)
Aktuální stavProjekt se aktivně rozvíjí.

Korpus psaného tatarštiny (Tatar Corpus) je elektronická korpus z Tatarský jazyk, který byl zpřístupněn online. Tato sbírka tatarských textů v elektronické podobě je určena pro zájemce o strukturu, současný stav a vyhlídky tatarského jazyka. Korpus psaného tatarského jazyka je nepostradatelný pro každého, kdo chce studovat tatarštinu metodami korpusová lingvistika.
Web byl otevřen 15. března 2012. Aktuální adresa http://corpus.tatar.
K dispozici v tatarštině, ruštině a angličtině.

Velikost korpusu

Velikost korpusového jazyka na konci roku 2014 je více než 116 milionů slov. Počet vět - 10 milionů, počet různých tvarů slov je asi 1,5 milionu.
Aby se zabránilo kopírování, jsou texty v korpusu ukládány jako smíšené věty.

Přístup

Přístup k Tatar Corpus pro výzkumné účely je zdarma.

O procesu vytváření korpusu

Vytvoření korpusu tatarského jazyka zahájila v roce 2010 skupina nadšenců. Úkol byl považován za naléhavý, protože poskytl potřebnou databázi textů pro práci na systémech strojového překladu pro tatarský jazyk a byl rovněž nepostradatelný při řešení problémů v tatarské syntéze a rozpoznávání řeči.

Praktická hodnota a oblasti použití

Základním účelem Korpusu psaného tatarského jazyka je poskytnout pomoc při výzkumu tatarské lexiky. Korpus lze dále použít při výuce jazyků a jako zdroj modelů pro různé typy dokumentů.
Corpus of Written Tatar umožňuje uživateli vyhledávat slova podle konkrétních funkcí, vidět slova v jejich kontextech a také mu poskytuje údaje o frekvenci.

Kontextový (statistický) korpus

Tento typ vyhledávání umožňuje vidět pravý, levý a sémantický kontext konkrétního slova seřazený podle frekvence.
Správný kontext - slova umístěná přímo za aktuální slovo.
Levý kontext - slova umístěná přímo před aktuální slovo.
Sémantický kontext - slova umístěná ve stejné větě s aktuálním slovem, tj. Existuje určitý druh implikovaného sémantického spojení mezi slovy.

Komplexní morfologické vyhledávání

V roce 2014 bylo provedeno morfologické značení Tatarského korpusu. Meta jazyk gramatických štítků je založen na systému značek pro turkické jazyky vyvinutém mezinárodním projektem Apertium. Tento projekt je zaměřen na vývoj systému automatického překladu pro širokou škálu jazyků. Hlavní argumenty ve prospěch výběru morfologického značkovače Apertium pro značení korpusu jsou:
- vysoká kvalita morfologické anotace;
- jedná se o projekt s otevřeným zdrojovým kódem: všechny zdrojové kódy a data jsou veřejně dostupná pro všechny zdarma.
Systém Complex Morphological Search, který jsme vyvinuli v letech 2015-2016, umožňuje provádět vyhledávání v korpusu pomocí různých kombinací takových parametrů, jako je tvar slova, lemma, sada morfologických (gramatických) značek, začátek slova, střední část, konec slova a vzdálenost mezi hledanými slovy. Maximální délka vyhledávacího dotazu je pět tokenů + odpovídající čtyři vzdálenosti mezi nimi.

Tatar Syntéza řeči

Korpus psaného tatarštiny nabízí uživateli jedinečnou příležitost poslouchat věty nalezené při vyhledávání a také poslouchat jakýkoli jiný text, který uživatel zadá do tohoto zařízení, viz http://search.corpus.tatar/search/sintez_en.html.

Statistická data

Tvůrci jazyka Korpus z Tataru nahrávají různá další statistická data, jakmile budou k dispozici v důsledku zpracování Korpusu, viz http://corpus.tatar/stat_en.htm.

Nedostatky a vyhlídky

  • Absence offline verze korpusu.
  • Automatická disambiguation.

Autoři

Tvůrci korpusu:

  • Saykhunov M.R. (kandidát filologie, vědecký pracovník na Ústavu informatiky)
  • Ibragimov T.I. (Kandidát na filologii, docent na katedře aplikované lingvistiky Kazanské federální univerzity)
  • Khusainov R.R. (inženýr, „GDC“)

S pomocí:

  • Republikánské centrum pro rozvoj tradiční kultury
  • Výzkumná jednotka pro vulgární jazyky na Turku University (Finsko)
  • «RX5» společnost
  • Redakce populárně vědeckého časopisu „Фән һәм Тел“

Literatura[1]

Reference

externí odkazy