Textový korpus AsoSoft - AsoSoft text corpus

The Textový korpus AsoSoft je první ve velkém měřítku kurdština textový korpus, shromážděné a zpracované výzkumnou a vývojovou skupinou AsoSoft. Obsahuje 458 000 dokumentů (188 milionů tokenů), které jsou shromažďovány ze zdrojů, jako jsou webové stránky, tiskové agentury, knihy a časopisy. Korpus je částečně označen tématem, takže jej lze použít pro úkoly identifikace tématu. Je také použitelný pro extrakci jazykového modelu a výpočetní lexikonové informace. Část korpusu (75 milionů žetonů) je k dispozici online pro nekomerční použití. Korpus používá formát TEI.[1]

Reference

  1. ^ Veisi, Hadi; MohammadAmini, Mohammad; Hosseini, Hawre (8. února 2019). "Směrem ke zpracování kurdského jazyka: Experimenty se shromažďováním a zpracováním textového korpusu AsoSoft". Digitální stipendium v ​​humanitních oborech. doi:10.1093 / llc / fqy074.

externí odkazy