Textový korpus AsoSoft - AsoSoft text corpus
![]() | Téma tohoto článku nemusí splňovat požadavky Wikipedie obecný pokyn k notabilitě.Červen 2019) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The Textový korpus AsoSoft je první ve velkém měřítku kurdština textový korpus, shromážděné a zpracované výzkumnou a vývojovou skupinou AsoSoft. Obsahuje 458 000 dokumentů (188 milionů tokenů), které jsou shromažďovány ze zdrojů, jako jsou webové stránky, tiskové agentury, knihy a časopisy. Korpus je částečně označen tématem, takže jej lze použít pro úkoly identifikace tématu. Je také použitelný pro extrakci jazykového modelu a výpočetní lexikonové informace. Část korpusu (75 milionů žetonů) je k dispozici online pro nekomerční použití. Korpus používá formát TEI.[1]
Reference
- ^ Veisi, Hadi; MohammadAmini, Mohammad; Hosseini, Hawre (8. února 2019). "Směrem ke zpracování kurdského jazyka: Experimenty se shromažďováním a zpracováním textového korpusu AsoSoft". Digitální stipendium v humanitních oborech. doi:10.1093 / llc / fqy074.
externí odkazy
![]() | Tento výpočetní lingvistika související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |