Korpus perské řeči - Persian Speech Corpus
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
The Korpus perské řeči je Moderní perský řečový korpus pro syntéza řeči. Korpus obsahuje fonetický a ortografický transkripce asi 2,5 hodiny perské řeči sladěné se zaznamenanou řečí na internetu foném úroveň, včetně anotací hranice slov.[1] Předchozí mluvené korpusy perštiny zahrnují FARSDAT, který se skládá z hlasitého čtení řeči z novinových textů od 100 perských mluvčích a Telefon FARsi mluvený jazyk DATabase (TFARSDAT), který zahrnuje sedm hodin čtení a spontánní řeč produkovanou 60 rodilými mluvčími perštiny z deseti regionů z Írán.[2]
Korpus perské řeči byl postaven za použití stejných metodik stanovených v doktorském projektu moderní standardní arabštiny Nawar Halabi na University of Southampton. Práce byla financována společností MicroLinkPC, která vlastní exkluzivní licenci ke komercializaci korpusu, ačkoli korpus je k dispozici pro nekomerční použití prostřednictvím webových stránek korpusu. Je distribuován pod Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Korpus byl postaven pro účely syntézy řeči, ale byl použit pro stavbu HMM založené hlasy v perštině. Lze jej také použít k automatickému zarovnání dalších řečových korpusů s jejich fonetickým přepisem a lze jej použít jako součást většího korpusu pro trénink systémů rozpoznávání řeči.[1]
Obsah
Korpus je možné stáhnout z jeho webových stránek a obsahuje následující:
- 396 .wav souborů obsahujících mluvené projevy
- 396 souborů .lab obsahujících textové promluvy
- 396 Soubory .TextGrid obsahující štítky fonémů s časovými značkami hranic, kde k nim dochází v souborech .wav. Tyto soubory lze otevřít pomocí softwaru Praat
- phonetic-transcript.txt, který má v každém řádku tvar „[wav_filename]“ „[posloupnost fonémů“ “
- orthographic-transcript.txt, který má v každém řádku tvar „[wav_filename]“ „[Orthographic Transcript]“
Viz také
Reference
- ^ A b Halabi, Nawar (2016). Moderní standardní perská fonetika pro syntézu řeči (PDF) (Disertační práce). University of Southampton, School of Electronics and Computer Science.
- ^ Bijankhan, Mahmood, Javad Sheykhzadegan, Mohammad Bahrani, Masood Ghayoomi, 2011. „Poučení ze stavby perského písemného korpusu: Peykare“ Jazykové zdroje a hodnocení 45.2: 143–164