Arabský řečový korpus - Arabic Speech Corpus
![]() | Tento článek má několik problémů. Prosím pomozte vylepši to nebo diskutovat o těchto otázkách na internetu diskusní stránka. (Zjistěte, jak a kdy tyto zprávy ze šablony odebrat) (Zjistěte, jak a kdy odstranit tuto zprávu šablony)
|
The Arabský řečový korpus je Moderní standardní arabština (MSA) řečový korpus pro syntéza řeči. Korpus obsahuje fonetické a ortografické přepisy více než 3,7 hodin řeči MSA sladěné se zaznamenanou řečí na úrovni fonému. Anotace obsahují slovní přízvukové značky na jednotlivých fonémech.[1]
Arabský řečový korpus byl postaven jako součást doktorského projektu Nawar Halabi na University of Southampton financován MicroLinkPC kteří vlastní exkluzivní licenci k komercializaci korpusu, ale korpus je k dispozici pro přísně nekomerční účely prostřednictvím oficiální webové stránky Arabic Speech Corpus. Je distribuován pod Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.[2]
Účel
Korpus byl postaven hlavně pro účely syntézy řeči, konkrétně Syntéza řeči, ale korpus byl použit pro vytváření hlasů založených na HMM v arabštině. To bylo také používáno k automatickému zarovnání dalších řečových korpusů s jejich fonetickým přepisem a mohlo být použito jako součást většího korpusu pro trénink systémů rozpoznávání řeči.[1]
Obsah
Balení obsahuje:
- 1813 .wav souborů obsahujících mluvené projevy.
- 1813 souborů .lab obsahujících textové promluvy.
- 1813 .TextGrid soubory obsahující štítky fonémů s časovými známkami hranic, kde k nim dochází v souborech .wav. Tyto soubory lze otevřít pomocí softwaru Praat.
- phonetic-transcript.txt, který má v každém řádku tvar „[wav_filename]“ „[Pořadí fonémů]“.
- orthographic-transcript.txt, který má v každém řádku tvar „[wav_filename]“ „[Orthographic Transcript]“. Ortografie je ve formátu Buckwalter, který je přívětivější, pokud existuje software, který nečte arabské písmo. Lze jej snadno převést zpět do arabštiny.
- K vyhodnocení korpusu je k dispozici dalších 18 minut plně anotovaného korpusu (odděleně shora, ale se stejnou strukturou jako výše) (viz disertační práce).
Korpus byl také použit k prokázání toho, že se používají automaticky extrahované značky stresu založené na pravopisu[3] zlepšit kvalitu syntézy řeči v MSA.
Viz také
Reference
- ^ A b Halabi, Nawar (2016). Moderní standardní arabská fonetika pro syntézu řeči (PDF) (Disertační práce). University of Southampton, School of Electronics and Computer Science.
- ^ Arabský řečový korpus (Webová stránka), University of Oxford, 2016
- ^ Halpern, Jack (2009). Stres slov a neutralizace samohlásek v moderní standardní arabštině (PDF). 2. mezinárodní konference o zdrojích a nástrojích v arabském jazyce. Káhira.