Slovník výslovnosti CMU - CMU Pronouncing Dictionary
Vývojáři | Univerzita Carnegie Mellon |
---|---|
Stabilní uvolnění | 0,7b / 19. listopadu 2014 |
K dispozici v | Angličtina |
Licence | BSD |
webová stránka | www |
The Slovník výslovnosti CMU (také známý jako CMUdict) je open-source vyslovující slovník původně vytvořen Speech Group v Univerzita Carnegie Mellon (CMU) pro použití v rozpoznávání řeči výzkum.
CMUdict poskytuje mapovací ortografickou / fonetickou pro anglická slova v jejich severoamerických výslovnostech. Běžně se používá ke generování reprezentací pro rozpoznávání řeči (ASR), např. the CMU Sfinga systém a syntéza řeči (TTS), např. the Festival Systém. CMUdict lze použít jako tréninkový korpus pro vytváření statistických modelů grapheme-to-phoneme (g2p)[1] který vygeneruje výslovnosti slov, která dosud nejsou obsažena ve slovníku.
Nejnovější vydání je 0,7b; obsahuje přes 134 000 záznamů. K dispozici je interaktivní verze vyhledávání.[2]
Formát databáze
Databáze je distribuována jako soubor ve formátu prostého textu s jednou položkou na řádek ve formátu "SLOVO
"s oddělovačem dvou mezer mezi částmi. Pokud je pro slovo k dispozici více výslovností, jsou varianty identifikovány pomocí číslovaných verzí (např. SLOVO (1)
). Výslovnost je kódována pomocí upravené podoby ARPABET systém s přidáním značek stresu na samohláskách úrovní 0, 1 a 2. Řádek-iniciála ;;;
token označuje komentář. Součástí distribuce je také odvozený formát přímo vhodný pro motory pro rozpoznávání řeči; tento formát sbalí rozlišení napětí (obvykle se nepoužívá v ASR).
Dějiny
Verze | Datum vydání[3] | Licence |
---|---|---|
0.1 | 16. září 1993 | Veřejná doména |
0.2 | 10. března 1994 | Veřejná doména |
0.3 | 28. září 1994 | Veřejná doména |
0.4 | 8. listopadu 1995 | Veřejná doména |
0.5 | Žádné veřejné vydání | Veřejná doména |
0.6 | 11. srpna 1998 | Veřejná doména |
0.7 | Žádné veřejné vydání | Veřejná doména |
0,7a | 18. února 2008 | 2-klauzule BSD |
0,7b | 19. listopadu 2014[4] | 2-klauzule BSD |
Aplikace
- The Unifon převodník je založen na CMU Pronouncing Dictionary.
- The Sada nástrojů pro přirozený jazyk obsahuje rozhraní k CMU Pronouncing Dictionary.
- Carnegie Mellon Loga[5] nástroj obsahuje slovník výslovnosti CMU.
- PronunDict, slovník výslovnosti americké angličtiny, používá jako zdroj dat slovník výslovnosti CMU. Výslovnost je přepsána do IPA symboly. Tento slovník také podporuje vyhledávání podle výslovnosti.
- Některé software pro zpěv hlasového syntetizátoru se líbí CeVIO Creative Studio a Syntezátor V používá upravenou verzi CMU Pronouncing Dictionary pro syntézu anglických pěveckých hlasů.
- Přepisovatel, nástroj pro fulltextový fonetický přepis, používá slovník výslovnosti CMU
Viz také
- Moby Pronunciator, podobný projekt
Reference
- ^ http://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html
- ^ „Slovník výslovnosti CMU“.
- ^ ftp://ftp.cs.cmu.edu/project/speech/dict/[trvalý mrtvý odkaz ]
- ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
- ^ „Archivovaná kopie“. Archivovány od originál dne 2011-05-20. Citováno 2009-12-19.CS1 maint: archivovaná kopie jako titul (odkaz)
externí odkazy
- Aktuální verze slovníku je na SourceForge, i když je zde také udržovaná verze GitHub.
- Domovská stránka - zahrnuje vyhledávání v databázi
- RDF převedeno na Rámec popisu zdrojů otevřeným zdrojem Texai projekt.