Slovník výslovnosti CMU - CMU Pronouncing Dictionary

Slovník výslovnosti CMU
VývojářiUniverzita Carnegie Mellon
Stabilní uvolnění
0,7b / 19. listopadu 2014; před 6 lety (2014-11-19)
K dispozici vAngličtina
LicenceBSD
webová stránkawww.mluvený projev.cs.cmu.edu/ cgi-bin/ cmudikt

The Slovník výslovnosti CMU (také známý jako CMUdict) je open-source vyslovující slovník původně vytvořen Speech Group v Univerzita Carnegie Mellon (CMU) pro použití v rozpoznávání řeči výzkum.

CMUdict poskytuje mapovací ortografickou / fonetickou pro anglická slova v jejich severoamerických výslovnostech. Běžně se používá ke generování reprezentací pro rozpoznávání řeči (ASR), např. the CMU Sfinga systém a syntéza řeči (TTS), např. the Festival Systém. CMUdict lze použít jako tréninkový korpus pro vytváření statistických modelů grapheme-to-phoneme (g2p)[1] který vygeneruje výslovnosti slov, která dosud nejsou obsažena ve slovníku.

Nejnovější vydání je 0,7b; obsahuje přes 134 000 záznamů. K dispozici je interaktivní verze vyhledávání.[2]

Formát databáze

Databáze je distribuována jako soubor ve formátu prostého textu s jednou položkou na řádek ve formátu "SLOVO "s oddělovačem dvou mezer mezi částmi. Pokud je pro slovo k dispozici více výslovností, jsou varianty identifikovány pomocí číslovaných verzí (např. SLOVO (1)). Výslovnost je kódována pomocí upravené podoby ARPABET systém s přidáním značek stresu na samohláskách úrovní 0, 1 a 2. Řádek-iniciála ;;; token označuje komentář. Součástí distribuce je také odvozený formát přímo vhodný pro motory pro rozpoznávání řeči; tento formát sbalí rozlišení napětí (obvykle se nepoužívá v ASR).

Dějiny

VerzeDatum vydání[3]Licence
0.116. září 1993Veřejná doména
0.210. března 1994Veřejná doména
0.328. září 1994Veřejná doména
0.48. listopadu 1995Veřejná doména
0.5Žádné veřejné vydáníVeřejná doména
0.611. srpna 1998Veřejná doména
0.7Žádné veřejné vydáníVeřejná doména
0,7a18. února 20082-klauzule BSD
0,7b19. listopadu 2014[4]2-klauzule BSD

Aplikace

  • The Unifon převodník je založen na CMU Pronouncing Dictionary.
  • The Sada nástrojů pro přirozený jazyk obsahuje rozhraní k CMU Pronouncing Dictionary.
  • Carnegie Mellon Loga[5] nástroj obsahuje slovník výslovnosti CMU.
  • PronunDict, slovník výslovnosti americké angličtiny, používá jako zdroj dat slovník výslovnosti CMU. Výslovnost je přepsána do IPA symboly. Tento slovník také podporuje vyhledávání podle výslovnosti.
  • Některé software pro zpěv hlasového syntetizátoru se líbí CeVIO Creative Studio a Syntezátor V používá upravenou verzi CMU Pronouncing Dictionary pro syntézu anglických pěveckých hlasů.
  • Přepisovatel, nástroj pro fulltextový fonetický přepis, používá slovník výslovnosti CMU


Viz také

Reference

  1. ^ http://www-i6.informatik.rwth-aachen.de/web/Software/g2p.html
  2. ^ „Slovník výslovnosti CMU“.
  3. ^ ftp://ftp.cs.cmu.edu/project/speech/dict/[trvalý mrtvý odkaz ]
  4. ^ http://svn.code.sf.net/p/cmusphinx/code/trunk/cmudict/00README_FIRST.txt
  5. ^ „Archivovaná kopie“. Archivovány od originál dne 2011-05-20. Citováno 2009-12-19.CS1 maint: archivovaná kopie jako titul (odkaz)

externí odkazy