Audiovizuální rozpoznávání řeči - Audio-visual speech recognition
Audiovizuální rozpoznávání řeči (AVSR) je technika, která využívá zpracování obrazu schopnosti v čtení rtů pomoci rozpoznávání řeči systémy při rozpoznávání nedeterministických telefony nebo dávat převahu mezi rozhodnutími s velkou pravděpodobností.
Každý systém čtení rtů a rozpoznávání řeči pracuje samostatně, pak jsou jejich výsledky smíchány ve fázi fúze funkcí. Jak název napovídá, má dvě části. první je zvuková část a druhá vizuální část. V zvukové části používáme funkce jako log mel spektogram, mfcc atd. Ze surových zvukových vzorků a sestavujeme model, abychom z toho dostali vektor funkcí. Pro vizuální část obecně používáme nějakou variantu konvoluční neurální sítě ke komprimaci obrazu na vektor rysů, poté spojíme tyto dva vektory (audio a vizuální) a pokusíme se předpovědět cílový objekt.
externí odkazy
- IBM Research - Audiovizuální technologie řeči
- Při pohledu na poslech na koktejlové párty
- Blog Google AI
![]() | Tento výpočetní lingvistika související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |