Řečový korpus - Speech corpus
A řečový korpus (nebo mluvený korpus) je databáze zvukových souborů a textu řeči přepisy.V řečová technologie, řečové korpusy se používají mimo jiné k tvorbě akustické modely (které lze poté použít s rozpoznávání řeči nebo identifikace reproduktoru motor).[1] v lingvistika, mluvené korpusy se používají k výzkumu fonetický, analýza konverzace, dialektologie a další pole.
Korpus je jednou z takových databází. Korpusy jsou množné číslo korpusu (tj. Mnoho takových databází).
Existují dva typy řečových korpusů:
- Číst řeč - zahrnuje:
- Knižní výňatky
- Vysílané zprávy
- Seznamy slov
- Posloupnosti čísel
- Spontánní řeč - která zahrnuje:
- Dialogy - mezi dvěma nebo více lidmi (včetně schůzek);
- Vyprávění - osoba vyprávějící příběh (jeden takový korpus je Buckeye Corpus );
- Úkoly na mapě - jedna osoba vysvětluje trasu na mapě druhé;
- Schůzka - úkoly - dva lidé se snaží najít společný čas schůzky na základě jednotlivých plánů.
Zvláštní druh řečových korpusů jsou nepůvodní databáze řeči které obsahují řeč s cizím přízvukem.
Viz také
- Arabský řečový korpus
- Společný hlas
- EXMARaLDA
- Seznam dětských řečových korpusů
- Nepůvodní databáze řeči
- Praat
- Mluvený anglický korpus
- Korpus řeči BABEL
- TIMIT
- Přepisovatel
- Přepis (lingvistika)
Reference
- ^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (září 2020). "Optimalizace datové banky filtrů pro automatické ověření reproduktorů". Zpracování digitálních signálů. 104: 102795. arXiv:2007.10729. doi:10.1016 / j.dsp.2020.102795. S2CID 220665533.
- Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data - Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
- Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Mluvená angličtina v počítači: Přepis, označení a aplikace. Harlow: Longmane.
externí odkazy
- Corpus Santa Barbara of Spoken American English
- Buckeye Corpus Buckeye Corpus of Conversational Speech
- Mluvené jazykové korpusy ve Výzkumném centru pro mnohojazyčnost
- Mluvený turecký korpus na METU Ankara
- Mluvený klient Corpus s Corp-Oral Corpus v ILTEC Lisabon
- VoxForge - otevřené zdrojové řečové korpusy
- OLAC: Komunita otevřených jazykových archivů
- Bavorský archiv BAS pro signály řeči
- Korpus Simmortel Speco Recognition Corpus pro indickou angličtinu a hindštinu
- ELRA: Evropská asociace jazykových zdrojů
- Polský konverzační korpus PELCRA
- Arabský řečový korpus