Řečový korpus - Speech corpus

A řečový korpus (nebo mluvený korpus) je databáze zvukových souborů a textu řeči přepisy.V řečová technologie, řečové korpusy se používají mimo jiné k tvorbě akustické modely (které lze poté použít s rozpoznávání řeči nebo identifikace reproduktoru motor).^[1] v lingvistika, mluvené korpusy se používají k výzkumu fonetický, analýza konverzace, dialektologie a další pole.

Korpus je jednou z takových databází. Korpusy jsou množné číslo korpusu (tj. Mnoho takových databází).

Existují dva typy řečových korpusů:

Číst řeč - zahrnuje:
- Knižní výňatky
- Vysílané zprávy
- Seznamy slov
- Posloupnosti čísel
Spontánní řeč - která zahrnuje:
- Dialogy - mezi dvěma nebo více lidmi (včetně schůzek);
- Vyprávění - osoba vyprávějící příběh (jeden takový korpus je Buckeye Corpus );
- Úkoly na mapě - jedna osoba vysvětluje trasu na mapě druhé;
- Schůzka - úkoly - dva lidé se snaží najít společný čas schůzky na základě jednotlivých plánů.

Zvláštní druh řečových korpusů jsou nepůvodní databáze řeči které obsahují řeč s cizím přízvukem.

Viz také

^ Sarangi, Susanta; Sahidullah, Md; Saha, Goutam (září 2020). "Optimalizace datové banky filtrů pro automatické ověření reproduktorů". Zpracování digitálních signálů. 104: 102795. arXiv:2007.10729. doi:10.1016 / j.dsp.2020.102795. S2CID 220665533.

Edwards, Jane / Lampert, Martin (eds.) (1992): Talking Data - Transcription and Coding in Discourse Research. Hillsdale: Erlbaum.
Leech, Geoffrey / Myers, Greg / Thomas, Jenny (eds.) (1995): Mluvená angličtina v počítači: Přepis, označení a aplikace. Harlow: Longmane.

Zpracování přirozeného jazyka
Obecné podmínky	AI-kompletní Pytel slov n-gram Bigram Trigram Porozumění přirozenému jazyku Řečový korpus Stop slova Textový korpus
Analýza textu	Kolokační extrakce Koncept těžby Zpracování složených termínů Rozlišení koreference Lemmatizace Rozpoznání pojmenované entity Učení ontologie Analýza Značení části řeči Sémantická podobnost Analýza sentimentu Stemming Terminologická extrakce Chunking textu Segmentace textu Věta segmentace Segmentace slov Textové zapojení Truecasing Slovní smysl disambiguation
Automatická sumarizace	Shrnutí více dokumentů Extrakce věty Zjednodušení textu
Strojový překlad	S pomocí počítače Na příkladu Na základě pravidel Neurální
Automatická identifikace a sběr dat	Rozpoznávání řeči Segmentace řeči Syntéza řeči Generování přirozeného jazyka Optické rozpoznávání znaků
Tématický model	Latentní Dirichletova alokace Latentní sémantická analýza Pachinko alokace
S pomocí počítače revize	Automatické bodování eseje Harmonikář Kontrola gramatiky Prediktivní text Kontrola pravopisu Syntaxe hádání
Přirozený jazyk uživatelské rozhraní	Chatbot Interaktivní beletrie Odpověď na otázku Virtuální asistent Hlasové uživatelské rozhraní