Seznam dětských řečových korpusů - List of childrens speech corpora - Wikipedia
A dětský řečový korpus je řečový korpus dokumentování v prvním jazyce osvojování jazyka. Tyto databáze se používají při vývoji počítačové systémy pro výuku jazyků a charakterizace dětská řeč v rozdílném věku.[1] Dětská řeč se liší nejen podle jazyka, ale také podle regionu v rámci jazyka. Může se také lišit u konkrétních skupin, jako jsou autistické děti, zvláště když se uvažuje o emocích. Pro různé populace jsou tedy potřebné různé databáze. Korpusy jsou k dispozici pro americkou a britskou angličtinu i pro mnoho dalších evropských jazyků.[1][2][3]
Přehled dětských řečových korpusů
V následující tabulce lze věkové rozmezí popsat z hlediska školních známek. „K“ označuje „mateřskou školu“, zatímco „G“ označuje „známku“. Například věkové rozpětí „K - G10“ označuje mluvčí od věku mateřské školy po 10. ročník.
Tato tabulka je založena na příspěvku z konference Interspeech 2016.[4] Tento online článek má poskytnout čtenářům interaktivní tabulku a místo, kde jsou informace o dětských řečových korpusech, které mohou být komunitou pro výzkum řeči průběžně aktualizovány.
Korpus | Autor | Jazyky | # Řečníci | # Utt. | Doba trvání | Věkové rozmezí | datum | Poznámky |
---|---|---|---|---|---|---|---|---|
Boulder Learning - MyST Corpus (v0.4.0) [5] | Cole a kol.[6] | Angličtina | 1371 | 228,874 | ~ 393 h | G3 - G5 | 2019 | dialogová interakce mezi studentem a virtuálním lektorem přírodovědných témat; obvykle 20–40 minut (nástěnné hodiny) trvání relace; zhruba 49% promluv bylo přepsáno a další jsou přepsány. dobrovolníci povzbuzováni. k dispozici zdarma pro výzkum; plochý $ 10K pro komerční použití. |
CMU Kids Corpus [7] | Eskenazi | Angličtina | 24M, 52F | 5180 | 6 - 11 | 1997 | ||
Dětský řečový korpus CSLU [8] | Shobaki | Angličtina | 1100 | 1017 | K - G10 | 2007 | ||
Dětský řečový korpus PF-STAR [9][10] | Russell | Angličtina, | 158 | ~ 14,5 hodiny | 4 - 14 | 2006 | přepisy na úrovni slov | |
CALL-SLT [11] | Rayner | Němec | 5000 | 2014 | ||||
TBALL [12] | Kazemgadeh | Angličtina | 256 | 5000 | 40h | K - G4 | 2005 | částečně nepůvodní řeč |
CASS_CHILD [13] | Gao | Mandarinka | 23 | 1 - 4 | 2012 | fonetické přepisy | ||
Dětský korpus ČT pro děti a výzva [14] | Hagen | Angličtina | 663 | ~100 | K - G5 | 2001 | skládá se z izolovaných slov, vět a krátkého spontánního vyprávění; přepisy na úrovni slov | |
Korpus příběhu UK [14] | Hagen | Angličtina | 106 | 5000 | 40h | G3 - G5 | 2003 | skládá se z povídek a spontánního mluveného shrnutí materiálu; přepisy na úrovni slov |
Corpus Providence [15] | Demuth | Angličtina | 6 | 363h | 1 - 3 | 2006 | spontánní řečové interakce matky a dítěte; široká fonetická transkripce | |
Lyon Corpus [16] | Demuth | francouzština | 4 | 185h | 1 - 3 | 2007 | spontánní řečové interakce matky a dítěte; široká fonetická transkripce | |
Demuth Sesotho Corpus [17] | Demuth | Sesotho | 4 | ~13250 | 98h | 2 - 4 | 1992 | rodinné / vrstevnické spontánní řečové interakce; morfologicky označeno |
CHIEDE [18] | Garota | španělština | 59 | 15444 | ~ 8 hodin | 2008 | spontánní rozhovor, osobní rozhovory, interakce dospělého s dítětem; pravopisné přepisy; automatický fonologický přepis | |
TIDIGITS [19] | Leonard | Angličtina | 326 (101 dětí) | 6 - 15 | 1993 | mix reproduktorů pro dospělé a děti | ||
FAU Aibo Emotion Corpus | Steidl | Němec | 51 | 9h | 10 - 13 | lidská poznámka s 11 kategoriemi emocí | ||
Švédský NICE Corpus [20] | Zvonek | 5580 | 8 - 15 | 2005 | sestává z interakce dítě-stroj a dospělý-dítě; pravopisné přepisy | |||
SingaKids-Mandarin [4] | Chen | Mandarinka | 255 | 79,843 | 125h | 7 - 12 | 2016 | přepisy na úrovni slov a telefonů; hodnocení odborné způsobilosti komentované člověkem |
CFSC[21] | Pascual | Filipínský | 57 | ~ 8 hodin | 6-11 | 2012 | skládá se z dětské čtené řeči; obsahuje jak dobrou výslovnost, tak nesprávné čtení; částečně přepsaný na úroveň slov a fonémů |
Viz také
Reference
- ^ A b Habernal, Ivan; Václav Matoušek (2013). Text, Speech, and Dialogue: 16. mezinárodní konference, TSD 2013, Plzeň, Česká republika, 1. - 5. září 2013, sborník. Springer. str. 545. ISBN 9783642405853. Citováno 11. prosince 2015.
- ^ Neustein, Amy (2014). Řeč a automaty ve zdravotnictví. Walter de Gruyter. str. 225–226. ISBN 9781614515159. Citováno 11. prosince 2015.
- ^ Ronzhin, Andrey; Potapova, Rodmonga; Fakotakis, Nikos (2015). Řeč a počítač: 17. mezinárodní konference, SPECOM 2015, Atény, Řecko, 20. – 24. Září 2015, sborník. Springer. str. 144–145. ISBN 9783319231327. Citováno 11. prosince 2015.
- ^ A b Nancy F. Chen, Rong Tong, Darren Wee, Peixuan Lee, Bin Ma a Haizhou Li. SingaKids-Mandarin: Řečový korpus singapurských dětí, které mluví mandarínskou čínštinou, v Proc. of Interspeech, 2016.
- ^ "MyST Corpus | Boulder Learning inc". Citováno 2019-07-17.
- ^ „My Science Tutor and the MyST Corpus“. ResearchGate. Citováno 2019-07-17.
- ^ Maxine Eskenazi, Jack Mostow a David Graff. CMU Kids Corpus LDC97S63. Webové stahování. Philadelphia: Linguistic Data Consortium, 1997.
- ^ Khaldoun Shobaki, John-Paul Hosom a Ronald Cole. CSLU: Kids 'Speech verze 1.1 LDC2007S18. Webové stahování. Philadelphia: Linguistic Data Consortium, 2007.
- ^ Martin Russell. Korpus britské angličtiny pro děti v anglickém jazyce PF-STAR. The Speech Ark Limited. 2006.
- ^ Anton Batliner, Mats Blomberg, Shona D'Arcy, Daniel Elenius, Diego Giuliani, Matteo Gerosa, Christian Hacker, Martin Russell, Stefan Steidl, Michael Wong. Korpus dětské řeči PF STAR. V Proc. of Interspeech, 2005.
- ^ Manny Rayner, Nikos Tsourakis, Claudia Baur, Pierrette Bouillon, Johanna Gerlach. CALL-SLT: Mluvený systém CALL založený na gramatice a rozpoznávání řeči. In Linguistic Issues in Language Technology, sv. 10, číslo 2. 2014.
- ^ Abe Kazemzadeh, Hong You, Markus Iseli, Barbara Jones, Xiaodong Cui, Margaret Heritage, Patti Price, Elaine Anderson, Shrikanth Narayanan a Abeer Alwan. TBALL Data Collection: The Making of a Young Children Speech Corpus, v Proc. of Interspeech, 2005.
- ^ Jun Gao, Aijun Li a Ziyu Xiong. Mandarin Multimedia Child Speech Corpus: CASS_CHILD in International Conference on Speech Database and Assessments (Oriental COCOSDA), 2012.
- ^ A b Andreas Hagen, Bryan Pellom a Ronald Cole. Rozpoznávání dětské řeči s aplikací na interaktivní knihy a lektory na IEEE Workshopu o automatickém rozpoznávání a porozumění řeči, 2003.
- ^ Demuth, K., Culbertson, J. & Alter, J. 2006. Word-minimality, epenthesis, and coda licensing in the acquisition of English. Jazyk a řeč, 49, 137-174.
- ^ Demuth, K. & A. Tremblay. 2007. Prozodicky podmíněná variabilita v produkci francouzských determinantů pro děti. Journal of Child Language, 34, 1-29.
- ^ Demuth, K. 1992. Akvizice společnosti Sesotho. V D. Slobin (ed.), Cross-Linguistic Study of Language Acquisition, sv. 3, 557-638. Hillsdale, N.J .: Lawrence Erlbaum Associates.
- ^ Marta Garrote. CHIEDE: Spontánní dětský jazykový korpus španělštiny. Ph.D. práce, Universidad Autónoma de Madrid, Španělsko. 2008.
- ^ R. Gary Leonard a George Doddington. TIDIGITS LDC93S10. Webové stahování. Philadelphia: Linguistic Data Consortium, 1993.
- ^ Linda Bell, Johan Boyce, Joakim Gustafson, Mattias Heldner, Anders Lindström a Mats Wirén. Švédský korpus NICE - mluvené dialogy mezi dětmi a ztělesněnými postavami ve scénáři počítačové hry, v Proc. Eurospeech, 2005.
- ^ Pascual, R. M .; Guevara, R. C. L. (listopad 2012). "Vývoj dětského filipínského řečového korpusu pro použití v automatické detekci chyb čtení a disfluencies". Konference TENCON 2012 IEEE Region 10: 1–6. doi:10.1109 / TENCON.2012.6412235. ISBN 978-1-4673-4824-9.