Společný hlas - Common Voice
![]() | |
Vývojáři | Mozilla Foundation |
---|---|
První vydání | Června 2017, 19 |
Úložiště | https://github.com/mozilla/voice-web |
K dispozici v | Vícejazyčný (Seznam jazyků ) |
Licence | Creative Commons CC0 |
webová stránka | commonvoice.mozilla.org |
Společný hlas je crowdsourcing projekt zahájen Mozilla vytvořit zdarma databáze pro software pro rozpoznávání řeči. Projekt je podporován dobrovolníci kteří zaznamenávají ukázkové věty pomocí a mikrofon a prohlížet záznamy ostatních uživatelů. Přepsané věty budou shromážděny v hlasové databázi dostupné pod veřejná doména licence CC0. Tato licence to zajišťuje vývojáři může používat databázi pro hlasové aplikace bez omezení a nákladů.
Cíle
Common Voice si klade za cíl poskytnout různé hlasové vzorky. Podle Mozilly Kathariny Borchert, mnoho stávajících projektů převzalo datové soubory z veřejného rozhlasu nebo jinak obsahovalo datové soubory, které nedostatečně zastupovaly ženy i lidi s výraznými akcenty.[1]
Hlasová databáze
Anglická databáze Common Voice je druhou největší volně dostupnou databází hlasu LibriSpeech. V době, kdy byly 29. listopadu 2017 zveřejněny první údaje, zaregistrovalo více než 20 000 uživatelů na celém světě 400 000 ověřených rozsudků v celkové délce 500 hodin.[2]
V únoru 2019 byla vydána první dávka jazyků pro použití. To zahrnovalo 18 jazyků: Angličtina, francouzština, Němec a Mandarinská čínština, ale také méně rozšířené jazyky jako velština a Kabyle. Celkově to zahrnovalo téměř 1400 hodin zaznamenaných hlasových dat od více než 42 000 přispěvatelů.[3]
Reference
- ^ „Proč jsme gender AI?. Opatrovník. 11. ledna 2020. Citováno 19. dubna 2020.
- ^ „Oznámení počátečního vydání modelu rozpoznávání řeči a hlasové datové sady Mozilla Open Source“. blog mozilla.org. 29. listopadu 2017.
- ^ „Mozilla aktualizuje datovou sadu Common Voice s 1400 hodinami řeči v 18 jazycích“. VentureBeat. 28. února 2019.