WaveNet - WaveNet

WaveNet je hluboká nervová síť pro generování surového zvuku. Byl vytvořen vědci z londýnské firmy s umělou inteligencí DeepMind. Tato technika, popsaná v příspěvku ze září 2016,[1] je schopen generovat relativně realisticky znějící hlasy podobné člověku přímým modelováním křivek pomocí a nervová síť metoda trénovaná s nahrávkami skutečné řeči. Testy s americkou angličtinou a mandarínským jazykem údajně ukázaly, že systém překonává nejlepší existující Google text na řeč (TTS) systémy, ačkoli od roku 2016 byla jeho syntéza převodu textu na řeč stále méně přesvědčivá než skutečná lidská řeč.[2] Schopnost WaveNet generovat syrové křivky znamená, že může modelovat jakýkoli druh zvuku, včetně hudby.[3]

Dějiny

Generování řeči z textu je stále častějším úkolem díky popularitě softwaru, jako je Apple Siri, Microsoft Cortana, Amazon Alexa a Asistent Google.[4]

Většina takových systémů používá variaci techniky, která zahrnuje zřetězené zvukové fragmenty dohromady a tvoří rozpoznatelné zvuky a slova.[5] Nejběžnější z nich se nazývá concatenative TTS.[6] Skládá se z velké knihovny fragmentů řeči zaznamenaných jedním reproduktorem, které jsou poté zřetězeny tak, aby vytvářely úplná slova a zvuky. Výsledek zní nepřirozeně, s podivnou kadencí a tónem.[7] Spoléhání se na zaznamenanou knihovnu také ztěžuje úpravu nebo změnu hlasu.[8]

Další technika, známá jako parametrická TTS,[9] používá matematické modely k znovuvytváření zvuků, které se poté skládají do slov a vět. Informace potřebné ke generování zvuků jsou uloženy v parametrech modelu. Vlastnosti výstupní řeči jsou řízeny vstupy do modelu, zatímco řeč je obvykle vytvářena pomocí hlasového syntetizátoru známého jako vokodér. To může také vést k nepřirozeně znějícímu zvuku.

Design a probíhající výzkum

Pozadí

WaveNet je typ dopředná neuronová síť známý jako hluboký konvoluční neuronová síť (CNN). Ve WaveNet CNN přijímá nezpracovaný signál jako vstup a syntetizuje výstup po jednom vzorku. Činí tak vzorkováním z a softmax (tj. kategorický ) distribuce hodnoty signálu, která je kódována pomocí μ-zákon kompaktní transformace a kvantováno na 256 možných hodnot.[10]

Počáteční koncepce a výsledky

Podle původního výzkumného dokumentu DeepMind ze září 2016 WaveNet: Generativní model surového zvuku[11]byla síť napájena skutečnými průběhy řeči v angličtině a mandarínštině. Při průchodu sítí se naučí sadu pravidel, která popisují, jak se zvukový průběh časem vyvíjí. Cvičenou síť lze poté použít k vytvoření nových křivek podobných řeči rychlostí 16 000 vzorků za sekundu. Tyto křivky zahrnují realistické dechy a plácnutí rtů - ale neodpovídají žádnému jazyku.[12]

WaveNet je schopen přesně modelovat různé hlasy, přičemž akcent a tón vstupu korelují s výstupem. Například pokud je trénován s němčinou, vytváří německou řeč.[13] Tato schopnost také znamená, že pokud je WaveNet napájen jinými vstupy - například hudbou - bude jeho výstup hudební. V době svého vydání DeepMind ukázal, že WaveNet může vytvářet zvukové vlny, které zní klasická hudba.[14]

Výměna obsahu (hlasu)

Podle papíru z června 2018 Odtržená sekvence Autoencoder[15], DeepMind úspěšně použil WaveNet pro „zaměňování obsahu“ také v souvislosti se zvukovým a hlasovým obsahem, což v zásadě znamená, že hlas v daném zvukovém záznamu lze vyměnit za jakýkoli jiný již existující hlas při zachování textu a dalších funkcí z původní nahrávka. „Experimentujeme také se zvukovými sekvenčními daty. Naše oddělená reprezentace nám umožňuje převádět identity řečníků na sebe navzájem, přičemž je nutné upravovat obsah řeči.“ (str. 5) „U zvuku nám to umožňuje převést mužský reproduktor na ženský reproduktor a naopak [...]. “(s. 1) Podle příspěvku je do programu WaveNet nutné zavést dvouciferný minimální počet hodin (přibližně 50 hodin) již existujících záznamů řeči zdrojového i cílového hlasu jejich jednotlivé rysy, než bude schopen provést převod z jednoho hlasu do druhého v uspokojivé kvalitě. Autoři zdůrazňují, že „[A]Výhodou modelu je, že odděluje dynamické a statické prvky [...]. “(str. 8), tj. WaveNet je schopen rozlišovat mezi mluveným textem a způsoby doručování (modulace, rychlost, výška, nálada atd.), které se mají udržovat během převodu z jednoho hlasu na druhý na jedné straně, a základní vlastnosti zdrojového i cílového hlasu, které je nutné vyměnit za druhé.

Následný dokument z ledna 2019 Výuka reprezentace řeči bez dozoru pomocí automatických kódovačů WaveNet[16] podrobně popisuje metodu pro úspěšné zdokonalení správného automatického rozpoznávání a rozlišování mezi dynamickými a statickými vlastnostmi pro „záměnu obsahu“, zejména včetně záměny hlasů u stávajících zvukových záznamů, aby byla spolehlivější. Další navazující práce, Ukázka efektivního adaptivního převodu textu na řeč[17]ze dne září 2018 (poslední revize leden 2019) uvádí, že DeepMind úspěšně snížil minimální množství skutečných nahrávek potřebných pro vzorkování stávajícího hlasu přes WaveNet na „pouze několik minut zvukových dat“ při zachování vysoce kvalitních výsledků.

Jeho schopnost klonovat hlasy vzbudil etické obavy ohledně schopnosti WaveNet napodobovat hlasy živých a mrtvých osob. Podle 2016 BBC článek, společnosti pracující na podobných technologiích klonování hlasu (např Adobe Voco ) mají v úmyslu vložit vodoznaky neslyšitelné pro lidi, aby se zabránilo padělání, a přitom zachovat hlasové klonování, které uspokojí například potřeby účelů zábavního průmyslu, bude mnohem méně složité a bude používat jiné metody, než jaké jsou nutné k oklamání forenzních důkazních metod a elektronických identifikačních údajů zařízení, takže přirozené hlasy a hlasy klonované pro účely zábavního průmyslu mohly být stále snadno rozeznány pomocí technologické analýzy.[18]

Aplikace

V době svého vydání DeepMind uvedl, že WaveNet vyžaduje příliš mnoho výpočetního výkonu, aby mohl být použit v reálných aplikacích.[19] V říjnu 2017 společnost Google oznámila 1000násobné zlepšení výkonu spolu s lepší kvalitou hlasu. WaveNet byl poté použit ke generování Asistent Google hlasy pro americkou angličtinu a japonštinu napříč všemi platformami Google.[20] V listopadu 2017 vydali vědci DeepMind výzkumný dokument popisující navrhovanou metodu „generování vysoce věrných vzorků řeči více než 20krát rychlejší než v reálném čase“, nazvanou „Pravděpodobnost hustoty destilace“.[21] Na výroční Konference vývojářů I / O v květnu 2018 bylo oznámeno, že jsou k dispozici nové hlasy Google Assistant, které umožňuje WaveNet; WaveNet výrazně snížil počet zvukových nahrávek, které byly nutné k vytvoření hlasového modelu, modelováním surového zvuku vzorků hlasového herce.[22]

Reference

  1. ^ van den Oord, Aaron; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (12.9.2016). "WaveNet: Generativní model surového zvuku". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. Citovat deník vyžaduje | deník = (Pomoc)
  2. ^ Kahn, Jeremy (09.09.2016). „Google DeepMind dosahuje průlomu generování řeči“. Bloomberg.com. Citováno 2017-07-06.
  3. ^ Meyer, David (09.09.2016). „Google DeepMind tvrdí obrovský pokrok v syntetizované řeči“. Štěstí. Citováno 2017-07-06.
  4. ^ Kahn, Jeremy (09.09.2016). „Google DeepMind dosahuje průlomu generování řeči“. Bloomberg.com. Citováno 2017-07-06.
  5. ^ Condliffe, Jamie (09.09.2016). „Když tento počítač mluví, možná budete chtít poslouchat.“. Recenze technologie MIT. Citováno 2017-07-06.
  6. ^ Hunt, A. J .; Black, A. W. (květen 1996). Výběr jednotek v systému zřetězení řeči pomocí velké databáze řeči (PDF). Sborník z konference IEEE International Conference on Acoustics, Speech and Signal Processing Conference 1996. 1. 373–376. CiteSeerX  10.1.1.218.1335. doi:10.1109 / ICASSP.1996.541110. ISBN  978-0-7803-3192-1.
  7. ^ Coldewey, Devin (09.09.2016). „WaveNet společnosti Google využívá neuronové sítě k vytváření děsivě přesvědčivé řeči a hudby.“. TechCrunch. Citováno 2017-07-06.
  8. ^ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (08.09.2016). „WaveNet: Generativní model surového zvuku“. DeepMind. Citováno 2017-07-06.
  9. ^ Zen, Heiga; Tokuda, Keiichi; Black, Alan W. (2009). "Statistická parametrická syntéza řeči". Řečová komunikace. 51 (11): 1039–1064. CiteSeerX  10.1.1.154.9874. doi:10.1016 / j.specom.2009.04.004.
  10. ^ Oord, Aaron van den; Dieleman, Sander; Zen, Heiga; Simonyan, Karen; Vinyals, Oriol; Graves, Alex; Kalchbrenner, Nal; Senior, Andrew; Kavukcuoglu, Koray (12.9.2016). "WaveNet: Generativní model surového zvuku". 1609. arXiv:1609.03499. Bibcode:2016arXiv160903499V. Citovat deník vyžaduje | deník = (Pomoc)
  11. ^ Oord a kol. (2016). WaveNet: Generativní model surového zvuku, Cornell University, 19. září 2016
  12. ^ Gershgorn, Dave (09.09.2016). „Určitě mluvíš s člověkem? Roboti začínají znít děsivě realisticky.“. Křemen. Citováno 2017-07-06.
  13. ^ Coldewey, Devin (09.09.2016). „WaveNet společnosti Google využívá neuronové sítě k vytváření děsivě přesvědčivé řeči a hudby.“. TechCrunch. Citováno 2017-07-06.
  14. ^ van den Oord, Aäron; Dieleman, Sander; Zen, Heiga (08.09.2016). „WaveNet: Generativní model surového zvuku“. DeepMind. Citováno 2017-07-06.
  15. ^ Li & Mand (2016). Rozložený sekvenční automatický kodér, 12. června 2018, Cornell University
  16. ^ Chorowsky a kol. (2019). Výuka reprezentace řeči bez dozoru pomocí automatických kódovačů WaveNet, 25. ledna 2019, Cornell University
  17. ^ Chen a kol. (2018). Ukázka efektivního adaptivního převodu textu na řeč, 27. září 2018, Cornell University. Podívejte se také na nejnovější článek Revize z ledna 2019.
  18. ^ Adobe Voco „Photoshop pro hlas“ vyvolává obavy, 7. listopadu 2016, BBC
  19. ^ „Adobe Voco„ Photoshop pro hlas “vyvolává obavy“. BBC novinky. 2016-11-07. Citováno 2017-07-06.
  20. ^ WaveNet se spouští v Google Assistant
  21. ^ Oord a kol. (2017): Parallel WaveNet: Rychlá vysoce věrná syntéza řeči, Cornell University, 28. listopadu 2017
  22. ^ Martin, Taylor (9. května 2018). „Vyzkoušejte zcela nové hlasy Asistenta Google hned teď“. CNET. Citováno 10. května 2018.

externí odkazy