Prodloužení doby zvuku a změna měřítka výšky tónu - Audio time stretching and pitch scaling

Čas se táhne je proces změny rychlosti nebo doby trvání zvukový signál aniž by to ovlivnilo jeho hřiště. Škálování výšky tónu je pravý opak: proces změny výšky tónu bez ovlivnění rychlosti. Posun výšky tónu je změna měřítka výšky tónu implementovaná v efektová jednotka a určené k živému vystoupení. Ovládání výšky tónu je jednodušší proces, který současně ovlivňuje výšku a rychlost zpomalením nebo zrychlením záznamu.

Tyto procesy se často používají k přizpůsobení výšek a temp dvou předem nahraných klipů pro mixování, když nelze klipy reperformovat nebo převzorkovat. Časové roztahování se často používá k přizpůsobení rozhlasové reklamy[1] a zvuk televizní reklamy[2] přesně do 30 nebo 60 sekund, které jsou k dispozici. Lze jej použít k přizpůsobení delšího materiálu určenému časovému úseku, například 1hodinovému vysílání.

Převzorkování

Nejjednodušší způsob, jak změnit trvání nebo výšku tónu a digitální zvuk klip prošel převod vzorkovací frekvence. Jedná se o matematickou operaci, která efektivně obnovuje spojitý průběh z jeho vzorků a poté vzorky, které tento průběh znovu vytvářejí jinou rychlostí. Když se nové samply přehrávají s původní vzorkovací frekvencí, zvukový klip zní rychleji nebo pomaleji. Frekvence ve vzorku jsou bohužel vždy škálovány stejnou rychlostí jako rychlost, což převádí vnímanou výšku tónu nahoru nebo dolů v procesu. Jinými slovy, zpomalení nahrávání sníží výšku tónu, jeho zrychlení zvýší výšku tónu. To je analogické s zrychlením nebo zpomalením analog nahrávání, jako a gramofonový záznam nebo páska, vytváření efekt Chipmunk. Pomocí této metody nelze dva efekty oddělit. Bicí stopu, která neobsahuje žádné posazené nástroje, lze středně rychle převést na tempo bez negativních účinků, ale posazená stopa nikoli.

Frekvenční doména

Fázový vokodér

Jedním ze způsobů prodloužení délky signálu bez ovlivnění výšky tónu je vytvoření a fázový vokodér po Flanaganovi, Goldenovi a Portnoffovi.

Základní kroky:

  1. vypočítat okamžitý vztah frekvence / amplitudy signálu pomocí STFT, který je diskrétní Fourierova transformace krátkého, překrývajícího se a hladce okénkovaného bloku vzorků;
  2. aplikovat nějaké zpracování na Fourierovy transformační veličiny a fáze (jako převzorkování bloků FFT); a
  3. proveďte inverzní STFT tak, že provedete inverzní Fourierovu transformaci na každém bloku a přidáte výsledné bloky vln, nazývané také overlap and add (OLA).[3]

Zpracovává fázový vokodér sinusoida komponenty dobře, ale včasné implementace zavedly značné rozmazání přechodný („beat“) křivky při všech necelých rychlostech komprese / expanze, díky nimž jsou výsledky fázové a rozptýlené. Nedávná vylepšení umožňují lepší kvalitu výsledků při všech poměrech komprese / expanze, ale stále zůstává efekt zbytkového rozmazání.

Techniku ​​fázového vokodéru lze také použít k provedení posunu výšky tónu, sborování, manipulace zabarvení, harmonizace a dalších neobvyklých úprav, které lze změnit jako funkci času.

Systém pro sinusovou analýzu / syntézu (založený na McAulay & Quatieri 1988, str. 161)[4]

Sinusové spektrální modelování

Další metoda pro protahování času závisí na a spektrální model signálu. V této metodě jsou vrcholy identifikovány v rámcích pomocí STFT signálu a sinusové "stopy" jsou vytvořeny spojením vrcholů v sousedních rámcích. Stopy jsou poté znovu syntetizovány v novém časovém měřítku. Tato metoda může přinést dobré výsledky jak na polyfonním, tak na perkusním materiálu, zvláště když je signál rozdělen do dílčích pásem. Tato metoda je však výpočetně náročnější než jiné metody.[Citace je zapotřebí ]

Modelování monofonního zvuku jako pozorování podél šroubovice funkce s cylindrickou doménou

Časová doména

SOLA

Rabiner a Schafer v roce 1978 navrhli alternativní řešení, které funguje v EU časová doména: pokus najít doba (nebo ekvivalentně základní frekvence ) dané části vlny pomocí některých algoritmus detekce výšky tónu (obvykle vrchol signálu autokorelace, nebo někdy cepstral zpracování) a prolínání z jednoho období do druhého.

Tomu se říká harmonické škálování v časové oblasti[5] nebo metoda synchronizovaného přidávání překrytí (SOLA) a funguje o něco rychleji než fázový vokodér na pomalejších strojích, ale selže, když autokorelace nesprávně odhadne dobu signálu se složitými harmonickými (jako například orchestrální kousky).

Adobe Audition (dříve Cool Edit Pro) se zdá, že to řeší hledáním období nejblíže středovému období, které uživatel zadá, což by měl být celočíselný násobek tempa a mezi 30 Hz a nejnižší basová frekvence.

To má mnohem omezenější rozsah než zpracování založené na fázovém vokodéru, ale může být mnohem méně náročné na procesor pro aplikace v reálném čase. Poskytuje nejkoherentnější výsledky[Citace je zapotřebí ] pro jednostranné zvuky, jako jsou hlasové nebo hudebně monofonní nahrávky nástrojů.

Špičkové komerční balíčky pro zpracování zvuku buď kombinují tyto dvě techniky (například oddělením signálu do sinusoidních a přechodových průběhů), nebo používají jiné techniky založené na vlnka transformace nebo umělé zpracování neuronové sítě[Citace je zapotřebí ], produkující nejkvalitnější časové protahování.

Rámcový přístup

Rámcový přístup mnoha postupů TSM

Aby se zachovala výška zvukového signálu při roztahování nebo komprimaci jeho trvání, postupuje mnoho postupů modifikace v časovém měřítku (TSM) podle rámcového přístupu.[6]Vzhledem k původnímu diskrétnímu zvukovému signálu je prvním krokem této strategie rozdělení signálu na krátký analytické rámce pevné délky. Rámečky analýzy jsou rozmístěny podle pevného počtu vzorků, které se nazývají analýza hopsize Aby bylo možné dosáhnout skutečné úpravy v časovém měřítku, jsou analytické rámce dočasně přemístěny, aby měly a syntéza hopsize Toto přemístění rámce má za následek modifikaci doby trvání signálu o a roztahovací faktor zPouhé překrytí nemodifikovaných analytických rámců však obvykle vede k nežádoucím artefaktům, jako jsou fázové diskontinuity nebo fluktuace amplitudy. Aby se zabránilo těmto druhům artefaktů, jsou analytické rámce přizpůsobeny tak, aby syntetické rámce, před rekonstrukcí časově upraveného výstupního signálu.

Strategie, jak odvodit rámce syntézy z rámců analýzy, je klíčovým rozdílem mezi různými postupy TSM.

Rychlost sluchu a rychlost mluvení

V konkrétním případě řeči lze časové protahování provést pomocí PSOLA.

I když by se dalo očekávat zrychlení za účelem snížení porozumění, Herb Friedman říká, že „Experimenty ukázaly, že mozek pracuje nejefektivněji, pokud je rychlost informací skrz uši - prostřednictvím řeči -„ průměrná “rychlost čtení, která je asi 200–300 wpm (slova za minutu), přesto se průměrná rychlost řeči pohybuje kolem 100–150 wpm. “[7]

Zrychlení zvuku je považováno za ekvivalent rychlost čtení.[8][9]

Škálování výšky tónu

Posun výšky tónu (Měřítko frekvence) je poskytována dne Večerní doba Harmonizátor
Frekvenční posun poskytuje Bode Frekvenční měnič nedrží frekvenční poměr a harmonie.

Tyto techniky lze také použít k přemístit zvukový vzorek při zachování konstantní rychlosti nebo trvání. Toho lze dosáhnout časovým roztažením a následným převzorkováním zpět na původní délku. Alternativně může být frekvence sinusoidů v a sinusový model může být přímo změněn a signál rekonstruován ve vhodném časovém měřítku.

Lze volat transpozici frekvence škálování nebo posunutí výšky tónu, v závislosti na perspektivě.

Například je možné posunout výšku každé noty o perfektní pětinu a udržet tempo stejné. Jeden může tuto transpozici zobrazit jako „posunutí výšky tónu“, „posunutí“ každé noty o 7 kláves na klavírní klávesnici nebo přidání pevná částka na Mel stupnice nebo lineární přidání pevné částky prostor hřiště Je možné zobrazit stejnou transpozici jako „škálování frekvence“, „škálování“ (vynásobení) frekvence každé noty 3/2.

Hudební transpozice zachovává poměry harmonický frekvence, které určují zvuk témbr, na rozdíl od frekvenční posun provádí amplitudová modulace, který přidává k frekvenci každé noty offset pevné frekvence. (Teoreticky by se dalo provést doslovně škálování výšky tónu ve kterém je měřítko umístění hudebního prostoru hřiště [vyšší tón by byl posunut ve větším intervalu v prostoru lineárního hřiště než nižší tón], ale to je velmi neobvyklé, a ne hudební.[Citace je zapotřebí ])

Zpracování v časové doméně zde funguje mnohem lépe, protože rozmazání je méně patrné, ale škálování hlasových vzorků zkresluje formanty do jakési Alvin a Chipmunkové -jako efekt, který může být žádoucí nebo nežádoucí. Proces, který zachovává formanty a charakter hlasu, zahrnuje analýzu signálu pomocí vokodér kanálu nebo LPC vokodér plus některý z několika algoritmy detekce výšky tónu a poté jej znovu syntetizovat na jiné základní frekvenci.

Podrobný popis starších analogových technik nahrávání pro posun výšky tónu lze nalézt v Alvin a Chipmunkové vstup.

Viz také

ostatní

Reference

  1. ^ https://web.archive.org/web/20080527184101/http://www.tvtechnology.com/features/audio_notes/f_audionotes.shtml
  2. ^ http://www.atarimagazines.com/creative/v9n7/122_Variable_speech.php
  3. ^ Jont B. Allen (červen 1977). „Krátkodobá spektrální analýza, syntéza a modifikace diskrétní Fourierovou transformací“. Transakce IEEE na akustiku, řeč a zpracování signálu. ASSP-25 (3): 235–238.
  4. ^ McAulay, R. J .; Quatieri, T. F. (1988), „Zpracování řeči na základě sinusového modelu“ (PDF), Lincoln Laboratory Journal, 1 (2): 153–167, archivovány od originál (PDF) dne 2012-05-21, vyvoláno 2014-09-07
  5. ^ David Malah (duben 1979). "Algoritmy časové domény pro redukci harmonické šířky pásma a časové škálování řečových signálů". Transakce IEEE na akustiku, řeč a zpracování signálu. ASSP-27 (2): 121–133.
  6. ^ Jonathan Driedger a Meinard Müller (2016). „Přehled časových úprav hudebních signálů“. Aplikované vědy. 6 (2): 57. doi:10,3390 / aplikace6020057.
  7. ^ Variabilní řeč, Creative Computing sv. 9, č. 7 / červenec 1983 / s. 122
  8. ^ http://www.nevsblog.com/2006/06/23/listen-to-podcasts-in-half-the-time/
  9. ^ https://web.archive.org/web/20060902102443/http://cid.lib.byu.edu/?p=128

externí odkazy