Algoritmus detekce výšky tónu - Pitch detection algorithm
A algoritmus detekce výšky tónu (PDA) je algoritmus navržen k odhadu hřiště nebo základní frekvence a kvaziperiodický nebo oscilační signál, obvykle a digitální záznam z mluvený projev nebo hudební nota nebo tón. To lze provést v časová doména, frekvenční doména, nebo oboje.
PDA se používají v různých kontextech (např. fonetika, načítání hudebních informací, kódování řeči, systémy hudebního výkonu ), takže na algoritmus mohou být kladeny různé požadavky. Ještě existuje[když? ] neexistuje jediný ideální PDA, takže existuje celá řada algoritmů, většinou spadajících do níže uvedených tříd.[1]
PDA obvykle odhaduje periodu kvaziperiodického signálu a poté tuto hodnotu invertuje, aby poskytla frekvenci.
Obecné přístupy
Jedním z jednoduchých přístupů by bylo změřit vzdálenost mezi nimi přechod nula body signálu (tj rychlost přechodu na nulu ). To však nefunguje dobře s komplikovaným křivky které se skládají z několika sinusových vln s různými obdobími nebo hlučných dat. Existují nicméně případy, kdy může být přechod nulou užitečným měřítkem, např. v některých řečových aplikacích, kde se předpokládá jediný zdroj.[Citace je zapotřebí ] Díky jednoduchosti algoritmu je jeho implementace „levná“.
Sofistikovanější přístupy porovnávají segmenty signálu s ostatními segmenty kompenzovanými zkušební dobou a hledají shodu. AMDF (funkce rozdílu průměrné velikosti ), ASMDF (Average Squared Mean Difference Function) a další podobné autokorelace algoritmy fungují tímto způsobem. Tyto algoritmy mohou poskytnout velmi přesné výsledky pro vysoce periodické signály. Mají však problémy s falešnou detekcí (často „chyby oktávy"), se někdy dokáže špatně vyrovnat s hlučnými signály (v závislosti na implementaci) a - ve svých základních implementacích - se nevypořádají dobře polyfonní zvuky (které zahrnují více hudebních not různých výšek).[Citace je zapotřebí ]
Proud[když? ] Algoritmy detektoru výšky tónu v časové doméně mají tendenci stavět na výše zmíněných základních metodách, s dalšími vylepšeními, aby výkon více odpovídal lidskému hodnocení výšky tónu. Například algoritmus YIN[2] a MPM algoritmus[3] jsou založeny na autokorelace.
Přístupy ve frekvenční oblasti
Je možná polyfonní detekce ve frekvenční doméně, obvykle s využitím periodogram převést signál na odhad hodnoty frekvenční spektrum[4] . To vyžaduje větší výpočetní výkon, protože se zvyšuje požadovaná přesnost, i když dobře známá účinnost FFT, klíčová součást periodogram algoritmus, je vhodně efektivní pro mnoho účelů.
Mezi oblíbené algoritmy frekvenční domény patří: harmonické produktové spektrum;[5][6] cepstral analýza[7] a maximální pravděpodobnost který se pokouší přiřadit charakteristiky frekvenční domény k předdefinovaným frekvenčním mapám (užitečné pro detekci výšky tónu pevných ladicích nástrojů); a detekce vrcholů v důsledku harmonických řad.[8]
Pro zlepšení odhadu výšky tónu odvozeného z diskrétního Fourierova spektra byly použity techniky jako spektrální přeřazení (fázové) nebo Grandkeova interpolace (na základě velikosti) lze použít k překročení přesnosti poskytované zásobníky FFT. Další fázový přístup nabízejí Brown a Puckette [9]
Spektrální / časové přístupy
Algoritmy detekce spektrálního / dočasného hřiště, např. sledování výšky tónu YAAPT,[10][11] jsou založeny na kombinaci zpracování v časové doméně pomocí autokorelace funkce, jako je normalizovaná křížová korelace a zpracování ve frekvenční doméně využívající spektrální informace k identifikaci výšky tónu. Pak lze mezi kandidáty odhadnutými ze dvou domén vypočítat konečnou stopu stopy pomocí dynamické programování. Výhodou těchto přístupů je, že chyba sledování v jedné doméně může být snížena procesem v druhé doméně.
Detekce výšky řeči
Základní frekvence mluvený projev se může pohybovat od 40 Hz pro nízké hlasy do 600 Hz pro vysoké hlasy.[12]
Metody autokorelace potřebují k detekci výšky tónu minimálně dvě periody. To znamená, že aby bylo možné detekovat základní frekvenci 40 Hz, je třeba analyzovat alespoň 50 milisekund (ms) řečového signálu. Během 50 ms však nemusí mít řeč s vyššími základními frekvencemi nutně stejnou základní frekvenci v celém okně.[12]
Viz také
Reference
- ^ D. Gerhard. Extrakce výšky tónu a základní frekvence: Historie a současné techniky, technická zpráva, Ústav výpočetní techniky, University of Regina, 2003.
- ^ A. de Cheveigné a H. Kawahara. YIN, základní odhad frekvence pro řeč a hudbu. The Journal of the Acoustical Society of America, sv. 111, č. 4, duben 2002. doi:10.1121/1.1458024
- ^ P. McLeod a G. Wyvill. Chytřejší způsob, jak najít hřiště. In Proceedings of the International Computer Music Conference (ICMC’05), 2005.
- ^ Hayes, Monson (1996). Statistické zpracování a modelování digitálního signálu. John Wiley & Sons, Inc. str. 393. ISBN 0-471-59431-8.
- ^ Algoritmy detekce výšky tónu, online zdroj z Souvislosti
- ^ A. Michael Noll, „Stanovení výšky lidské řeči pomocí harmonického spektra produktu, harmonického součtu spektra a odhadu maximální pravděpodobnosti“, Proceedings of the Symposium on Computer Processing in Communications, Vol. XIX, Polytechnic Press: Brooklyn, New York, (1970), str. 779-797.
- ^ A. Michael Noll, “Stanovení výšky tónu cepstrumu, “Journal of the Acoustical Society of America, Vol. 41, č. 2, (únor 1967), str. 293-309.
- ^ Mitre, Adriano; Queiroz, Marcelo; Faria, Régis. Přesné a efektivní stanovení základní frekvence z přesných částečných odhadů. Sborník ze 4. konference AES v Brazílii. 113-118, 2006.
- ^ Brown JC a Puckette MS (1993). Stanovení základní frekvence s vysokým rozlišením na základě fázových změn Fourierovy transformace. J. Acoust. Soc. Dopoledne. Svazek 94, vydání 2, str. 662-667 [1]
- ^ Stephen A. Zahorian a Hongbing Hu. Spektrální / časová metoda pro robustní sledování základní frekvence. The Journal of the Acoustical Society of America, 123 (6), 2008. doi:10.1121/1.2916590
- ^ Stephen A. Zahorian a Hongbing Hu. Funkce YAAPT Pitch Tracking MATLAB
- ^ A b Huang, Xuedong; Alex Acero; Hsiao-Wuen Hon (2001). Zpracování mluveného jazyka. Prentice Hall PTR. p. 325. ISBN 0-13-022616-5.