Fázová transformace řízené odezvy (SRP-PHAT) je populární algoritmus pro lokalizace akustického zdroje,[1] dobře známý pro svůj robustní výkon v nepříznivých akustických prostředích.[2] Algoritmus lze interpretovat jako a tvarování paprsku - přístup založený na hledání kandidátní pozice, který maximalizuje výkon řízeného formovač paprsku se součtem.
Algoritmus
Řízená odezva
Zvažte systém
mikrofony, kde je každý mikrofon označen subindexem
. Diskrétní výstupní signál z mikrofonu je
. (Nevážený) řízený výkon (SRP) v prostorovém bodě
lze vyjádřit jako

kde
označuje množinu celých čísel a
by bylo časové zpoždění kvůli šíření ze zdroje umístěného v
do
-tý mikrofon.
(Vážený) SRP lze přepsat jako

kde
označuje komplexní konjugaci,
představuje diskrétní Fourierova transformace z
a
je váhová funkce ve frekvenční doméně (později diskutována). Termín
je diskrétní časový rozdíl příjezdu (TDOA) signálu emitovaného v poloze
do mikrofonů
a
, dána

kde
je vzorkovací frekvence systému,
je rychlost šíření zvuku,
je poloha
-tý mikrofon,
je 2-norma a
označuje operátora zaokrouhlování.
Zobecněná vzájemná korelace
Výše uvedená objektivní funkce SRP může být vyjádřena jako součet generalizovaných křížových korelací (GCC) pro různé páry mikrofonů v časovém zpoždění odpovídajícím jejich TDOA

kde GCC pro pár mikrofonu
je definován jako

Fázová transformace (PHAT) je efektivní váha GCC pro odhad časového zpoždění v prostředí dozvuku, která nutí GCC brát v úvahu pouze fázové informace příslušných signálů:

Odhad umístění zdroje
Algoritmus SRP-PHAT spočívá v proceduře prohledávání mřížky, která vyhodnocuje objektivní funkci
na mřížce kandidátských umístění zdroje
odhadnout prostorové umístění zdroje zvuku,
, jako bod mřížky, který poskytuje maximální SRP:

Upravený SRP-PHAT
Byly navrženy modifikace klasického algoritmu SRP-PHAT, aby se snížily výpočetní náklady na krok algoritmického vyhledávání v mřížce a zvýšila se robustnost metody. V klasickém SRP-PHAT je pro každý pár mikrofonů a pro každý bod mřížky vybrána jedinečná celočíselná hodnota TDOA jako akustické zpoždění odpovídající tomuto mřížkovému bodu. Tento postup nezaručuje, že všechny TDOA jsou spojeny s body v mřížce, ani že je prostorová mřížka konzistentní, protože některé body nemusí odpovídat průsečíku hyperboloidů. U hrubých mřížek je tento problém problematičtější, protože při snížení počtu bodů se část informací TDOA ztratí, protože většina zpoždění již není spojena s žádným bodem v mřížce.
Upravený SRP-PHAT[3] shromažďuje a používá informace TDOA týkající se objemu obklopujícího každý prostorový bod vyhledávací mřížky zvážením upravené funkce cíle:

kde
a
jsou dolní a horní meze akumulace zpoždění GCC, které závisí na prostorovém umístění
.
Akumulační limity
Limity akumulace lze předem přesně vypočítat prozkoumáním hranic oddělujících oblasti odpovídající bodům mřížky. Alternativně je lze vybrat zohledněním prostorového spád TDOA
, kde každá složka
gradientu je:

Pro obdélníkovou mřížku, kde jsou sousední body odděleny vzdálenost
, dolní a horní mez akumulace jsou dány vztahem:


kde
a úhly směru gradientu jsou dány vztahem


Viz také
Reference