Ambisonické formáty pro výměnu dat - Ambisonic data exchange formats - Wikipedia
![]() | tento článek potřebuje pozornost odborníka na matematiku. Specifický problém je: Vzorce je třeba zkontrolovat, chyby se mohly vkradnout kvůli převodu z různých notací.prosinec 2013) ( |
Formáty pro výměnu dat pro Ambisonics prošly radikálními změnami od počátků čtyřstopé magnetické pásky. Vědci pracující na systémech velmi vysokého řádu nenašli žádný přímý způsob, jak rozšířit tradiční formáty tak, aby vyhovovaly jejich potřebám. Kromě toho neexistovala široce přijímaná formulace sférické harmonické pro akustiku, takže jeden byl vypůjčený z chemie, kvantové mechaniky, počítačové grafiky nebo jiných oborů, z nichž každý měl jemně odlišné konvence. To vedlo k neblahé šíření vzájemně nekompatibilních formátů ad hoc a k velkému poškrábání.
Tato stránka se pokouší zdokumentovat různé existující formáty, jejich zdůvodnění a historii, a to pro ty terminálně zvědavé a ty nešťastné, že se s nimi musí podrobně zabývat.
Sférické harmonické v Ambisonics
Běžnou formulací sférických harmonických v kontextu Ambisonics je[1]
kde označuje sférickou harmonickou stupně a index s řadou .
(Všimněte si, že pokud , pak .)
je normalizační faktor (viz níže ), a je přidružený Legendrov polynom stupně a objednat Úhel azimutu je nula rovně a zvyšuje se proti směru hodinových ručiček. Výškový úhel je nula na vodorovné rovině a kladná na horní polokouli.
Bohužel „ambisonický řád“ se nazývá stupeň v matematické řeči, která používá objednat pro „Ambisonic index“ .
Vztah sférických harmonických a signálů ve formátu B.
Pro zdrojový signál ve směru , komponenty Ambisonic jsou dány
- .
Pokud překleneme směrový vektor od počátku směrem ke zdroji, dokud neprotne příslušnou sférickou harmonickou, délka tohoto vektoru je koeficient, který se vynásobí zdrojovým signálem. Opakujte pro všechny sférické harmonické až do požadovaného ambisonického řádu.
Předpoklady pro úspěšnou výměnu dat
Pro úspěšnou výměnu materiálu Ambisonic vyžaduje některý software souhlas odesílatele a příjemce objednávání komponent, jejich normalizace nebo váženía příbuzný polarita harmonických.
Protože je možné vynechat části sférické harmonické vícepólové expanze pro obsah, který má nejednotné rozlišení závislé na směru (známé jako smíšené pořadí ), může být také nutné definovat, jak zacházet chybějící součásti.
V případě přenosu „po drátě“, ať už jde o skutečný digitální vícekanálový odkaz nebo jakýkoli počet virtuálních patchcordů v rámci zvukového procesoru, musí být tyto vlastnosti na obou koncích výslovně sladěny, protože obvykle neexistuje ustanovení o výměně metadat a parametrech jednání. V případě souborů může být možná určitá flexibilita v závislosti na formátu souboru a expresivitě jeho sady metadat.
V praxi se však široce používají pouze dva formáty. První je Furse-Malham formát vyššího řádu, což je rozšíření tradiční formát B.a modernější SN3D, v ACN pořadí kanálů. V žádném případě neexistuje nejednoznačnost ohledně uspořádání, normalizace, vážení nebo polarity a je vzácné vidět případy s chybějícími součástmi. Třetí formát je v omezeném použití: N3D, také v pořadí kanálů ACN.
Objednávání komponent
The tradiční formát B. () se zabýval pouze nulovým a prvním ambisonickým řádem. Kvůli silné korespondenci mezi sférickými harmonickými a mikrofonními polárními vzory a skutečnosti, že tyto polární vzory mají jasně definované směry, se zdálo přirozené uspořádat a pojmenovat komponenty stejným způsobem jako osy pravostranného souřadného systému.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/b/ba/Spherical_Harmonics_deg5.png/400px-Spherical_Harmonics_deg5.png)
U vyšších řádů se tento precedens stává nepříjemným, protože sférické harmonické jsou nejintuitivněji uspořádány symetricky kolem jednoho z-rotačně symetrického prvku m = 0 každé objednávky s vodorovnými sinusovými podmínkami m <0 nalevo a kosinové výrazym> 0 doprava (viz obrázek).
Furse-Malham
v Furse-Malham formát vyššího řádu, rozšíření tradičního formátu B až do třetího řádu,[2] objednávky 2 () a 3 () začínají jejich z-rotačně symetrickým prvkem a poté vyskočí ven doprava a doleva (viz tabulka) s vodorovnými součástmi na konci.
SID
0 | ||||||
2 | 3 | 1 | ||||
5 | 7 | 8 | 6 | 4 | ||
10 | 12 | 14 | 15 | 13 | 11 | 9 |
Ve své klíčové práci z roku 2001[3] Daniel použil tříindexovou nomenklaturu pro sférické harmonické, což odpovídá v zde použité notaci.[poznámka 1] Naznačil ještě další pořadí kanálů, které se následně vyvinulo v explicitní návrh SID pro Označení jednoho indexu[4] který přijala řada výzkumníků. Toto schéma je kompatibilní s formátem B prvního řádu B a pokračuje v procházení vyšších sférických harmonických stejným způsobem, přičemž na konci je rotačně symetrická složka z, která prochází nejprve horizontálními složkami.
Díky tomu je Danielovo objednávání nekompatibilní s Furse-Malhamem. Objednávání SID není rozšířené.
ACN
0 | ||||||
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | ||
9 | 10 | 11 | 12 | 13 | 14 | 15 |
U budoucích systémů vyššího řádu je přijetí Ambisonic Channel Number (ACN)[5]dosáhl široké shody. Určuje se algoritmicky jako .
ACN je široce používán s SN3D a N3D níže.
Normalizace
Pro úspěšnou rekonstrukci zvukového pole je důležité dohodnout se na normalizační metodě pro sférické harmonické složky. Běžné jsou následující přístupy:
maxN
Schéma maxN normalizuje každou jednotlivou složku tak, aby nikdy nepřekročila zisk 1,0 pro panofovaný monofonní zdroj. Malham to uvádí „[zatímco] tento přístup není z matematického hlediska důsledně„ správný “[proč? ], má významné technické výhody v tom, že omezuje maximální úrovně generované panovaným mono zdrojem v některých kanálech vyššího řádu. “[6]Tato vlastnost je zvláště zajímavá pro digitální rozhraní s pevným bodem.
MaxN se používá ve formátu Furse-Malham (s výjimkou korekčního faktoru -3 dB pro , díky čemuž je přímo kompatibilní s tradičním formátem B). Jinak není rozšířené.
SN3D
SN3D znamená Schmidtovu semi-normalizaci a běžně se používá v geologii a magnetice. Váhové koeficienty jsou
Původně zaveden do Ambisonic použití Daniel, poznamenává: „Vysoký stupeň obecnosti - kódovací koeficienty jsou rekurzivně vypočítatelné a komponenty prvního řádu jsou vektory jednoty v příslušných směrech dopadu.“.[8]
S SN3D, na rozdíl od N3D, žádná složka nikdy nepřekročí špičkovou hodnotu složky 0. řádu u jednobodových zdrojů.[1]Toto schéma bylo přijato navrhovaným AmbiX formát.
SN3D (v pořadí kanálů ACN) je široce používán a běžnou volbou při vývoji nového softwaru.
Ve specifikačním papíru Ambix je 2 minus delta m vyděleno 4pi.
N3D
Nejběžnějším přístupem k normalizaci je N3D nebo úplná normalizace ve 3D. Daniel to popisuje takto: "Ortonormální základ pro 3D rozklad. Jednoduchý vztah k SN3D [..]. Zajišťuje stejnou sílu kódovaných komponent v případě dokonale rozptýleného 3D pole. [..] Zjevný význam pro řešení problémů s dekódováním [..] (3D rekonstrukce). "[9]
Vztah k SN3D je
- .[10]
Tato normalizace je standardní ve fyzice a matematice a je podporována některými softwarovými balíčky Ambisonic. Používá se v MPEG-H. SN3D je však nyní mnohem běžnější.
Protože se N3D a SN3D liší pouze faktory změny měřítka, je při práci s oběma nutná opatrnost, protože při prvním poslechu nemusí být zřejmé, zda došlo k chybě, zejména u systému s malým počtem reproduktorů.
N2D / SN2D
Kromě toho existují dvě schémata, která zohledňují pouze horizontální komponenty. To má praktické výhody pro média s pevným bodem v běžné situaci, kdy jsou zdroje soustředěny na vodorovné rovině, ale normalizace je poněkud libovolná a její předpoklady neplatí pro silně rozptýlená zvuková pole a zvukové scény se silnými zvýšenými zdroji. Protože Ambisonics má být izotropní a 2D schémata rozhodně nejsou, jejich použití se nedoporučuje.
Polarita
Třetí komplikace vyplývá z kvantově mechanické formulace sférických harmonických, kterou přijali někteří výzkumníci Ambisonics. Zahrnuje faktor , konvence s názvem Condon-Shortleyova fáze, což relativního invertuje polarita všech ostatních složek v daném ambisonickém řádu. Termín lze složit do formulace asociovaných Legendrových polynomů nebo do normalizačního koeficientu, takže to nemusí být vždy zřejmé.
MATLAB a GNU oktáva oba zahrnout Condon-Shortleyova fáze ve své legendre (,X)
funkce, ale vrátit to opětovným použitím faktoru v Schmidtově semi-normalizované formě legendre (, X, 'sch')
.[11][12]
Wolfram jazyk taky zahrnuje C-S fáze ve své legendreP (,X)
implementace,[13] a zachovává to dovnitř SphericalHarmonicY []
, což je plně normalizováno.[14] Všimněte si, že tato funkce vrací komplexní hodnoty a používá fyzikální konvenci pro sférické souřadnice kde je zenitový úhel (úhel od kladné osy Z) a je azimut (úhel proti směru hodinových ručiček kolem kladné osy Z).
Přítomnost fáze Condon-Shortley v částech signálního řetězce se obvykle projevuje nevyzpytatelným chováním panningu a zvětšováním zjevné šířky zdroje při přechodu na vyšší řády, což může být do jisté míry obtížné diagnostikovat a mnohem těžší eliminovat. Proto je jeho použití silně nedoporučujemev kontextu Ambisonics.
Žádný z výše popsaných ambisonických výměnných formátů nepoužívá fázi Condon-Shortley. Polarita je obecně znepokojivá pouze při pokusech o sladění teoretických formulací sférických harmonických z jiných akademických oborů.
Referenční tabulka rozvržení a normalizací
Následující tabulka poskytuje přehled všech dosud publikovaných formátů Ambisonic.
- U Furse-Malham (a tradičního formátu B) seřaďte podle sloupce FuMa a vynásobte sférickou harmonickou maxN *[poznámka 2] faktor.
- U SID podle Daniela seřaďte podle SID a použijte příslušný normalizační faktor, jak je uvedeno v metadatech souboru.
- U základního AmbiX seřaďte podle ACN a použijte faktor SN3D.
- U rozšířeného AmbiXu a všech ostatních kombinací hodně štěstí!
Konverzní faktory lze použít buď na komponenty Ambisonic nebo sférické harmonické .
Data jsou převzata z Chapman (2008).[15]
Nespoléhejte, prosím, na tuto tabulku, dokud nebude důkladně zkontrolována a nebude odstraněno upozornění „Ve výstavbě“.
Konverzní faktory | |||||||
---|---|---|---|---|---|---|---|
ACN | FuMa[Poznámka 3] | SID | Sférická harmonická v N3D | do SN3D | do maxN *[poznámka 2] | ||
0 | 010 | 0 | 0 | 0 | |||
1 | 032 | 2 | 1 | -1 | |||
2 | 043 | 3 | 1 | 0 | |||
3 | 021 | 1 | 1 | 1 | |||
4 | 098 | 5 | 2 | -2 | |||
5 | 07 6 | 7 | 2 | -1 | |||
6 | 054 | 8 | 2 | 0 | |||
7 | 065 | 6 | 2 | 1 | |||
8 | 087 | 4 | 2 | 2 | |||
9 | 1615 | 10 | 3 | -3 | |||
10 | 1413 | 12 | 3 | -2 | |||
11 | 1211 | 14 | 3 | -1 | |||
12 | 109 | 15 | 3 | 0 | |||
13 | 1110 | 13 | 3 | 1 | |||
14 | 1312 | 11 | 3 | 2 | |||
15 | 1514 | 9 | 3 | 3 | |||
16 | Ó | 17 | 4 | -4 | Ó | ||
17 | Ó | 19 | 4 | -3 | Ó | ||
18 | Ó | 21 | 4 | -2 | Ó | ||
19 | Ó | 23 | 4 | -1 | Ó | ||
20 | Ó | 24 | 4 | 0 | Ó | ||
21 | Ó | 22 | 4 | 1 | Ó | ||
22 | Ó | 20 | 4 | 2 | Ó | ||
23 | Ó | 18 | 4 | 3 | Ó | ||
24 | Ó | 16 | 4 | -4 | Ó |
Mějte však na paměti, že široce se používá pouze kódování Furse-Malham a SN3D / ACN. (Tradiční formát B je podmnožinou Furse-Malhama.) U obou těchto kódování lze rovnice vyjádřit přímo, bez samostatných normalizačních nebo konverzních faktorů, a kolem řazení neexistuje žádná nejednoznačnost.
Formáty souborů a metadata
Pro ukládání a přenos na základě souborů je třeba definovat další vlastnosti, například základní formát souboru a v případě potřeby doprovodná metadata.
AMB
The .amb
formát souboru navrhl a definoval Richard Dobson v roce 2001,[16] na základě Microsoftu WAVE_FORMAT_EXTENSIBLE změna WAV formát zvukových souborů. Nařizuje použití kódování Furse-Malham.
Od svého rodiče zdědí maximální velikost souboru 4 GB, což je vážné omezení pro živé nahrávání ve vyšších řádech.
.amb
Soubory se odlišují od ostatního vícekanálového obsahu svou příponou a nastavením podtypu souboru Globálně jedinečný identifikátor v jejich hlavičkových datech na některou z následujících hodnot:
SUBTYPE_AMBISONIC_B_FORMAT_PCM {00000001-0721-11d3-8644-C8C1CA000000}
pro celočíselné vzorky neboSUBTYPE_AMBISONIC_B_FORMAT_IEEE_FLOAT {00000003-0721-11d3-8644-C8C1CA000000}
pro plovoucí desetinnou čárku.
Definice vyžaduje, aby WAVE_EX dwChannelMask
musí být nastavena na nulu. Dále doporučuje, aby soubor obsahoval a VRCHOL
blok obsahující hodnotu a pozici nejvyššího vzorku v každém kanálu.
Kanály v rámci .amb
soubor jsou prokládány a všechny nepoužívané kanály jsou vynechány. To umožňuje identifikovat tradiční # H # P smíšená objednávka obsah podle počtu přítomných kanálů podle následující tabulky:[16]
Počet chns | Objednat | Popis | Rozložení komponent | |
---|---|---|---|---|
Horiz. | vert. | |||
1 | 0 | 0 | mono | |
2 | ½[poznámka 4] | 0 | M / S stereo | |
3 | 1 | 0 | horizontální prvního řádu | |
4 | 1 | 1 | full-sphere prvního řádu | |
5 | 2 | 0 | horizontálně druhého řádu | |
6 | 2 | 1 | horizontálního řádu druhého řádu, plné sféry prvního řádu | |
7 | 3 | 0 | horizontální třetího řádu | |
8 | 3 | 1 | horizontální horizont třetího řádu, plná sféra prvního řádu | |
9 | 2 | 2 | full-sphere druhého řádu | |
11 | 3 | 2 | horizontální třetího řádu, plná sféra druhého řádu | |
16 | 3 | 3 | plná sféra třetího řádu |
The bezplatný a otevřený zdroj C knihovna libsndfile zahrnoval .amb
podpora od roku 2007.
Dobsonův formát pomohl snadno zpřístupnit nativní obsah Ambisonic nadšencům a připravit půdu pro výzkum a nasazení Ambisonics vyššího řádu. I když to nemůže škálovat dále než třetího řádu a nevyhovuje # H # V sady smíšených objednávek, jeho schopnosti jsou více než dostatečné pro většinu dnes existujícího obsahu Ambisonic a zpětnou kompatibilitu k .amb
je důležitou vlastností každého pracovního postupu Ambisonic v reálném světě.
AmbiX
AmbiX[1] přijímá základní zvukový formát společnosti Apple nebo .caf
. Je škálovatelný na libovolně vysoké objednávky a nemá prakticky relevantní omezení velikosti souboru. Soubory AmbiX obsahují lineární data PCM s délkou slova 16, 24 nebo 32 bitů s pevným bodem nebo 32 bit float, při jakékoli vzorkovací frekvenci platné pro .caf
. Využívá řazení kanálů ACN s normalizací SN3D.
The základní formát AmbiX nařizuje úplnou sadu signálů celé koule, jejíž pořadí lze jednoznačně a triviálně odvodit z počtu kanálů. Pouze minimální informace v záhlaví vyžadovaná .caf
Specifikace jsou k dispozici a nejsou zahrnuta žádná další metadata.
The rozšířený formát je označen přítomností uživatelem definovaného bloku s UUID
1AD318C3-00E5-5576-BE2D-0DCA2460BC89
.
(Původní použité specifikace , což je neplatný UUID[17]) Dále záhlaví nyní obsahuje matice adaptéru koeficientů, které je třeba aplikovat na datové toky, než je lze přehrát. Tato matice poskytuje obecný způsob mapování užitečných zatížení v jakémkoli předchozím formátu a jakékoli kombinaci objednávek na kanonickou perifonii, objednávání ACN a normalizaci SN3D. Teoreticky to může dokonce přizpůsobit zvuková pole rozpětí pouze podmnožin koule.49454D2E-4154-2F41-4D42-49582F584D4C
AmbiX byl původně navržen na Ambisonic Symposium 2011, navazující na předchozí práci Travise[18] a Chapman a kol.[5]
Poznámky
- ^ sgn (x) je Funkce podepsat.
- ^ A b MaxN * (označeno hvězdičkou) označuje normalizaci maxN s dalším korekčním faktorem -3 dB pro W.
- ^ Obvyklá notace pro kanály FuMa je pouze jedno písmeno. Předpona horního indexu je pouze ad-hoc hack umožňující správné třídění, protože lexikální třídění by zaměnilo ambisonické řády.
- ^ Dobson (2001) používá „1“, což by znamenalo kompletní sadu horizontálních komponent WXY.
Reference
- ^ A b C Christian Nachbar; Franz Zotter; Etienne Deleflie; Alois Sontacchi (2. – 3. Června 2011). AmbiX - doporučený formát Ambisonics (PDF). Ambisonics Symposium 2011. Lexington (KY).
- ^ Dave Malham, Ambisonické systémy vyššího řádu, York 2003
- ^ Jérôme Daniel, Reprezentace champs akustiky, aplikace à la přenos et à la reprodukce de scènes sonores komplexes dans un contexte multimédia, Paříž 2001, s. 151
- ^ Jérôme Daniel, Prostorové kódování zvuku včetně efektu blízkého pole: Představujeme filtry kódování vzdálenosti a životaschopný nový ambisonický formát, 23. konference AES, Kodaň 2003, s. 13
- ^ A b Michael Chapman a kol., Standard pro výměnu sad signálů Ambisonic, Ambisonics Symposium, Graz 2009
- ^ Malham, David (duben 2003). „Ambisonické systémy vyššího řádu“ (PDF). Space in Music - Music in Space (Mphil thesis). University of York. s. 2–3. Citováno 2. listopadu 2007.
- ^ Nachbar, Zotter, Deleflie a Sontacchi (2011) lc, s. 3, ekv. (3)
- ^ Daniel (2001), lc, str.156, přeloženo z francouzštiny „Grande généricité: calcul récursif des coefficients d'encodage, les composantes d'ordre 1 étant celles du vecteur incidence (unitaire) ."
- ^ Daniel (2001) lc, str.156, přeloženo z francouzštiny „Base orthonormée pour la décomposition 3D. Relation simple á SN3D (facteur ). Zajistěte kódování digitálních kódů kódování v časopise Champ Parfaitement Difus 3D (intérêt dans le domaine analogique). Intérêt évident pour la résolution (en 3.3) des problèmes de décodage (restitution 3D). "
- ^ Daniel (2001), lc, s. 150 ekv. (3,9)
- ^ Dokumentace MathWorks: legendre
- ^ Dokumentace GNU Octave: legendre
- ^ Jazyková dokumentace Wolfram: LegendreP
- ^ Jazyková dokumentace Wolfram: SférickýHarmonickýY
- ^ Michael Chapman, Ambisonická sekvence kanálu (navrhovaný standard) Archivováno 2012-09-30 na Wayback Machine
- ^ A b Richard Dobson Formát AMB Ambisonic File Archivováno 2014-04-22 na Wayback Machine
- ^ IEM, Referenční implementace AmbiX (dokumentace API)
- ^ Travis, Chris, Nové schéma smíšeného řádu pro signály Ambisonic Archivováno 04.10.2009 na Wayback Machine, Ambisonics Symposium, Graz 2009
externí odkazy
- Poznámky k základním myšlenkám sférických harmonických, úvodní text Roberta E. Greena