Implementace ve velkém prostoru - Scale space implementation

Měřítko prostoru
Axiomy v měřítku
Implementace ve velkém prostoru
Detekce funkcí
Detekce hrany
Detekce blobů
Detekce rohů
Detekce hřebene
Detekce úrokových bodů
Výběr měřítka
Afinní přizpůsobení tvaru
Segmentace v měřítku

V oblastech počítačové vidění, analýza obrazu a zpracování signálu, pojem reprezentace měřítka-prostoru se používá pro zpracování měřených dat ve více měřítcích a konkrétně vylepšuje nebo potlačuje obrazové prvky v různých rozsazích měřítka (viz článek na měřítko prostoru ). Speciální typ reprezentace měřítka-prostoru poskytuje prostor Gaussova měřítka, kde jsou obrazová data N rozměry je podrobeno vyhlazení Gaussianem konvoluce. Většina teorie pro prostor Gaussova měřítka se zabývá spojitými obrazy, zatímco jedna při implementaci této teorie bude muset čelit skutečnosti, že většina naměřených dat je diskrétních. Vyvstává tedy teoretický problém týkající se toho, jak diskretizovat spojitou teorii při zachování nebo dobré aproximaci požadovaných teoretických vlastností, které vedou k volbě gaussovského jádra (viz článek o měřítko-prostorové axiomy ). Tento článek popisuje základní přístupy k tomuto, které byly vyvinuty v literatuře.

Prohlášení o problému

The Gaussian měřítko-prostorová reprezentace z N-rozměrný spojitý signál,

získává konvoluční FC s N-dimenzionální Gaussovo jádro:

Jinými slovy:

Nicméně pro implementace, tato definice je nepraktická, protože je spojitá. Při aplikaci konceptu měřítkového prostoru na diskrétní signál FDlze použít různé přístupy. Tento článek je krátkým shrnutím některých nejčastěji používaných metod.

Oddělitelnost

Za použití vlastnost oddělitelnosti Gaussova jádra

the N-dimenzionální konvoluce operace může být rozložena do sady oddělitelných vyhlazovacích kroků s jednorozměrným Gaussovým jádrem G podél každé dimenze

kde

a směrodatná odchylka Gaussova σ souvisí s parametrem měřítka t podle t = σ2.

Oddělitelnost se bude předpokládat ve všem, co následuje, i když jádro není přesně gaussovské, protože oddělení dimenzí je nejpraktičtější způsob implementace vícerozměrného vyhlazování, zejména ve větších měřítcích. Proto, zbytek článku se zaměřuje na jednorozměrný případ.

Vzorkované Gaussovo jádro

Při implementaci jednorozměrného vyhlazovacího kroku v praxi je pravděpodobně nejjednodušším přístupem konvoluce diskrétního signálu FD s vzorkované gaussovské jádro:

kde

(s t = σ2), který je zase zkrácen na koncích, aby poskytl filtr s konečnou impulsní odezvou

pro M zvolen dostatečně velký (viz chybová funkce ) takové, že

Běžnou volbou je nastavení M na konstantu C krát směrodatná odchylka Gaussova jádra

kde C se často volí někde mezi 3 a 6.

Použití vzorkovaného gaussovského jádra však může vést k problémům s implementací, zejména při výpočtu derivátů vyššího řádu v jemnějších měřítcích použitím vzorkovaných derivátů gaussovských jader. Pokud jsou primárními kritérii návrhu přesnost a robustnost, měly by se proto zvážit alternativní přístupy implementace.

Pro malé hodnoty ε (10−6 do 10−8) chyby zavedené zkrácením Gaussian jsou obvykle zanedbatelné. Pro větší hodnoty ε však existuje mnoho lepších alternativ k pravoúhlému funkce okna. Například pro daný počet bodů, a Hammingovo okno, Blackmanovo okno nebo Okno Kaiser způsobí menší poškození spektrálních a dalších vlastností Gaussian, než bude jednoduché zkrácení. Bez ohledu na to, protože Gaussovo jádro na ocasu rychle klesá, hlavním doporučením je stále používat dostatečně malou hodnotu ε, takže účinky zkrácení již nejsou důležité.

Diskrétní gaussovské jádro

Ideální diskrétní Gaussovo jádro (pevné) ve srovnání se vzorkem obyčejného Gaussova (přerušované), pro váhy t = [0.5, 1, 2, 4]

Rafinovanějším přístupem je spojit původní signál s diskrétní gaussovské jádro T(n, t)[1][2][3]

kde

a označuje upravené Besselovy funkce celočíselného řádu, n. Toto je diskrétní protějšek spojité Gaussian v tom, že je řešením diskrétní difúzní rovnice (diskrétní prostor, spojitý čas), stejně jako spojitá Gaussian je řešením rovnice spojité difúze.[1][2][4]

Tento filtr lze v prostorové doméně zkrátit jako u vzorkované Gaussian

nebo mohou být implementovány v Fourierově doméně pomocí výrazu v uzavřené formě diskrétní Fourierova transformace:

S tímto přístupem ve frekvenční doméně se přenášejí vlastnosti měřítka a prostoru přesně do diskrétní domény nebo s vynikající aproximací pomocí periodické extenze a vhodně dlouhé diskrétní Fourierova transformace přiblížit diskrétní Fourierova transformace signálu, který je vyhlazován. Kromě toho lze derivační aproximace vyššího řádu vypočítat přímým způsobem (a zachováním vlastností měřítka a prostoru) použitím malých podpůrných centrálních operátorů rozdílu na diskrétní měřítko prostorové reprezentace.[5]

Stejně jako u vzorkované Gaussian bude prosté zkrácení nekonečné impulsní odezvy ve většině případů dostatečnou aproximací pro malé hodnoty ε, zatímco pro větší hodnoty ε je lepší použít buď rozklad diskrétní Gaussian na kaskádu zobecněné binomické filtry nebo alternativně k vytvoření konečného přibližného jádra vynásobením a funkce okna. Pokud je ε zvoleno příliš velké na to, aby se začaly objevovat účinky chyby zkrácení (například jako falešné extrémy nebo falešné reakce na derivační operátory vyššího řádu), pak je možné snížit hodnotu ε tak, aby větší konečné jádro se používá s odříznutím, kde je podpora velmi malá, nebo pro použití zúženého okna.

Rekurzivní filtry

Škálovaná jádra. Ideální diskrétní gaussian na základě Besselových funkcí (červená) a dvoupólových dvojitých dopředu / dozadu rekurzivních vyhlazovacích filtrů (modrá) s póly, jak je popsáno v textu. Nahoře se zobrazují jednotlivá jádra a dole je jejich kumulativní konvoluce navzájem; t = [0.5, 1, 2, 4].

Protože výpočetní efektivita je často důležitá, nízkého řádu rekurzivní filtry se často používají k vyhlazení prostoru v měřítku. Například Young a van Vliet[6] použijte rekurzivní filtr třetího řádu s jedním reálným pólem a dvojicí komplexních pólů, aplikovaných dopředu a dozadu pro vytvoření symetrické aproximace šestého řádu ke Gaussian s nízkou výpočetní složitostí pro jakoukoli vyhlazovací stupnici.

Uvolněním několika axiomů, Lindebergu[1] dospěl k závěru, že dobré vyhlazovací filtry budou „normalizovány Pólya frekvence sekvencí ", rodina diskrétních jader, která zahrnuje všechny filtry se skutečnými póly na 0 < Z <1 a / nebo Z > 1, stejně jako se skutečnými nulami v Z <0. U symetrie, která vede k přibližné směrové homogenitě, musí být tyto filtry dále omezeny na dvojice pólů a nul, které vedou k filtrům nulové fáze.

Porovnat zakřivení přenosové funkce při nulové frekvenci diskrétní Gaussian, což zajišťuje přibližnou hodnotu poloskupina vlastnost aditiva t, dva póly v

lze použít dopředu a dozadu, pro symetrii a stabilitu. Tento filtr je nejjednodušší implementací normalizovaného jádra kmitočtu Pólya, které funguje pro jakoukoli vyhlazovací stupnici, ale není tak vynikající aproximací ke Gaussovu filtru jako Youngův a van Vlietův filtr, který je ne normalizovaná frekvenční sekvence Pólya, kvůli jeho komplexním pólům.

Přenosová funkce, H1, symetrického rekurzivního filtru pólových párů úzce souvisí s diskrétní Fourierova transformace diskrétního gaussovského jádra prostřednictvím aproximace prvního řádu exponenciálu:

Kde t parametr zde souvisí se stabilní pólovou polohou Z = p přes:

Dále takové filtry s N páry pólů, například dva páry pólů zobrazené v této části, jsou ještě lepší aproximací exponenciálu:

kde jsou stabilní pólové polohy upraveny řešením:

Impulsní odezvy těchto filtrů nejsou příliš blízké gaussianům, pokud nejsou použity více než dva páry pólů. Avšak i při použití pouze jednoho nebo dvou párů pólů na stupnici bude signál postupně vyhlazovaný při zvyšování stupnic velmi blízký gaussovskému vyhlazenému signálu. Vlastnost poloskupiny je špatně aproximována, pokud je použito příliš málo párů pólů.

Axiomy v měřítku které tyto filtry stále uspokojují, jsou:

  • linearita
  • směnová invariance (celočíselné posuny)
  • nevytváření lokálních extrémů (nulové přechody) v jedné dimenzi
  • nezlepšení lokálních extrémů v libovolném počtu rozměrů
  • pozitivita
  • normalizace

Následující jsou pouze přibližně spokojeni, aproximace je lepší pro větší počet párů pólů:

  • existence nekonečně malý generátor A (infinitezimální generátor diskrétní Gaussian nebo filtr, který jej přibližuje, přibližně mapuje rekurzivní odezvu filtru na jeden z nekonečně větších t)
  • the poloskupinová struktura s přidruženým vlastnost kaskádového vyhlazování (tato vlastnost je aproximována tím, že se jádra považují za ekvivalentní, pokud mají stejné t hodnota, i když nejsou zcela stejné)
  • rotační symetrie
  • škálová invariance

Tato metoda rekurzivního filtru a variace k výpočtu jak Gaussova vyhlazování, tak Gaussových derivátů byla popsána několika autory.[6][7][8][9] Opálení et al. analyzovali a porovnávali některé z těchto přístupů a poukázali na to, že filtry Young a van Vliet jsou kaskádou (multiplikací) filtrů vpřed a vzad, zatímco Deriche a Jin et al. filtry jsou součty filtrů vpřed a vzad.[10]

U jemných měřítek není zaručeno, že přístup rekurzivní filtrace a další oddělitelné přístupy poskytnou nejlepší možnou aproximaci rotační symetrie, takže lze jako alternativu považovat neoddělitelné implementace pro 2D obrazy.

Při výpočtu několika derivátů v N-jet současně může být diskrétní vyhlazování měřítka a prostoru s diskrétním analogem Gaussova jádra nebo s aproximací rekurzivního filtru, následovanou malými operátory rozdílu podpory, rychlejší a přesnější než výpočet rekurzivních aproximací každého derivačního operátoru.

Vyhlazovače konečných impulzů (FIR)

U malých měřítek může být filtr FIR nižšího řádu lepší vyhlazovací filtr než rekurzivní filtr. Symetrické 3 jádro [t/2, 1-t, t/2], pro t ≤ 0,5 vyhlazuje na stupnici od t pomocí dvojice skutečných nul v Z <0, a blíží se k diskrétní Gaussian v limitu malého t. Ve skutečnosti s nekonečně malým t, buď tento filtr s dvěma nulami, nebo dvoupólový filtr s póly v Z = t/ 2 a Z = 2/t lze použít jako nekonečně malý generátor diskrétních gaussovských jader popsaných výše.

Nuly filtru FIR lze kombinovat s póly rekurzivního filtru a vytvořit tak obecný vysoce kvalitní vyhlazovací filtr. Například pokud má proces vyhlazování vždy použít bikvadratický (dvoupólový, dvounový) filtr vpřed a vzad na každou řadu dat (a na každý sloupec v případě 2D), mohou póly a nuly udělat každý část vyhlazování. Nuly jsou omezeny na t = 0,5 za pár (nuly při Z = –1), takže u velkých měřítek většinu práce dělají póly. U jemnějších měřítek vytváří kombinace vynikající aproximaci diskrétní Gaussian, pokud póly a nuly vytvářejí zhruba polovinu vyhlazení. The t hodnoty pro každou část vyhlazování (póly, nuly, více aplikací vpřed a vzad atd.) jsou aditivní, v souladu s přibližnou poloskupinovou vlastností.

Z-rovinné umístění čtyř pólů (X) a čtyř nul (kruhů) pro vyhlazovací filtr pomocí dopředného / zpětného biquadu k vyhlazení v měřítku t = 2, s polovinou vyhlazení od pólů a polovinou od nul. Nuly jsou všechny Z = -1; póly jsou na Z = 0,172 a Z = 5,83. Póly mimo kruh jednotky jsou implementovány filtrováním zpět se stabilními póly.

Funkce přenosu FIR filtru úzce souvisí s diskrétním Gaussianovým DTFT, stejně jako rekurzivní filtr. U jednoho páru nul je přenosová funkce

Kde t parametr zde souvisí s nulovými pozicemi Z = z přes:

a požadujeme t ≤ 0,5, aby přenosová funkce nebyla záporná.

Dále takové filtry s N páry nul, jsou ještě lepší aproximací exponenciálu a rozšiřují se na vyšší hodnoty t :

kde jsou stabilní nulové polohy upraveny řešením:

Tyto filtry FIR a nulové póly jsou platná jádra v měřítku a prostoru a splňují stejné axiomy jako rekurzivní filtry se všemi póly.

Realizace v reálném čase v pyramidách a diskrétní aproximace derivátů normalizovaných v měřítku

Pokud jde o téma automatického výběru měřítka na základě normalizovaných derivátů, pyramidové aproximace se často používají k získání výkonu v reálném čase.[11][12][13] Vhodnost aproximace operací v měřítku a prostoru uvnitř pyramidy pochází ze skutečnosti, že opakované vyhlazování kaskády s generalizovanými binomickými jádry vede k ekvivalentním vyhlazovacím jádrům, která se za rozumných podmínek blíží Gaussian. Dále lze ukázat, že binomická jádra (nebo obecněji třída zobecněných binomických jader) představují jedinečnou třídu jader s konečnou podporou, která zaručují, že se s rostoucím měřítkem nevytvářejí lokální extrémy nebo nulové přechody (viz článek na víceúrovňové přístupy pro detaily). Je však třeba věnovat zvláštní pozornost tomu, aby se zabránilo diskriminačním artefaktům.

Další víceúrovňové přístupy

Pro jednorozměrná jádra existuje dobře vyvinutá teorie víceúrovňové přístupy týkající se filtrů, které nevytvářejí nové lokální extrémy nebo nové nulové přechody s rostoucími měřítky. Pro spojité signály filtry se skutečnými póly v s-rovnice jsou v této třídě, zatímco pro diskrétní signály výše popsaná rekurzivní a FIR filtry splňují tato kritéria. V kombinaci s přísným požadavkem na spojitou poloskupinovou strukturu tvoří kontinuální Gaussian a diskrétní Gaussian jedinečnou volbu pro spojité a diskrétní signály.

Existuje mnoho dalších vícestupňových technik zpracování signálu, zpracování obrazu a komprese dat vlnky a řadu dalších jader, která nevyužívají ani nevyžadují stejné požadavky tak jako měřítko prostoru popisy ano; to znamená, že nezávisí na hrubším měřítku, které negeneruje nové extremum, které nebylo přítomno v jemnějším měřítku (v 1D), nebo na nevylepšení lokálních extrémů mezi sousedními úrovněmi měřítka (v libovolném počtu dimenzí).

Viz také

Reference

  1. ^ A b C Lindeberg, T., "Scale-space for diskrétní signály", PAMI (12), č. 3, březen 1990, str. 234-254.
  2. ^ A b Lindeberg, T., Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN  0-7923-9418-6
  3. ^ R.A. Haddad a A.N. Akansu, “Třída rychlých gaussovských binomických filtrů pro zpracování řeči a obrazu „IEEE Transactions on Acoustics, Speech and Signal Processing, sv. 39, str. 723-727, březen 1991.
  4. ^ Campbell, J, 2007, Model SMM jako problém mezní hodnoty pomocí diskrétní difúzní rovnice, Theor Popul Biol. Prosinec 2007; 72 (4): 539-46.
  5. ^ Lindeberg, T. Diskrétní derivační derivace s vlastnostmi měřítka a prostoru: Základ pro extrakci prvků na nízké úrovni, J. of Mathematical Imaging and Vision, 3 (4), str. 349--376, 1993.
  6. ^ A b Ian T. Young & Lucas J. van Vliet (1995). "Rekurzivní implementace Gaussova filtru". Zpracování signálu. 44 (2): 139–151. CiteSeerX  10.1.1.12.2826. doi:10.1016 / 0165-1684 (95) 00020-E.
  7. ^ Deriche, R: Rekurzivně implementující Gaussian a jeho deriváty, INRIA Research Report 1893, 1993.
  8. ^ Richard F. Lyon. „Rozpoznávání řeči v měřítku,“ Proc. z roku 1987 ICASSP. San Diego, březen, str. 29.3.14, 1987.
  9. ^ Jin, JS, Gao Y. „Rekurzivní implementace filtrování LoG“. Zobrazování v reálném čase 1997;3:59–65.
  10. ^ . Sovira Tan; Jason L. Dale a Alan Johnston (2003). "Výkon tří rekurzivních algoritmů pro rychlou Gaussovu filtraci s kosmickou variantou". Zobrazování v reálném čase. Sv. 9 č. 3. str. 215–228. doi:10.1016 / S1077-2014 (03) 00040-8.
  11. ^ Lindeberg, Tony & Bretzner, Lars (2003). Výběr měřítka v reálném čase v hybridních víceúrovňových reprezentacích. Proc. Scale-Space'03, Springer Lecture Notes in Computer Science. Přednášky z informatiky. 2695. str. 148–163. doi:10.1007/3-540-44935-3_11. ISBN  978-3-540-40368-5.
  12. ^ Crowley, J, Riff O: Rychlý výpočet měřítka normalizovaných Gaussových receptivních polí, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, svazek 2695, 2003.
  13. ^ Lowe, D. G., „Charakteristické rysy obrazu z klíčových bodů neměnných v měřítku“, International Journal of Computer Vision, 60, 2, str. 91–110, 2004.