Odpovídající pronásledování - Matching pursuit

Signál a jeho vlnková reprezentace. Každý pixel v teplotní mapa (nahoře) představuje atom (vlnka vycentrovaná v čase podle vodorovné polohy a s frekvencí odpovídající výšce). Barva pixelu dává vnitřní produkt odpovídajícího waveletového atomu se signálem (dole). Sledování shody by mělo představovat signál jen několika atomy, jako jsou tři ve středu jasně viditelných elips.

Odpovídající pronásledování (MP) je a řídká aproximace algoritmus, který najde „nejlépe se shodující“ projekce vícerozměrných dat do rozsahu úplného (tj. redundantního) slovníku . Základní myšlenkou je přibližně představovat signál z Hilbertův prostor jako vážený součet konečně mnoha funkcí (nazývané atomy) převzaty z . Aproximace s atomy mají formu

kde je sloupec matice a je skalární váhový faktor (amplituda) pro atom . Normálně ne každý atom bude použit v této částce. Místo toho si hledání shody vybírá atomy jeden po druhém, aby maximálně (chamtivě) snížil chybu aproximace. Toho je dosaženo nalezením atomu, který má nejvyšší vnitřní produkt se signálem (za předpokladu, že jsou atomy normalizovány), odečtením od signálu aproximace, která používá pouze tento jeden atom, a opakováním procesu, dokud není signál uspokojivě rozložen, tj. norma rezidua je malá, kde reziduální po výpočtu a je označen

.

Li konverguje rychle na nulu, pak je k získání dobré aproximace potřeba pouze několik atomů . Takový řídké reprezentace jsou žádoucí pro kódování a kompresi signálu. Přesněji řečeno, problém sparity, k němuž má odpovídat pronásledování přibližně vyřešit je

kde je pseudonorma (tj. počet nenulových prvků ). V předchozí notaci byly nenulové položky jsou . Řešení problému se sparitou přesně je NP-tvrdé, proto se používají aproximační metody jako MP.

Pro srovnání zvažte Fourierova transformace reprezentace signálu - to lze popsat pomocí výše uvedených výrazů, kde je slovník sestaven ze sinusových základních funkcí (nejmenší možný úplný slovník). Hlavní nevýhodou Fourierovy analýzy při zpracování signálu je to, že extrahuje pouze globální vlastnosti signálů a nepřizpůsobuje se analyzovaným signálům . Když vezmeme extrémně redundantní slovník, můžeme v něm hledat atomy (funkce), které nejlépe odpovídají signálu .

Algoritmus

Příklad načítání neznámého signálu (šedá čára) z několika měření (černé tečky) pomocí algoritmu sledování ortogonální shody (fialové tečky ukazují načtené koeficienty).

Li obsahuje velké množství vektorů, které hledají většina řídké zastoupení je výpočetně nepřijatelný pro praktické aplikace. V roce 1993 Mallat a Zhang[1] navrhl a chamtivý řešení, které pojmenovali „Matching Pursuit.“ Pro jakýkoli signál a jakýkoli slovník , algoritmus iterativně generuje seřazený seznam atomových indexů a váhových skalárů, které tvoří neoptimální řešení problému řídké reprezentace signálu.

Algoritmus Odpovídající pronásledování Vstup: Signál: , slovník  s normalizovanými sloupci . Výstup: Seznam koeficientů  a indexy pro odpovídající atomy . Inicializace: ;   ; Opakovat: Najít  s maximálním vnitřním produktem ;   ;   ;   ; Do stavu zastavení (například: ) vrátit se
  • „←“ označuje úkol. Například, "největšípoložka"znamená, že hodnota největší změny hodnoty položka.
  • "vrátit se"ukončí algoritmus a odešle následující hodnotu.

Ve zpracování signálu je koncept sledování shody spojen se statistikou pronásledování projekce, ve kterých se nacházejí „zajímavé“ projekce; ty, které se více odchylují od a normální distribuce jsou považovány za zajímavější.

Vlastnosti

  • Algoritmus konverguje (tj. ) pro všechny to je v prostoru překlenutém slovníkem.
  • Chyba monotónně klesá.
  • Jako v každém kroku je zbytek kolmý k vybranému filtru, rovnice zachování energie je pro každý splněna :
.
  • V případě, že vektory v jsou ortonormální, místo aby byly nadbytečné, pak MP je forma analýza hlavních komponent

Aplikace

Na signál, obraz bylo použito odpovídající pronásledování[2] a kódování videa,[3][4] tvarová reprezentace a rozpoznávání,[5] Kódování 3D objektů,[6] a v interdisciplinárních aplikacích, jako je monitorování strukturálního zdraví.[7] Ukázalo se, že funguje lépe než DCT založené kódování pro nízké přenosové rychlosti jak v efektivitě kódování, tak v kvalitě obrazu.[8]Hlavním problémem sledování shody je výpočetní složitost kodéru. V základní verzi algoritmu je třeba při každé iteraci hledat velký slovník. Mezi vylepšení patří použití přibližných reprezentací slovníku a neoptimální způsoby výběru nejlepší shody při každé iteraci (extrakce atomu).[9]Algoritmus sledování shody se používá v MP / SOFT, metodě simulace kvantové dynamiky.[10]

MP se také používá v slovníkové učení.[11][12] V tomto algoritmu se atomy učí z databáze (obecně přirozené scény, jako jsou obvyklé obrázky) a nevybírají se z obecných slovníků.

Rozšíření

Populární rozšíření Matching Pursuit (MP) je jeho ortogonální verze: Orthogonal Matching Pursuit[13][14] (OMP). Hlavní rozdíl oproti MP spočívá v tom, že po každém kroku Všechno doposud extrahované koeficienty se aktualizují výpočtem ortogonální projekce signálu do podprostoru překlenutého dosud vybranou sadou atomů. To může vést k lepším výsledkům než standardní MP, ale vyžaduje to více výpočtů.

Rozšíření, jako je vícekanálový MP[15] a vícekanálový OMP[16] umožnit člověku zpracovávat vícesložkové signály. Zřejmým rozšířením Matching Pursuit je více pozic a měřítek rozšířením slovníku o slovník waveletů. To lze efektivně provést pomocí operátoru konvoluce beze změny jádrového algoritmu.[17]

Odpovídající pronásledování souvisí s oblastí komprimované snímání a byl rozšířen výzkumníky v této komunitě. Pozoruhodné rozšíření jsou Orthogonal Matching Pursuit (OMP),[18] Postupně OMP (StOMP),[19] pronásledování porovnávání kompresního vzorkování (CoSaMP),[20] Zobecněný OMP (gOMP),[21] a Multipath Matching Pursuit (MMP).[22]

Viz také

Reference

  1. ^ Mallat, S. G .; Zhang, Z. (1993). „Přizpůsobení pronásledování časově-frekvenčním slovníkům“. Transakce IEEE při zpracování signálu. 1993 (12): 3397–3415. Bibcode:1993ITSP ... 41,3397M. doi:10.1109/78.258082.
  2. ^ Perrinet, L. (2015). „Řídké modely pro počítačové vidění“. Biologicky inspirované počítačové vidění. 14: 319–346. arXiv:1701.06859. doi:10.1002 / 9783527680863.ch14. ISBN  9783527680863.
  3. ^ Bergeaud, F .; Mallat, S. (1995). "Odpovídající pronásledování obrázků". Proc. Mezinárodní konference o zpracování obrazu. 1: 53–56. doi:10.1109 / ICIP.1995.529037. ISBN  978-0-7803-3122-8.
  4. ^ Neff, R .; Zakhor, A. (1997). „Kódování videa s velmi nízkou přenosovou rychlostí na základě shodných aktivit“. Transakce IEEE na obvodech a systémech pro videotechniku. 7 (1): 158–171. doi:10.1109/76.554427.
  5. ^ Mendels, F .; Vandergheynst, P .; Thiran, J.P. (2006). „Odpovídající reprezentace a rozpoznávání tvarů na základě pronásledování pomocí měřítka. International Journal of Imaging Systems and Technology. 16 (5): 162–180. doi:10.1002 / ima.20078.
  6. ^ Tosic, I .; Frossard, P .; Vandergheynst, P. (2005). „Progresivní kódování 3D objektů na základě úplných rozkladů“. Transakce IEEE na obvodech a systémech pro videotechniku. 16 (11): 1338–1349. doi:10.1109 / tcsvt.2006.883502.
  7. ^ Chakraborty, Debejyo; Kovvali, Narayan; Wei, červen; Papandreou-Suppappola, Antonia; Cochran, Douglas; Chattopadhyay, Aditi (2009). „Klasifikace poškození Strukturální monitorování zdraví v šroubovaných konstrukcích pomocí časově-frekvenčních technik“. Journal of Intelligent Material Systems and Structures. 20 (11): 1289–1305. doi:10.1177 / 1045389X08100044.
  8. ^ Perrinet, L. U .; Samuelides, M .; Thorpe, S. (2002). „Řídké kódování špiček v asynchronní dopředné vícevrstvé neuronové síti pomocí Matching Pursuit“. Neuropočítání. 57C: 125–34. doi:10.1016 / j.neucom.2004.01.010.[trvalý mrtvý odkaz ]
  9. ^ Lin, Jian-Liang; Hwang, Wen-Liang; Pei, Soo-Chang (2007). Msgstr "Rychlé přizpůsobení sledování kódování videa kombinací přibližování slovníku a extrakce atomu". Transakce IEEE na obvodech a systémech pro videotechniku. 17 (12): 1679–1689. CiteSeerX  10.1.1.671.9670. doi:10.1109 / tcsvt.2007.903120.
  10. ^ Wu, Yinghua; Batista, Victor S. (2003). „Hledání shody pro simulace kvantových procesů“. J. Chem. Phys. 118 (15): 6720–6724. Bibcode:2003JChPh.118,6720W. doi:10.1063/1.1560636.
  11. ^ Perrinet, L. P. (2010). „Role homeostázy při učení řídkých reprezentací“. Neurální výpočet. 22 (7): 1812–1836. arXiv:0706.3177. doi:10.1162 / neco.2010.05-08-795. PMC  2929690. PMID  20235818.
  12. ^ Aharon, M .; Elad, M .; Bruckstein, A.M. (2006). „K-SVD: Algoritmus pro navrhování neúplných slovníků pro řídkou reprezentaci“. Transakce IEEE při zpracování signálu. 54 (11): 4311–4322. Bibcode:2006ITSP ... 54.4311A. doi:10.1109 / lžička.2006.881199.
  13. ^ Pati, Y .; Rezaiifar, R .; Krishnaprasad, P. (1993). "Orthogonal Matching Pursuit: aproximace rekurzivní funkce s aplikací na vlnkový rozklad". Asilomar Conf. O signálech, systémech a výpočtech: 40–44. CiteSeerX  10.1.1.348.5735. doi:10.1109 / acssc.1993.342465. ISBN  978-0-8186-4120-6.
  14. ^ Davis, G .; Mallat, S .; Zhang, Z. (1994). "Adaptivní časově-frekvenční rozklady s odpovídajícími pronásledováními". Optické inženýrství. 33 (7): 2183. Bibcode:1994OptEn..33.2183D. doi:10.1117/12.173207.
  15. ^ „Kusová lineární separace zdrojů“, R. Gribonval, Proc. SPIE '03, 2003
  16. ^ Tropp, Joel; Gilbert, A.; Strauss, M. (2006). „Algoritmy pro simultánní řídké aproximace; Část I: Chamtivé pronásledování“. Signal Proc. - Řídké aproximace ve zpracování signálu a obrazu. 86 (3): 572–588. doi:10.1016 / j.sigpro.2005.05.030.
  17. ^ Perrinet, Laurent U. (2015). "Řídké modely pro počítačové vidění". Biologicky inspirované počítačové vidění. 319–346. arXiv:1701.06859. doi:10.1002 / 9783527680863.ch14. ISBN  9783527680863.
  18. ^ Tropp, Joel A .; Gilbert, Anna C. (2007). „Obnova signálu z náhodných měření pomocí ortogonálního porovnávání“ (PDF). Transakce IEEE na teorii informací. 53 (12): 4655–4666. doi:10.1109 / tit.2007.909108.
  19. ^ Donoho, David L .; Tsaig, Yaakov; Drori, Iddo; Jean-luc, Starck (2006). „Řídké řešení podurčených lineárních rovnic postupným sledováním ortogonální shody“. Transakce IEEE na teorii informací. 58 (2): 1094–1121. doi:10.1109 / tit.2011.2173241.
  20. ^ Needell, D .; Tropp, J.A. (2009). "CoSaMP: Iterativní obnovení signálu z neúplných a nepřesných vzorků". Aplikovaná a výpočetní harmonická analýza. 26 (3): 301–321. arXiv:0803.2392. doi:10.1016 / j.acha.2008.07.002.
  21. ^ Wang, J .; Kwon, S .; Shim, B. (2012). "Zobecněné pronásledování ortogonální". Transakce IEEE při zpracování signálu. 60 (12): 6202–6216. arXiv:1111.6664. Bibcode:2012ITSP ... 60.6202J. doi:10.1109 / TSP.2012.2218810.
  22. ^ Kwon, S .; Wang, J .; Shim, B. (2014). "Multipath Matching Pursuit". Transakce IEEE na teorii informací. 60 (5): 2986–3001. arXiv:1308.4791. doi:10.1109 / TIT.2014.2310482.