Odpovídající pronásledování - Matching pursuit

Signál a jeho vlnková reprezentace. Každý pixel v teplotní mapa (nahoře) představuje atom (vlnka vycentrovaná v čase podle vodorovné polohy a s frekvencí odpovídající výšce). Barva pixelu dává vnitřní produkt odpovídajícího waveletového atomu se signálem (dole). Sledování shody by mělo představovat signál jen několika atomy, jako jsou tři ve středu jasně viditelných elips.

Odpovídající pronásledování (MP) je a řídká aproximace algoritmus, který najde „nejlépe se shodující“ projekce vícerozměrných dat do rozsahu úplného (tj. redundantního) slovníku ${displaystyle D}$ . Základní myšlenkou je přibližně představovat signál ${displaystyle f}$ z Hilbertův prostor ${displaystyle H}$ jako vážený součet konečně mnoha funkcí ${displaystyle g_ {gamma _ {n}}}$ (nazývané atomy) převzaty z ${displaystyle D}$ . Aproximace s ${displaystyle N}$ atomy mají formu

{displaystyle f (t) cca {hat {f}} _ {N} (t): = součet _ {n = 1} ^ {N} a_ {n} g_ {gamma _ {n}} (t)}

kde ${displaystyle g_ {gamma _ {n}}}$ je ${displaystyle gamma _ {n}}$ sloupec matice ${displaystyle D}$ a ${displaystyle a_ {n}}$ je skalární váhový faktor (amplituda) pro atom ${displaystyle g_ {gamma _ {n}}}$ . Normálně ne každý atom ${displaystyle D}$ bude použit v této částce. Místo toho si hledání shody vybírá atomy jeden po druhém, aby maximálně (chamtivě) snížil chybu aproximace. Toho je dosaženo nalezením atomu, který má nejvyšší vnitřní produkt se signálem (za předpokladu, že jsou atomy normalizovány), odečtením od signálu aproximace, která používá pouze tento jeden atom, a opakováním procesu, dokud není signál uspokojivě rozložen, tj. norma rezidua je malá, kde reziduální po výpočtu ${displaystyle gamma _ {N}}$ a ${displaystyle a_ {N}}$ je označen

{displaystyle R_ {N + 1} = f- {hat {f}} _ {N}}

.

Li ${displaystyle R_ {n}}$ konverguje rychle na nulu, pak je k získání dobré aproximace potřeba pouze několik atomů ${displaystyle f}$ . Takový řídké reprezentace jsou žádoucí pro kódování a kompresi signálu. Přesněji řečeno, problém sparity, k němuž má odpovídat pronásledování přibližně vyřešit je

{displaystyle min _ {x} | f-Dx | _ {2} ^ {2} {ext {subject to}} | x | _ {0} leq N,}

kde ${displaystyle | x | _ {0}}$ je ${displaystyle L_ {0}}$ pseudonorma (tj. počet nenulových prvků ${displaystyle x}$ ). V předchozí notaci byly nenulové položky ${displaystyle x}$ jsou ${displaystyle x_ {gamma _ {n}} = a_ {n}}$ . Řešení problému se sparitou přesně je NP-tvrdé, proto se používají aproximační metody jako MP.

Pro srovnání zvažte Fourierova transformace reprezentace signálu - to lze popsat pomocí výše uvedených výrazů, kde je slovník sestaven ze sinusových základních funkcí (nejmenší možný úplný slovník). Hlavní nevýhodou Fourierovy analýzy při zpracování signálu je to, že extrahuje pouze globální vlastnosti signálů a nepřizpůsobuje se analyzovaným signálům ${displaystyle f}$ . Když vezmeme extrémně redundantní slovník, můžeme v něm hledat atomy (funkce), které nejlépe odpovídají signálu ${displaystyle f}$ .

Algoritmus

Příklad načítání neznámého signálu (šedá čára) z několika měření (černé tečky) pomocí algoritmu sledování ortogonální shody (fialové tečky ukazují načtené koeficienty).

Li ${displaystyle D}$ obsahuje velké množství vektorů, které hledají většina řídké zastoupení ${displaystyle f}$ je výpočetně nepřijatelný pro praktické aplikace. V roce 1993 Mallat a Zhang^[1] navrhl a chamtivý řešení, které pojmenovali „Matching Pursuit.“ Pro jakýkoli signál ${displaystyle f}$ a jakýkoli slovník ${displaystyle D}$ , algoritmus iterativně generuje seřazený seznam atomových indexů a váhových skalárů, které tvoří neoptimální řešení problému řídké reprezentace signálu.

Algoritmus Odpovídající pronásledování Vstup: Signál:  ${displaystyle f (t)}$ , slovník  ${displaystyle D}$  s normalizovanými sloupci  ${displaystyle g_ {i}}$ . Výstup: Seznam koeficientů  ${displaystyle (a_ {n}) _ {n = 1} ^ {N}}$  a indexy pro odpovídající atomy  ${displaystyle (gamma _ {n}) _ {n = 1} ^ {N}}$ . Inicializace:  ${displaystyle R_ {1}, leftarrow, f (t)}$ ;    ${displaystyle n, leftarrow, 1}$ ; Opakovat: Najít  ${displaystyle g_ {gamma _ {n}} v D}$  s maximálním vnitřním produktem  ${displaystyle | langle R_ {n}, g_ {gamma _ {n}} úhel |}$ ;    ${displaystyle a_ {n}, leftarrow, langle R_ {n}, g_ {gamma _ {n}} úhel}$ ;    ${displaystyle R_ {n + 1}, leftarrow, R_ {n} -a_ {n} g_ {gamma _ {n}}}$ ;    ${displaystyle n, leftarrow, n + 1}$ ; Do stavu zastavení (například:  ${displaystyle | R_ {n} |$ ) vrátit se

„←“ označuje úkol. Například, "největší ← položka"znamená, že hodnota největší změny hodnoty položka.
"vrátit se"ukončí algoritmus a odešle následující hodnotu.

Ve zpracování signálu je koncept sledování shody spojen se statistikou pronásledování projekce, ve kterých se nacházejí „zajímavé“ projekce; ty, které se více odchylují od a normální distribuce jsou považovány za zajímavější.

Vlastnosti

Algoritmus konverguje (tj. ${displaystyle R_ {n} o 0}$ ) pro všechny ${displaystyle f}$ to je v prostoru překlenutém slovníkem.
Chyba ${displaystyle | R_ {n} |}$ monotónně klesá.
Jako v každém kroku je zbytek kolmý k vybranému filtru, rovnice zachování energie je pro každý splněna ${displaystyle N}$ :

{displaystyle | f | ^ {2} = | R_ {N + 1} | ^ {2} + součet _ {n = 1} ^ {N} {| a_ {n} | ^ {2}}}

.

V případě, že vektory v ${displaystyle D}$ jsou ortonormální, místo aby byly nadbytečné, pak MP je forma analýza hlavních komponent

Aplikace

Na signál, obraz bylo použito odpovídající pronásledování^[2] a kódování videa,^[3]^[4] tvarová reprezentace a rozpoznávání,^[5] Kódování 3D objektů,^[6] a v interdisciplinárních aplikacích, jako je monitorování strukturálního zdraví.^[7] Ukázalo se, že funguje lépe než DCT založené kódování pro nízké přenosové rychlosti jak v efektivitě kódování, tak v kvalitě obrazu.^[8]Hlavním problémem sledování shody je výpočetní složitost kodéru. V základní verzi algoritmu je třeba při každé iteraci hledat velký slovník. Mezi vylepšení patří použití přibližných reprezentací slovníku a neoptimální způsoby výběru nejlepší shody při každé iteraci (extrakce atomu).^[9]Algoritmus sledování shody se používá v MP / SOFT, metodě simulace kvantové dynamiky.^[10]

MP se také používá v slovníkové učení.^[11]^[12] V tomto algoritmu se atomy učí z databáze (obecně přirozené scény, jako jsou obvyklé obrázky) a nevybírají se z obecných slovníků.

Rozšíření

Populární rozšíření Matching Pursuit (MP) je jeho ortogonální verze: Orthogonal Matching Pursuit^[13]^[14] (OMP). Hlavní rozdíl oproti MP spočívá v tom, že po každém kroku Všechno doposud extrahované koeficienty se aktualizují výpočtem ortogonální projekce signálu do podprostoru překlenutého dosud vybranou sadou atomů. To může vést k lepším výsledkům než standardní MP, ale vyžaduje to více výpočtů.

Rozšíření, jako je vícekanálový MP^[15] a vícekanálový OMP^[16] umožnit člověku zpracovávat vícesložkové signály. Zřejmým rozšířením Matching Pursuit je více pozic a měřítek rozšířením slovníku o slovník waveletů. To lze efektivně provést pomocí operátoru konvoluce beze změny jádrového algoritmu.^[17]

Odpovídající pronásledování souvisí s oblastí komprimované snímání a byl rozšířen výzkumníky v této komunitě. Pozoruhodné rozšíření jsou Orthogonal Matching Pursuit (OMP),^[18] Postupně OMP (StOMP),^[19] pronásledování porovnávání kompresního vzorkování (CoSaMP),^[20] Zobecněný OMP (gOMP),^[21] a Multipath Matching Pursuit (MMP).^[22]

Viz také

Reference

^ Mallat, S. G .; Zhang, Z. (1993). „Přizpůsobení pronásledování časově-frekvenčním slovníkům“. Transakce IEEE při zpracování signálu. 1993 (12): 3397–3415. Bibcode:1993ITSP ... 41,3397M. doi:10.1109/78.258082.
^ Perrinet, L. (2015). „Řídké modely pro počítačové vidění“. Biologicky inspirované počítačové vidění. 14: 319–346. arXiv:1701.06859. doi:10.1002 / 9783527680863.ch14. ISBN 9783527680863.
^ Bergeaud, F .; Mallat, S. (1995). "Odpovídající pronásledování obrázků". Proc. Mezinárodní konference o zpracování obrazu. 1: 53–56. doi:10.1109 / ICIP.1995.529037. ISBN 978-0-7803-3122-8.
^ Neff, R .; Zakhor, A. (1997). „Kódování videa s velmi nízkou přenosovou rychlostí na základě shodných aktivit“. Transakce IEEE na obvodech a systémech pro videotechniku. 7 (1): 158–171. doi:10.1109/76.554427.
^ Mendels, F .; Vandergheynst, P .; Thiran, J.P. (2006). „Odpovídající reprezentace a rozpoznávání tvarů na základě pronásledování pomocí měřítka. International Journal of Imaging Systems and Technology. 16 (5): 162–180. doi:10.1002 / ima.20078.
^ Tosic, I .; Frossard, P .; Vandergheynst, P. (2005). „Progresivní kódování 3D objektů na základě úplných rozkladů“. Transakce IEEE na obvodech a systémech pro videotechniku. 16 (11): 1338–1349. doi:10.1109 / tcsvt.2006.883502.
^ Chakraborty, Debejyo; Kovvali, Narayan; Wei, červen; Papandreou-Suppappola, Antonia; Cochran, Douglas; Chattopadhyay, Aditi (2009). „Klasifikace poškození Strukturální monitorování zdraví v šroubovaných konstrukcích pomocí časově-frekvenčních technik“. Journal of Intelligent Material Systems and Structures. 20 (11): 1289–1305. doi:10.1177 / 1045389X08100044.
^ Perrinet, L. U .; Samuelides, M .; Thorpe, S. (2002). „Řídké kódování špiček v asynchronní dopředné vícevrstvé neuronové síti pomocí Matching Pursuit“. Neuropočítání. 57C: 125–34. doi:10.1016 / j.neucom.2004.01.010.^{[trvalý mrtvý odkaz ]}
^ Lin, Jian-Liang; Hwang, Wen-Liang; Pei, Soo-Chang (2007). Msgstr "Rychlé přizpůsobení sledování kódování videa kombinací přibližování slovníku a extrakce atomu". Transakce IEEE na obvodech a systémech pro videotechniku. 17 (12): 1679–1689. CiteSeerX 10.1.1.671.9670. doi:10.1109 / tcsvt.2007.903120.
^ Wu, Yinghua; Batista, Victor S. (2003). „Hledání shody pro simulace kvantových procesů“. J. Chem. Phys. 118 (15): 6720–6724. Bibcode:2003JChPh.118,6720W. doi:10.1063/1.1560636.
^ Perrinet, L. P. (2010). „Role homeostázy při učení řídkých reprezentací“. Neurální výpočet. 22 (7): 1812–1836. arXiv:0706.3177. doi:10.1162 / neco.2010.05-08-795. PMC 2929690. PMID 20235818.
^ Aharon, M .; Elad, M .; Bruckstein, A.M. (2006). „K-SVD: Algoritmus pro navrhování neúplných slovníků pro řídkou reprezentaci“. Transakce IEEE při zpracování signálu. 54 (11): 4311–4322. Bibcode:2006ITSP ... 54.4311A. doi:10.1109 / lžička.2006.881199.
^ Pati, Y .; Rezaiifar, R .; Krishnaprasad, P. (1993). "Orthogonal Matching Pursuit: aproximace rekurzivní funkce s aplikací na vlnkový rozklad". Asilomar Conf. O signálech, systémech a výpočtech: 40–44. CiteSeerX 10.1.1.348.5735. doi:10.1109 / acssc.1993.342465. ISBN 978-0-8186-4120-6.
^ Davis, G .; Mallat, S .; Zhang, Z. (1994). "Adaptivní časově-frekvenční rozklady s odpovídajícími pronásledováními". Optické inženýrství. 33 (7): 2183. Bibcode:1994OptEn..33.2183D. doi:10.1117/12.173207.
^ „Kusová lineární separace zdrojů“, R. Gribonval, Proc. SPIE '03, 2003
^ Tropp, Joel; Gilbert, A.; Strauss, M. (2006). „Algoritmy pro simultánní řídké aproximace; Část I: Chamtivé pronásledování“. Signal Proc. - Řídké aproximace ve zpracování signálu a obrazu. 86 (3): 572–588. doi:10.1016 / j.sigpro.2005.05.030.
^ Perrinet, Laurent U. (2015). "Řídké modely pro počítačové vidění". Biologicky inspirované počítačové vidění. 319–346. arXiv:1701.06859. doi:10.1002 / 9783527680863.ch14. ISBN 9783527680863.
^ Tropp, Joel A .; Gilbert, Anna C. (2007). „Obnova signálu z náhodných měření pomocí ortogonálního porovnávání“ (PDF). Transakce IEEE na teorii informací. 53 (12): 4655–4666. doi:10.1109 / tit.2007.909108.
^ Donoho, David L .; Tsaig, Yaakov; Drori, Iddo; Jean-luc, Starck (2006). „Řídké řešení podurčených lineárních rovnic postupným sledováním ortogonální shody“. Transakce IEEE na teorii informací. 58 (2): 1094–1121. doi:10.1109 / tit.2011.2173241.
^ Needell, D .; Tropp, J.A. (2009). "CoSaMP: Iterativní obnovení signálu z neúplných a nepřesných vzorků". Aplikovaná a výpočetní harmonická analýza. 26 (3): 301–321. arXiv:0803.2392. doi:10.1016 / j.acha.2008.07.002.
^ Wang, J .; Kwon, S .; Shim, B. (2012). "Zobecněné pronásledování ortogonální". Transakce IEEE při zpracování signálu. 60 (12): 6202–6216. arXiv:1111.6664. Bibcode:2012ITSP ... 60.6202J. doi:10.1109 / TSP.2012.2218810.
^ Kwon, S .; Wang, J .; Shim, B. (2014). "Multipath Matching Pursuit". Transakce IEEE na teorii informací. 60 (5): 2986–3001. arXiv:1308.4791. doi:10.1109 / TIT.2014.2310482.

[Mallat1993-1] Mallat, S. G .; Zhang, Z. (1993). „Přizpůsobení pronásledování časově-frekvenčním slovníkům“. Transakce IEEE při zpracování signálu. 1993 (12): 3397–3415. Bibcode:1993ITSP ... 41,3397M. doi:10.1109/78.258082.

[Perrinet15sparse-2] Perrinet, L. (2015). „Řídké modely pro počítačové vidění“. Biologicky inspirované počítačové vidění. 14: 319–346. arXiv:1701.06859. doi:10.1002 / 9783527680863.ch14. ISBN 9783527680863.

[Mallat1995-3] Bergeaud, F .; Mallat, S. (1995). "Odpovídající pronásledování obrázků". Proc. Mezinárodní konference o zpracování obrazu. 1: 53–56. doi:10.1109 / ICIP.1995.529037. ISBN 978-0-7803-3122-8.

[Neff1997-4] Neff, R .; Zakhor, A. (1997). „Kódování videa s velmi nízkou přenosovou rychlostí na základě shodných aktivit“. Transakce IEEE na obvodech a systémech pro videotechniku. 7 (1): 158–171. doi:10.1109/76.554427.

[Mendels2006-5] Mendels, F .; Vandergheynst, P .; Thiran, J.P. (2006). „Odpovídající reprezentace a rozpoznávání tvarů na základě pronásledování pomocí měřítka. International Journal of Imaging Systems and Technology. 16 (5): 162–180. doi:10.1002 / ima.20078.

[Frossard2005-6] Tosic, I .; Frossard, P .; Vandergheynst, P. (2005). „Progresivní kódování 3D objektů na základě úplných rozkladů“. Transakce IEEE na obvodech a systémech pro videotechniku. 16 (11): 1338–1349. doi:10.1109 / tcsvt.2006.883502.

[debejyo2009-7] Chakraborty, Debejyo; Kovvali, Narayan; Wei, červen; Papandreou-Suppappola, Antonia; Cochran, Douglas; Chattopadhyay, Aditi (2009). „Klasifikace poškození Strukturální monitorování zdraví v šroubovaných konstrukcích pomocí časově-frekvenčních technik“. Journal of Intelligent Material Systems and Structures. 20 (11): 1289–1305. doi:10.1177 / 1045389X08100044.

[Perrinet2002-8] Perrinet, L. U .; Samuelides, M .; Thorpe, S. (2002). „Řídké kódování špiček v asynchronní dopředné vícevrstvé neuronové síti pomocí Matching Pursuit“. Neuropočítání. 57C: 125–34. doi:10.1016 / j.neucom.2004.01.010.^{[trvalý mrtvý odkaz ]}

[Lin2007-9] Lin, Jian-Liang; Hwang, Wen-Liang; Pei, Soo-Chang (2007). Msgstr "Rychlé přizpůsobení sledování kódování videa kombinací přibližování slovníku a extrakce atomu". Transakce IEEE na obvodech a systémech pro videotechniku. 17 (12): 1679–1689. CiteSeerX 10.1.1.671.9670. doi:10.1109 / tcsvt.2007.903120.

[10] Wu, Yinghua; Batista, Victor S. (2003). „Hledání shody pro simulace kvantových procesů“. J. Chem. Phys. 118 (15): 6720–6724. Bibcode:2003JChPh.118,6720W. doi:10.1063/1.1560636.

[11] Perrinet, L. P. (2010). „Role homeostázy při učení řídkých reprezentací“. Neurální výpočet. 22 (7): 1812–1836. arXiv:0706.3177. doi:10.1162 / neco.2010.05-08-795. PMC 2929690. PMID 20235818.

[12] Aharon, M .; Elad, M .; Bruckstein, A.M. (2006). „K-SVD: Algoritmus pro navrhování neúplných slovníků pro řídkou reprezentaci“. Transakce IEEE při zpracování signálu. 54 (11): 4311–4322. Bibcode:2006ITSP ... 54.4311A. doi:10.1109 / lžička.2006.881199.

[13] Pati, Y .; Rezaiifar, R .; Krishnaprasad, P. (1993). "Orthogonal Matching Pursuit: aproximace rekurzivní funkce s aplikací na vlnkový rozklad". Asilomar Conf. O signálech, systémech a výpočtech: 40–44. CiteSeerX 10.1.1.348.5735. doi:10.1109 / acssc.1993.342465. ISBN 978-0-8186-4120-6.

[14] Davis, G .; Mallat, S .; Zhang, Z. (1994). "Adaptivní časově-frekvenční rozklady s odpovídajícími pronásledováními". Optické inženýrství. 33 (7): 2183. Bibcode:1994OptEn..33.2183D. doi:10.1117/12.173207.

[15] „Kusová lineární separace zdrojů“, R. Gribonval, Proc. SPIE '03, 2003

[16] Tropp, Joel; Gilbert, A.; Strauss, M. (2006). „Algoritmy pro simultánní řídké aproximace; Část I: Chamtivé pronásledování“. Signal Proc. - Řídké aproximace ve zpracování signálu a obrazu. 86 (3): 572–588. doi:10.1016 / j.sigpro.2005.05.030.

[17] Perrinet, Laurent U. (2015). "Řídké modely pro počítačové vidění". Biologicky inspirované počítačové vidění. 319–346. arXiv:1701.06859. doi:10.1002 / 9783527680863.ch14. ISBN 9783527680863.

[18] Tropp, Joel A .; Gilbert, Anna C. (2007). „Obnova signálu z náhodných měření pomocí ortogonálního porovnávání“ (PDF). Transakce IEEE na teorii informací. 53 (12): 4655–4666. doi:10.1109 / tit.2007.909108.

[19] Donoho, David L .; Tsaig, Yaakov; Drori, Iddo; Jean-luc, Starck (2006). „Řídké řešení podurčených lineárních rovnic postupným sledováním ortogonální shody“. Transakce IEEE na teorii informací. 58 (2): 1094–1121. doi:10.1109 / tit.2011.2173241.

[20] Needell, D .; Tropp, J.A. (2009). "CoSaMP: Iterativní obnovení signálu z neúplných a nepřesných vzorků". Aplikovaná a výpočetní harmonická analýza. 26 (3): 301–321. arXiv:0803.2392. doi:10.1016 / j.acha.2008.07.002.

[21] Wang, J .; Kwon, S .; Shim, B. (2012). "Zobecněné pronásledování ortogonální". Transakce IEEE při zpracování signálu. 60 (12): 6202–6216. arXiv:1111.6664. Bibcode:2012ITSP ... 60.6202J. doi:10.1109 / TSP.2012.2218810.

[22] Kwon, S .; Wang, J .; Shim, B. (2014). "Multipath Matching Pursuit". Transakce IEEE na teorii informací. 60 (5): 2986–3001. arXiv:1308.4791. doi:10.1109 / TIT.2014.2310482.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]