Model bag-of-words v počítačovém vidění - Bag-of-words model in computer vision - Wikipedia
v počítačové vidění, model sáčku slov (Model BoW) se někdy nazývá model bag-of-visual-words [1] lze použít na klasifikace obrazu léčením funkce obrazu jako slova. v klasifikace dokumentů, a pytel slov je řídký vektor počty výskytů slov; to znamená řídké histogram přes slovní zásobu. v počítačové vidění, a pytel vizuálních slov je vektor počtů výskytů slovní zásoby místních obrazových prvků.
Reprezentace obrazu na základě modelu BoW
Chcete-li představit obrázek pomocí modelu BoW, lze obrázek považovat za dokument. Podobně je třeba definovat „slova“ v obrázcích. K dosažení tohoto cíle obvykle zahrnuje následující tři kroky: detekce funkcí, popis funkce a generování číselníku.[2] Definicí modelu BoW může být „histogramová reprezentace založená na nezávislých funkcích“.[3] Zdá se, že indexování a načítání obrázků na základě obsahu (CBIR) je prvním uživatelem této techniky reprezentace obrázků.[4]
Reprezentace funkcí
Po detekci funkcí je každý obrázek abstrahován několika místními opravami. Metody reprezentace prvků se zabývají tím, jak reprezentovat opravy jako číselné vektory. Tyto vektory se nazývají deskriptory funkcí. Dobrý deskriptor by měl mít schopnost do určité míry zvládnout intenzitu, rotaci, měřítko a afinitní variace. Jedním z nejslavnějších deskriptorů je Transformace funkcí neměnných v měřítku (PROSÍT).[5] SIFT převádí každý patch na 128rozměrný vektor. Po tomto kroku je každý obrázek souborem vektorů stejné dimenze (128 pro SIFT), kde pořadí různých vektorů není důležité.
Generování číselníku
Posledním krokem pro model BoW je převod vektorově reprezentovaných oprav na „kódová slova“ (analogická slovům v textových dokumentech), která také vytvoří „číselník“ (analogie ke slovníku slov). Kódové slovo lze považovat za zástupce několika podobných oprav. Jedna jednoduchá metoda je provedení k-znamená shlukování přes všechny vektory.[6] Kódová slova jsou poté definována jako centra naučených klastrů. Počet klastrů je velikost číselníku (obdobně jako velikost slovníku slov).
Každá oprava v obraze je tedy prostřednictvím procesu shlukování mapována na určité kódové slovo a obraz může být reprezentován znakem histogram kódových slov.
Učení a rozpoznávání na základě modelu BoW
Vědci v oblasti počítačového vidění vyvinuli několik metod učení, které využívají model BoW pro úkoly související s obrazem, jako je například kategorizace objektů. Tyto metody lze zhruba rozdělit do dvou kategorií, modely bez dozoru a pod dohledem. U problému s více kategorizací štítků se zobrazí zmatená matice lze použít jako metriku hodnocení.
Modely bez dozoru
Zde je několik poznámek k této části. Předpokládejme, že velikost číselníku je .
- : každá oprava je V-dimenzionální vektor, který má jednu složku rovnou jedné a všechny ostatní složky rovné nule (pro nastavení k-means shlukování znamená jedna složka rovná jedna klastr, který patří). The th kódové slovo v číselníku může být reprezentováno jako a pro .
- : každý obrázek je reprezentován , všechny opravy v obrázku
- : th image in an image collection
- : kategorie obrázku
- : téma nebo téma opravy
- : poměr směsi
Vzhledem k tomu, že model BoW je obdobou modelu BoW v NLP, lze generativní modely vyvinuté v textových doménách také přizpůsobit v počítačovém vidění. Diskutovány jsou jednoduchý naivní Bayesův model a hierarchické Bayesovské modely.
Naivní Bayes
Nejjednodušší je Naivní Bayes klasifikátor.[7] Používání jazyka grafické modely, klasifikátor Naivní Bayes je popsán níže uvedenou rovnicí. Základní myšlenkou (nebo předpokladem) tohoto modelu je, že každá kategorie má svou vlastní distribuci přes číselníky a že distribuce každé kategorie jsou viditelně odlišné. Vezměte si například kategorii obličeje a kategorie automobilů. Kategorie obličeje může zdůrazňovat kódová slova, která představují „nos“, „oko“ a „ústa“, zatímco kategorie automobilů může zdůrazňovat kódová slova, která představují „kolo“ a „okno“. Vzhledem k kolekci příkladů školení se klasifikátor naučí různá rozdělení pro různé kategorie. Rozhodnutí o kategorizaci přijímá
Jelikož je klasifikátor Naïve Bayes jednoduchý, ale efektivní, obvykle se používá jako základní metoda pro srovnání.
Hierarchické Bayesovské modely
Základní předpoklad modelu Naïve Bayes někdy neplatí. Například přirozený obraz scény může obsahovat několik různých témat.Pravděpodobnostní latentní sémantická analýza (pLSA)[8][9] a latentní Dirichletova alokace (LDA)[10] jsou dva populární tematické modely z textových domén, které řeší podobný problém s více „tématy“. Vezměte si příklad LDA. K modelování obrazů přirozených scén pomocí LDA se vytváří analogie s analýzou dokumentů:
- kategorie obrázku je namapována na kategorii dokumentu;
- směsný podíl témat mapuje smíšený podíl témat;
- index témat je mapován na index témat;
- kódové slovo je namapováno na slovo.
Tato metoda ukazuje velmi slibné výsledky při kategorizaci přirozených scén 13 Kategorie přírodních scén.[2]
Dohlížené modely
Vzhledem k tomu, že obrázky jsou reprezentovány na základě modelu BoW, lze vyzkoušet jakýkoli diskriminační model vhodný pro kategorizaci textových dokumentů, například podporovat vektorový stroj (SVM)[7] a AdaBoost.[11] Jádrový trik je také použitelné, když se používá klasifikátor založený na jádře, například SVM. Pyramid match kernel je nově vyvinuté jádro založené na modelu BoW. Přístup k lokálním vlastnostem použití reprezentace modelu BoW naučený klasifikátory strojového učení s různými jádry (např. EMD-kernel a kernel) byl rozsáhle testován v oblasti rozpoznávání textur a objektů.[12] Byly hlášeny velmi slibné výsledky u řady datových sad. Tento přístup[12] dosáhl v roce 2006 velmi působivých výsledků výzva tříd vizuálních objektů PASCAL.
Pyramidové jádro
Pyramidové jádro[13] je rychlý algoritmus (lineární složitost místo klasické v kvadratické složitosti) funkce jádra (uspokojivá Mercerův stav ), který mapuje funkce BoW nebo sadu prvků ve vysoké dimenzi na multidimenzionální histogramy s více rozlišeními. Výhodou těchto histogramů s více rozlišeními je jejich schopnost zachytit společně se vyskytující funkce. Jádro pyramidové zápalky vytváří histogramy s více rozlišeními binováním datových bodů do samostatných oblastí s rostoucí velikostí. Body, které se neshodují při vysokých rozlišeních, tedy mají šanci porovnávat se při nízkém rozlišení. Jádro pyramidové shody provádí přibližnou shodu podobnosti bez explicitního vyhledávání nebo výpočtu vzdálenosti. Místo toho protíná histogramy, aby se přiblížila optimální shoda. V souladu s tím je výpočetní čas v počtu funkcí pouze lineární. Ve srovnání s jinými přístupy k jádru je jádro pyramidové shody mnohem rychlejší, přesto poskytuje ekvivalentní přesnost. Bylo použito jádro pyramidové zápalky Databáze ETH-80 a Databáze Caltech 101 se slibnými výsledky.[13][14]
Omezení a nedávný vývoj
Jednou z notoricky známých nevýhod BoW je, že ignoruje prostorové vztahy mezi opravami, které jsou velmi důležité při reprezentaci obrazu. Vědci navrhli několik metod pro začlenění prostorové informace. Pro vylepšení na úrovni funkcí korelogram funkce mohou zachytit prostorové společné výskyty funkcí.[15] U generativních modelů relativní polohy[16][17] zohledněna jsou také klíčová slova. Hierarchický model tvaru a vzhledu pro lidskou činnost[18] zavádí novou vrstvu dílu (Konstelační model ) mezi poměrem směsi a funkcemi BoW, které zachycují prostorové vztahy mezi částmi ve vrstvě. U diskriminačních modelů odpovídá prostorová pyramida[19] provádí porovnávání pyramid rozdělením obrazu na stále jemnější podoblasti a vypočítává histogramy místních prvků uvnitř každé podoblasti. Nedávno došlo k rozšíření místních deskriptorů obrázků (tj. PROSÍT ) svými prostorovými souřadnicemi normalizovanými šířkou a výškou obrazu se ukázaly jako robustní a jednoduché prostorové souřadnice[20][21] přístup, který zavádí prostorové informace do modelu BoW.
Model BoW dosud nebyl důkladně testován na invariantnost pohledu a invariance měřítka a jeho výkon je nejasný. Také není dobře pochopen model BoW pro segmentaci a lokalizaci objektů.[3]
Systematické srovnání klasifikačních kanálů zjistilo, že kódování statistik prvního a druhého řádu (Vektor místně agregovaných deskriptorů (VLAD)[22] a Fisher Vector (FV) ) podstatně zvýšila přesnost klasifikace ve srovnání s BoW a zároveň zmenšila velikost číselníku, čímž se snížilo výpočetní úsilí pro generování číselníku.[23] Navíc nedávné podrobné srovnání metod kódování a sdružování[21] pro BoW ukázal, že statistiky druhého řádu v kombinaci s Řídké kódování a vhodné sdružování, jako je například Normalizace výkonu, může dále překonat Fisherovy vektory a dokonce přiblížit výsledky jednoduchých modelů Konvoluční neurální síť na některých datových sadách pro rozpoznávání objektů, jako je Oxford Flower Dataset 102.
Viz také
- Částečně založené modely
- Fisher vektorové kódování
- Kategorizace objektů na základě segmentace
- Vektorový prostorový model
- Model pytle slov
- Extrakce funkcí
Reference
- ^ Davida, Bethea (3. července 2018). „Pytel vizuálních slov v kostce“. Střední. Citováno 10. června 2020.
- ^ A b Fei-Fei Li; Perona, P. (2005). Bayesovský hierarchický model pro učení kategorií přírodních scén. Konference IEEE Computer Society 2005 o počítačovém vidění a rozpoznávání vzorů (CVPR'05). 2. str. 524. doi:10.1109 / CVPR.2005.16. ISBN 978-0-7695-2372-9.
- ^ A b L. Fei-Fei; R. Fergus a A. Torralba. „Rozpoznávání a učení se kategorií předmětů, krátký kurz CVPR 2007“.
- ^ Qiu, G. (2002). "Indexování chromatických a achromatických vzorů pro načítání barevných obrázků podle obsahu" (PDF). Rozpoznávání vzorů. 35 (8): 1675–1686. doi:10.1016 / S0031-3203 (01) 00162-5.
- ^ Vidal-Naquet; Ullman (1999). "Rozpoznávání objektů s informativními vlastnostmi a lineární klasifikací" (PDF). Sborník Devátá mezinárodní konference IEEE o počítačovém vidění. str. 1150–1157. CiteSeerX 10.1.1.131.1283. doi:10.1109 / ICCV.2003.1238356. ISBN 978-0-7695-1950-0.
- ^ T. Leung; J. Malik (2001). „Reprezentace a rozpoznávání vizuálního vzhledu materiálů pomocí trojrozměrných textonů“ (PDF). International Journal of Computer Vision. 43 (1): 29–44. doi:10.1023 / A: 1011126920638.
- ^ A b G. Csurka; C. Dance; L.X. Fanoušek; J. Willamowski a C. Bray (2004). "Vizuální kategorizace s taškami klíčových bodů". Proc. mezinárodního semináře ECCV o statistickém učení v počítačovém vidění. Archivovány od originál dne 2014-12-17. Citováno 2012-02-03.
- ^ T. Hoffman (1999). „Pravděpodobnostní latentní sémantická analýza“ (PDF). Proc. patnácté konference o nejistotě v umělé inteligenci. Archivovány od originál (PDF) dne 10.7.2007. Citováno 2007-12-10.
- ^ Sivic, J .; Russell, B.C .; Efros, A.A .; Zisserman, A .; Freeman, W.T. (2005). „Objevování objektů a jejich umístění v obrázcích“ (PDF). Desátá mezinárodní konference IEEE o počítačovém vidění (ICCV'05), svazek 1. str. 370. CiteSeerX 10.1.1.184.1253. doi:10.1109 / ICCV.2005.77. ISBN 978-0-7695-2334-7.
- ^ D. Blei; A. Ng & M. Jordan (2003). Lafferty, John (ed.). „Přidělení latentního dirichletu“ (PDF). Journal of Machine Learning Research. 3 (4–5): 993–1022. doi:10.1162 / jmlr.2003.3.4-5,993. Archivovány od originál (PDF) dne 2008-08-22. Citováno 2007-12-10.
- ^ Serre, T .; Wolf, L .; Poggio, T. (2005). "Rozpoznávání objektů s funkcemi inspirovanými Visual Cortex" (PDF). Konference IEEE Computer Society 2005 o počítačovém vidění a rozpoznávání vzorů (CVPR'05). 2. str. 994. CiteSeerX 10.1.1.71.5276. doi:10.1109 / CVPR.2005.254. ISBN 978-0-7695-2372-9.
- ^ A b Jianguo Zhang; Marcin Marszałek; Svetlana Lazebnik; Cordelia Schmid (2007). „Místní funkce a jádra pro klasifikaci textur a kategorií objektů: komplexní studie“ (PDF). International Journal of Computer Vision. 73 (2): 213–238. doi:10.1007 / s11263-006-9794-4.
- ^ A b Grauman, K .; Darrell, T. (2005). „Jádro pyramidové shody: diskriminační klasifikace se sadami obrazových prvků“ (PDF). Desátá mezinárodní konference IEEE o počítačovém vidění (ICCV'05), svazek 1. str. 1458. CiteSeerX 10.1.1.644.6159. doi:10.1109 / ICCV.2005.239. ISBN 978-0-7695-2334-7.
- ^ Jianchao Yang; Kai Yu; Yihong Gong; Huang, T. (2009). "Lineární prostorová pyramidová shoda pomocí řídkého kódování pro klasifikaci obrazu". 2009 IEEE Conference on Computer Vision and Pattern Recognition. str. 1794. doi:10.1109 / CVPR.2009.5206757. ISBN 978-1-4244-3992-8.
- ^ Savarese, S .; Winn, J .; Criminisi, A. (2006). „Modely vzhledu a tvaru diskriminačních tříd objektů podle korelací“ (PDF). Konference IEEE Computer Society 2006 o počítačovém vidění a rozpoznávání vzorů - svazek 2 (CVPR'06). 2. str. 2033. CiteSeerX 10.1.1.587.8853. doi:10.1109 / CVPR.2006.102. ISBN 978-0-7695-2597-6.
- ^ Sudderth, E.B .; Torralba, A .; Freeman, W.T .; Willsky, A.S. (2005). „Učení se hierarchickým modelům scén, objektů a částí“ (PDF). Desátá mezinárodní konference IEEE o počítačovém vidění (ICCV'05), svazek 1. str. 1331. CiteSeerX 10.1.1.128.7259. doi:10.1109 / ICCV.2005.137. ISBN 978-0-7695-2334-7.
- ^ E. Sudderth; A. Torralba; W. Freeman & A. Willsky (2005). „Popis vizuálních scén pomocí transformovaných Dirichletových procesů“ (PDF). Proc. systémů zpracování neurálních informací.
- ^ Niebles, Juan Carlos; Li Fei-Fei (2007). „Hierarchický model tvaru a vzhledu pro klasifikaci lidské činnosti“ (PDF). Konference IEEE 2007 o počítačovém vidění a rozpoznávání vzorů. str. 1. CiteSeerX 10.1.1.173.2667. doi:10.1109 / CVPR.2007.383132. ISBN 978-1-4244-1179-5.
- ^ Lazebnik, S .; Schmid, C .; Ponce, J. (2006). „Kromě funkcí: Spatial Pyramid Matching pro rozpoznávání kategorií přírodních scén“ (PDF). Konference IEEE Computer Society 2006 o počítačovém vidění a rozpoznávání vzorů - svazek 2 (CVPR'06). 2. str. 2169. CiteSeerX 10.1.1.651.9183. doi:10.1109 / CVPR.2006.68. ISBN 978-0-7695-2597-6.
- ^ Koniusz, Piotr; Yan, Fei; Mikolajczyk, Krystian (01.05.2013). "Srovnání přístupů kódování funkcí na střední úrovni a strategií sdružování v detekci vizuálních konceptů". Počítačové vidění a porozumění obrazu. 117 (5): 479–492. doi:10.1016 / j.cviu.2012.10.010. ISSN 1077-3142.
- ^ A b Koniusz, Piotr; Yan, Fei; Gosselin, Philippe Henri; Mikolajczyk, Krystian (2017-02-24). "Seskupování výskytů vyššího řádu pro pytle slov: Detekce vizuálního konceptu". Transakce IEEE na analýze vzorů a strojové inteligenci. 39 (2): 313–326. doi:10.1109 / TPAMI.2016.2545667. hdl:10044/1/39814. ISSN 0162-8828. PMID 27019477.
- ^ Jégou, H .; Douze, M .; Schmid, C .; Pérez, P. (01.06.2010). Agregace místních deskriptorů do kompaktní reprezentace obrazu. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. str. 3304–3311. doi:10.1109 / CVPR.2010.5540039. ISBN 978-1-4244-6984-0.
- ^ Seeland, Marco; Rzanny, Michael; Alaqraa, Nedal; Wäldchen, Jana; Mäder, Patrick (2017-02-24). „Klasifikace druhů rostlin pomocí květinových obrázků - srovnávací studie reprezentací místních rysů“. PLOS ONE. 12 (2): e0170629. doi:10.1371 / journal.pone.0170629. ISSN 1932-6203. PMC 5325198. PMID 28234999.
externí odkazy
- Ukázka pro dva klasifikátory pytle slov L. Fei-Fei, R. Fergus a A. Torralba.
- Sada nástrojů pro vyhledávání obrázků Caltech ve velkém měřítku: sada nástrojů Matlab / C ++ implementující hledání obráceného souboru pro model Bag of Words. Obsahuje také implementace pro rychlé přibližné hledání nejbližších sousedů pomocí náhodného výběru k-d strom, hašování citlivé na lokalitu, a hierarchické k-prostředky.
- Knihovna DBoW2: knihovna, která implementuje rychlý balíček slov v C ++ s podporou pro OpenCV.