Nástin rozpoznávání objektů - Outline of object recognition
Následující obrys je poskytován jako přehled a aktuální průvodce rozpoznáváním objektů:
Rozpoznávání objektů - technologie v oblasti počítačové vidění pro hledání a identifikaci objektů v obrazové nebo video sekvenci. Lidé rozpoznávají velké množství objektů v obrazech s malým úsilím, a to navzdory skutečnosti, že obraz objektů se může poněkud lišit v různých úhlech pohledu, v mnoha různých velikostech a měřítcích, nebo dokonce i když jsou přeloženy nebo otočeny. Objekty lze dokonce rozpoznat, když jsou částečně zakryty z pohledu. Tento úkol je pro systémy počítačového vidění stále výzvou. Mnoho přístupů k úkolu bylo implementováno během několika desetiletí.
Přístupy založené na objektových modelech podobných CAD
- Detekce hrany
- Primal skica
- Marr, Mohan a Nevatia[1]
- Lowe
- Olivier Faugeras
Rozpoznání podle dílů
- Zobecněné válce (Thomas Binford )
- Geons (Irving Biederman )
- Dickinson, Forsyth a Ponce
Metody založené na vzhledu
- K provedení rozpoznávání použijte ukázkové obrázky (nazývané šablony nebo exempláře) objektů
- Objekty vypadají za různých podmínek odlišně:
- Změny osvětlení nebo barvy
- Změny ve směru pohledu
- Změny velikosti / tvaru
- Je nepravděpodobné, že by jeden příklad spolehlivě uspěl. Je však nemožné představovat všechny vzhledy objektu.
Shoda hran
- Používá techniky detekce hran, například Detekce hloupé hrany, najít hrany.
- Změny osvětlení a barvy obvykle nemají velký vliv na okraje obrazu
- Strategie:
- Detekujte hrany v šabloně a obrázku
- Porovnejte obrázky hran a najděte šablonu
- Je třeba zvážit rozsah možných pozic šablony
- Měření:
- Dobrá - spočítejte počet překrývajících se hran. Není robustní vůči změnám tvaru
- Lepší - spočítejte počet pixelů okraje šablony s určitou vzdáleností od okraje ve vyhledávacím obrázku
- Nejlepší - určete rozdělení pravděpodobnosti vzdálenosti k nejbližšímu okraji ve vyhledávacím obrázku (pokud je šablona ve správné poloze). Odhadněte pravděpodobnost obrazu generujícího každou pozici šablony
Hledání rozděl a panuj
- Strategie:
- Zvažte všechny pozice jako sadu (buňka v prostoru pozic)
- Určete spodní hranici skóre na nejlepší pozici v buňce
- Pokud je vázaný příliš velký, prořízněte buňku
- Pokud vázaný není příliš velký, rozdělte buňku na subcell a zkuste každou subcell rekurzivně
- Proces je zastaven, když je buňka „dostatečně malá“
- Na rozdíl od vyhledávání s více rozlišeními je touto technikou zaručeno najít všechny shody, které splňují kritérium (za předpokladu, že dolní mez je přesná)
- Hledání hranice:
- Chcete-li najít spodní hranici nejlepšího skóre, podívejte se na skóre pro pozici šablony představovanou středem buňky
- Odečtěte maximální změnu od „středové“ polohy pro jakoukoli jinou pozici v buňce (nastane v rozích buňky)
- Složitosti vznikají z určení hranic vzdálenosti
Odpovídající stupně šedi
- Hrany jsou (většinou) robustní vůči změnám osvětlení, nicméně zahodí spoustu informací
- Musí vypočítat vzdálenost v pixelech jako funkci polohy pixelu a intenzity pixelu
- Lze použít také na barvu
Přechodová shoda
- Dalším způsobem, jak být robustní vůči změnám osvětlení, aniž byste zahodili tolik informací, je srovnání gradientů obrazu
- Přiřazování se provádí jako porovnávání obrázků ve stupních šedi
- Jednoduchá alternativa: Použijte (normalizovanou) korelaci
Histogramy receptivních odpovědí pole
- Vyhýbá se explicitní bodové korespondenci
- Vztahy mezi různými obrazovými body implicitně kódované v reakcích receptivního pole
- Swain a Ballard (1991),[2] Schiele a Crowley (2000),[3] Linde a Lindeberg (2004, 2012)[4][5]
Velké modelové základny
- Jeden přístup k efektivnímu vyhledávání konkrétního obrázku v databázi s využitím vlastních vektorů šablon (tzv vlastní plochy )
- Základny modelů jsou souborem geometrických modelů objektů, které by měly být rozpoznány
Metody založené na vlastnostech
Detekce funkcí |
---|
Detekce hrany |
Detekce rohů |
Detekce blobů |
Detekce hřebene |
Hough transformace |
Tenzor struktury |
Detekce afinních invariantních funkcí |
Popis funkce |
Měřítko prostoru |
- vyhledávání se používá k nalezení proveditelných shod mezi vlastnostmi objektu a funkce obrazu.
- primární omezení spočívá v tom, že jediná možná poloha objektu musí odpovídat všem proveditelným shodám.
- metody, které extrahovat funkce z objektů, které mají být rozpoznány, a obrázků, které mají být prohledány.
- povrchové skvrny
- rohy
- lineární hrany
Interpretační stromy
- Metoda hledání proveditelných shod je prohledávání stromu.
- Každý uzel ve stromu představuje sadu shod.
- Kořenový uzel představuje prázdnou sadu
- Každý další uzel je sjednocení shod v nadřazeném uzlu a jedné další shody.
- Zástupný znak se používá pro funkce, které se neshodují
- Uzly se „prořezávají“, když je sada shod nemožná.
- Prořezaný uzel nemá žádné děti
- Historicky významné a stále používané, ale méně často
Hypotéza a testování
- Hlavní myšlenka:
- Předpokládaná velikost a korespondence mezi kolekcí obrazových prvků a kolekcí objektových prvků
- Poté použijte k vygenerování hypotézy o projekci z rámečku souřadnic objektu do rámečku obrazu
- Pomocí této hypotézy projekce vygenerujte vykreslení objektu. Tento krok se obvykle nazývá zpětná projekce
- Porovnejte vykreslení s obrázkem a pokud jsou dostatečně podobné, přijměte hypotézu
- Získání hypotézy:
- Existuje celá řada různých způsobů vytváření hypotéz.
- Pokud jsou známé vnitřní parametry kamery, je hypotéza ekvivalentní hypotetické poloze a orientaci - póza - pro objekt.
- Využijte geometrická omezení
- Vytvořte korespondenci pro malé sady funkcí objektu s každou správně nastavenou podmnožinou obrazových bodů. (Toto jsou hypotézy)
- Tři základní přístupy:
- Získávání hypotéz podle konzistence pozice
- Získání hypotéz Pose Clustering
- Získání hypotéz pomocí invarianty
- Hledání nákladů, které je také nadbytečné, ale lze je vylepšit pomocí randomizace a / nebo seskupení
- Randomizace
- Zkoumání malých sad obrazových prvků, dokud se pravděpodobnost chybějícího objektu nezmění
- U každé sady prvků obrazu je třeba vzít v úvahu všechny možné sady shodných funkcí modelu.
- Vzorec:
- (1 - ZC)k = Z
- W = zlomek obrazových bodů, které jsou „dobré“ (w ~ m / n)
- c = počet potřebných korespondencí
- k = počet pokusů
- Z = pravděpodobnost každého pokusu s použitím jedné (nebo více) nesprávných korespondencí
- Seskupení
- Pokud můžeme určit skupiny bodů, které pravděpodobně pocházejí ze stejného objektu, můžeme snížit počet hypotéz, které je třeba zkoumat
- Randomizace
Představte konzistenci
- Také se nazývá Zarovnání, protože objekt je zarovnán k obrázku
- Korespondence mezi prvky obrazu a prvky modelu nejsou nezávislé - Geometrická omezení
- Malý počet korespondencí poskytuje pozici objektu - ostatní s tím musí být konzistentní
- Hlavní myšlenka:
- Pokud předpokládáme shodu mezi dostatečně velkou skupinou prvků obrazu a dostatečně velkou skupinou prvků objektu, můžeme z této hypotézy obnovit chybějící parametry kamery (a vykreslit tak zbytek objektu)
- Strategie:
- Generujte hypotézy pomocí malého počtu korespondencí (např. Trojnásobek bodů pro 3D rozpoznávání)
- Promítněte do obrazu další funkce modelu (zpětný projekt ) a ověřte další korespondenci
- Použijte nejmenší počet korespondencí nezbytných k dosažení pozic diskrétních objektů
Představte shlukování
- Hlavní myšlenka:
- Každý objekt vede k mnoha správným sadám korespondencí, z nichž každý má (zhruba) stejnou pózu
- Hlasujte o póze. Použijte pole akumulátoru, které představuje prostor pozice pro každý objekt
- To je v zásadě a Hough transformace
- Strategie:
- Pro každý objekt nastavte pole akumulátoru, které představuje prostor pozice - každý prvek v poli akumulátoru odpovídá „kbelíku“ v prostoru pozice.
- Pak vezměte každou skupinu snímků a vytvořte hypotézu o korespondenci mezi ní a každou skupinou snímků na každém objektu
- Pro každou z těchto korespondencí určete parametry pozice a proveďte záznam v poli akumulátoru pro aktuální objekt na hodnotě pozice.
- Pokud je v poli akumulátoru libovolného objektu velký počet hlasů, lze to interpretovat jako důkaz přítomnosti daného objektu v dané pozici.
- Důkazy lze ověřit pomocí metody ověření
- Všimněte si, že tato metoda používá sady korespondencí, nikoli jednotlivé korespondence
- Implementace je jednodušší, protože každá sada přináší malý počet možných póz objektů.
- Zlepšení
- Odolnost proti šumu u této metody lze zlepšit tím, že se nepočítají hlasy pro objekty v pozicích, kde je hlas zjevně nespolehlivý
- § Například v případech, kdy, pokud by byl objekt v této póze, byla by skupina rámců objektů neviditelná.
- Tato vylepšení jsou dostatečná k získání funkčních systémů
Invariance
- Existují geometrické vlastnosti, které jsou neměnné pro transformace kamery
- Nejsnadněji vyvinutý pro obrazy rovinných objektů, ale lze jej použít i v jiných případech
Geometrický hash
- Algoritmus, který používá geometrické invarianty k hlasování pro hypotézy objektů
- Podobně jako shlukování pólů, ale místo hlasování o póze nyní hlasujeme o geometrii
- Technika původně vyvinutá pro porovnávání geometrických prvků (nekalibrované afinní pohledy na rovinné modely) s databází takových prvků
- Široce se používá pro porovnávání vzorů, CAD / CAM a lékařské zobrazování.
- Je těžké vybrat velikost lopat
- Je těžké si být jisti, co znamená „dost“. Proto může existovat určité nebezpečí, že se stůl ucpe.
Transformace funkcí neměnného rozsahu (PROSÍT)
- Klíčové body objektů se nejprve extrahují ze sady referenčních obrazů a uloží se do databáze
- Objekt je v novém obrazu rozpoznán individuálním porovnáním každého prvku z nového obrázku s touto databází a nalezením vhodných prvků na základě euklidovské vzdálenosti jejich vektorů prvků.
- Lowe (2004)[6][7]
Zrychlil robustní funkce (SURFOVAT)
- Robustní detektor a deskriptor obrazu
- Standardní verze je několikrát rychlejší než SIFT a její autoři tvrdí, že je odolnější vůči jiným transformacím obrazu než SIFT
- Na základě součtu přibližných 2D reakce vlnky Haar a efektivně využívat integrované obrázky.
- Bay a kol. (2008)[8]
Reprezentace pytle slov
Genetický algoritmus
Genetické algoritmy může fungovat bez předchozí znalosti dané datové sady a může vyvinout postupy rozpoznávání bez lidského zásahu. Nedávný projekt dosáhl stoprocentní přesnosti srovnávacích datových souborů obrazů motorek, obličeje, letadel a automobilů od společnosti Caltech a přesnosti 99,4 procent obrazových datových souborů druhů ryb.[9][10]
Další přístupy
- Rozpoznávání 3D objektů a rekonstrukce[11]
- Biologicky inspirováno rozpoznávání objektů
- Umělé neuronové sítě a Hluboké učení zvláště konvoluční neuronové sítě
- Kontext[12][13]
- Výslovné a implicitní 3D modely objektů
- Rychlé indexování[14]
- Reprezentace globálních scén[12]
- Gradientní histogramy
- Stochastické gramatiky[15]
- Intraclass přenos učení
- Kategorizace objektů z vyhledávání obrázků
- Odrazivost[16]
- Tvar od stínování[17]
- Shoda šablon
- Textura[18]
- Tematické modely[13]
- Učení bez dozoru
- Detekce na základě okna
- Deformovatelný model součásti
- Binghamova distribuce[19]
Aplikace
Metody rozpoznávání objektů mají následující aplikace:
- Rozpoznávání aktivity[20]
- Automatická anotace obrazu[21][22]
- Automatické rozpoznání cíle
- Android Eyes - rozpoznávání objektů[23]
- Počítačem podporovaná diagnostika[24]
- obraz panoramata[25]
- Vodoznak obrázku[26]
- Globální lokalizace robota[27]
- Detekce obličeje [28]
- Optické rozpoznávání znaků [29]
- Výrobní kontrola kvality [30]
- Načítání obrázků podle obsahu [31]
- Počítání a monitorování objektů [32]
- Automatizované parkovací systémy[33]
- Vizuální polohování a sledování [34]
- Stabilizace videa [35]
- Detekce chodců
Průzkumy
- Daniilides a Eklundh, Edelman.
- Roth, Peter M. & Winter, Martin (2008). „METODY PRO ROZPOZNÁNÍ PŘEDMĚTŮ ZALOŽENÉ NA PRŮZKUMU“ (PDF). Technická zpráva. ICG-TR-01/08.
Viz také
- Histogram orientovaných přechodů
- Konvoluční neuronová síť
- OpenCV
- Transformace funkcí neměnného rozsahu (PROSÍT)
- Detekce objektů
- Článek Scholarpedia o transformaci prvků s neměnnou velikostí a souvisejících metodách rozpoznávání objektů
- SURFOVAT
- Shoda šablon
- Integrovaná funkce kanálu
- Seznamy
Poznámky
- ^ Rahesh Mohan & Rakamant Nevatia (1992). "Percepční organizace pro segmentaci a popis scény" (PDF). IEEE Trans Pat Anal Mach Intell.
- ^ M. J. Swain a D. H. Ballard „Color indexing“, International Journal of Computer Vision, 7: 1, 11-32, 1991.
- ^ B. Schiele a J. L. Crowley „Recognition without korespondence using multidimensional receptive field histograms“, International Journal of Computer Vision, 36: 1, 31-50, 2000
- ^ O. Linde a T. Lindeberg „Rozpoznávání objektů pomocí složených histogramů receptivního pole vyšší dimenze“, Proc. International Conference on Pattern Recognition (ICPR'04), Cambridge, UK UK: 1-6, 2004.
- ^ O. Linde a T. Lindeberg „Složené složité histogramy: Vyšetřování informačního obsahu v recepčních obrazových deskriptorech založených na receptivním rozpoznávání objektů“, Computer Vision and Image Understanding, 116: 4, 538-560, 2012.
- ^ Lowe, D. G., „Charakteristické rysy obrazu z klíčových bodů neměnných v měřítku“, International Journal of Computer Vision, 60, 2, str. 91–110, 2004.
- ^ Lindeberg, Tony (2012). "Transformace neměnných funkcí měřítka". Scholarpedia. 7 (5): 10491. doi:10,4249 / scholarpedia.10491.
- ^ Bay, Herbert; Ess, Andreas; Tuytelaars, Tinne; Van Gool, Luc (2008). "Zrychlené robustní funkce (SURF)". Počítačové vidění a porozumění obrazu. 110 (3): 346–359. CiteSeerX 10.1.1.205.738. doi:10.1016 / j.cviu.2007.09.014.
- ^ „Nový algoritmus rozpoznávání objektů se učí za běhu“. Gizmag.com. Citováno 2014-01-21.
- ^ Lillywhite, K .; Lee, D. J .; Tippetts, B .; Archibald, J. (2013). Msgstr "Metoda konstrukce prvku pro obecné rozpoznávání objektů". Rozpoznávání vzorů. 46 (12): 3300. doi:10.1016 / j.patcog.2013.06.002.
- ^ Brown, Matthew a David G. Lowe. "Bezobslužné rozpoznávání a rekonstrukce 3D objektů v neuspořádaných souborech dat „3D digitální zobrazování a modelování, 2005. 3DIM 2005. Pátá mezinárodní konference o. IEEE, 2005.
- ^ A b Oliva, Aude a Antonio Torralba. "Role kontextu v rozpoznávání objektů "Trends in cognitive sciences 11.12 (2007): 520-527.
- ^ A b Niu, Zhenxing a kol. "Kontextový model tématu pro rozpoznávání scén „Konference IEEE 2012 o počítačovém vidění a rozpoznávání vzorů. IEEE, 2012.
- ^ Stein, Fridtjof a Gérard Medioni. "Strukturální indexování: Efektivní 3-D rozpoznávání objektů „IEEE Transactions on Pattern Analysis & Machine Intelligence 2 (1992): 125-145.
- ^ Zhu, Song-Chun a David Mumford. "Stochastická gramatika obrazů "Základy a trendy v počítačové grafice a vizi 2.4 (2007): 259-362.
- ^ Nayar, Shree K. a Ruud M. Bolle. "Reflexní rozpoznávání objektů "International journal of computer vision 17.3 (1996): 219-240.
- ^ Worthington, Philip L. a Edwin R. Hancock. "Rozpoznávání objektů pomocí stínování ze tvaru „IEEE Transactions on Pattern Analysis and Machine Intelligence 23.5 (2001): 535-542.
- ^ Shotton, Jamie a kol. "Textonboost pro porozumění obrazu: Rozpoznávání a segmentace objektů více tříd společným modelováním textury, rozložení a kontextu. “International journal of computer vision 81.1 (2009): 2-23.
- ^ „Lepší robotické vidění“. Kurzweil AI. Citováno 2013-10-09.
- ^ Donahue, Jeffrey a kol. "Dlouhodobě se opakující konvoluční sítě pro vizuální rozpoznávání a popis "Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. 2015.
- ^ Karpathy, Andrej a Li Fei-Fei. "Hluboké vizuální-sémantické zarovnání pro generování popisů obrázků "Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. 2015.
- ^ P Duygulu; K Barnard; N de Fretias & D Forsyth (2002). „Rozpoznávání objektů jako strojový překlad: Naučit se lexikon pro slovní zásobu s pevným obrázkem“. Sborník příspěvků z Evropské konference o počítačovém vidění. 97–112. Archivovány od originál dne 2005-03-05.
- ^ „Počítačové vidění Android Eyes“.Martha J. Farah „Visual Agnosia“, Computer Vision Computing Cognitive Neuroscience, MIT Press, 2011-05-01, strany 760-781, ISSN 1468-4233 [1][mrtvý odkaz ]
- ^ Esteva, Andre a kol. "Klasifikace rakoviny kůže na úrovni dermatologa s hlubokými neuronovými sítěmi. “Nature 542.7639 (2017): 115.
- ^ Brown, M. a Lowe, D.G., "Rozpoznávání panoramat „ICCV, s. 1218, devátá mezinárodní konference IEEE o počítačovém vidění (ICCV'03) - svazek 2, Nice, Francie, 2003
- ^ Li, L., Guo, B. a Shao, K., "Geometricky robustní vodoznak obrazu pomocí transformace funkcí neměnných v měřítku a momentů Zernike, „Chinese Optics Letters, svazek 5, vydání 6, str. 332-335, 2007.
- ^ Se, S., Lowe, D.G. a Little, J.J., "Globální lokalizace a mapování založené na vizi pro mobilní roboty ", IEEE Transactions on Robotics, 21, 3 (2005), str. 364-375.
- ^ Thomas Serre, Maximillian Riesenhuber, Jennifer Louie, Tomaso Poggio, “Role objektově specifických funkcí pro rozpoznávání objektů v reálném světě v biologickém vidění "Laboratoř umělé inteligence a ministerstvo mozku a kognitivních věd, Massachusettský technologický institut, Centrum biologického a výpočetního učení, Mc Govern Institute pro výzkum mozku, Cambridge, MA, USA
- ^ Anne Permaloff a Carl Grafton, “Optické rozpoznávání znaků „Political Science and Politics, Vol. 25, No. 3 (Sep., 1992), str. 523-531
- ^ Christian Demant, Bernd Streicher-Abel, Peter Waszkewitz, „Průmyslové zpracování obrazu: vizuální kontrola kvality ve výrobě“ Nástin rozpoznávání objektů na Knihy Google
- ^ Nuno Vasconcelos "Indexování obrázků s hierarchiemi směsí " Archivováno 2011-01-18 na Wayback Machine Compaq Computer Corporation, Proc. IEEE Conference in Computer Vision and Pattern Recognition, Kauai, Hawaii, 2001
- ^ Heikkilä, Janne; Silvén, Olli (2004). "Systém monitorování cyklistů a chodců v reálném čase". Výpočet obrazu a vidění. 22 (7): 563–570. doi:10.1016 / j.imavis.2003.09.010.
- ^ Ho Gi Jung, Dong Suk Kim, Pal Joo Yoon, Jaihie Kim, "Rozpoznání značení parkovacích slotů na základě strukturální analýzy pro poloautomatický parkovací systém „Strukturální, syntaktické a statistické rozpoznávání vzorů, Springer Berlin / Heidelberg, 2006
- ^ S. K. Nayar, H. Murase a S.A. Nene, "Učení, umístění a sledování Vizuální vzhled „Proc. Of IEEE Intl. Conf. On Robotics and Automation, San Diego, květen 1994
- ^ Liu, F .; Gleicher, M .; Jin, H .; Agarwala, A. (2009). "Warp zachovávající obsah pro stabilizaci 3D videa". Transakce ACM v grafice. 28 (3): 1. CiteSeerX 10.1.1.678.3088. doi:10.1145/1531326.1531350.
Reference
- Elgammal, Ahmed „CS 534: Rozpoznávání založené na 3D modelu počítačového vidění“, Ústav výpočetní techniky, Rutgers University;
- Hartley, Richard a Zisserman, Andrew „Geometrie více pohledů v počítačovém vidění“, Cambridge Press, 2000, ISBN 0-521-62304-9.
- Roth, Peter M. a Winter, Martin „Přehled metod pro rozpoznávání objektů založených na vzhledu“, technická zpráva ICG-TR-01/08, Inst. pro počítačovou grafiku a vidění, Graz University of Technology, Rakousko; 15. ledna 2008.
- Collins, Robert „Přednáška 31: Rozpoznávání objektů: SIFT klíče“, CSE486, Penn State
- IPRG Zpracování obrazu - online otevřená výzkumná skupina
- Christian Szegedy, Alexander Toshev a Dumitru Erhan. Hluboké neuronové sítě pro detekci objektů. Pokroky v systémech zpracování neurálních informací 26, 2013. strana 2553–2561.