Konstelační model - Constellation model

The model souhvězdí je pravděpodobnostní, generativní model pro rozpoznávání objektů na úrovni kategorie v počítačové vidění. Jako ostatní dílčí modely, model konstelace se pokouší reprezentovat třídu objektů pomocí sady N díly pod vzájemnými geometrickými omezeními. Protože zohledňuje geometrický vztah mezi různými částmi, model souhvězdí se významně liší od pouze vzhledu, nebo „pytel slov "reprezentační modely, které výslovně ignorují umístění obrazových prvků.

Problém definování generativního modelu pro rozpoznávání objektů je obtížný. Úkol se výrazně komplikuje faktory, jako je nepořádek na pozadí, okluze a variace v pohledu, osvětlení a měřítku. V ideálním případě bychom chtěli, aby konkrétní reprezentace, kterou jsme vybrali, byla robustní vůči co největšímu počtu těchto faktorů.

U uznání na úrovni kategorie je problém ještě náročnější z důvodu zásadního problému variace uvnitř třídy. I když dva objekty patří do stejné vizuální kategorie, jejich vzhled se může výrazně lišit. U strukturovaných objektů, jako jsou automobily, jízdní kola a lidé, však samostatné instance objektů ze stejné kategorie podléhají podobným geometrickým omezením. Z tohoto důvodu mají určité části objektu, jako jsou světlomety nebo pneumatiky automobilu, stále konzistentní vzhled a relativní polohy. Model Constellation využívá této skutečnosti explicitním modelováním relativního umístění, relativního měřítka a vzhledu těchto částí pro konkrétní kategorii objektu. Parametry modelu se odhadují pomocí neřízené učení algoritmus, což znamená, že vizuální koncept třídy objektu lze extrahovat z neoznačené sady tréninkových obrazů, i když tato sada obsahuje „nevyžádané“ obrázky nebo instance objektů z více kategorií. Může také zohlednit absenci částí modelu kvůli variabilitě vzhledu, okluzi, nepořádku nebo chybě detektoru.

Dějiny

Myšlenku na model „dílů a konstrukcí“ původně představili Fischler a Elschlager v roce 1973.[1] Od té doby byl tento model postaven a rozšířen v mnoha směrech. Model Constellation, jak jej zavedl Dr. Perona a jeho kolegové, byl pravděpodobnostní adaptací tohoto přístupu.

Na konci 90. let Burl a kol.[2][3][4][5] znovu navštívil Fischlerův a Elschlagerův model za účelem rozpoznávání tváře. Ve své práci Burl a kol. použil manuální výběr částí souhvězdí na cvičných obrázcích ke konstrukci statistického modelu pro sadu detektorů a relativních míst, kde by měly být použity. V roce 2000 Weber et al. [6][7][8][9] učinil významný krok v tréninku modelu pomocí nekontrolovaného procesu učení, což vylučovalo nutnost zdlouhavého ručního označování dílů. Jejich algoritmus byl obzvláště pozoruhodný, protože fungoval dobře i na přeplněných a uzavřených obrazových datech. Fergus a kol.[10][11] poté tento model vylepšil tím, že krok učení byl plně bez dozoru, měl současně naučený tvar i vzhled a explicitně zohlednil relativní měřítko dílů.

Metoda Webera a Wellinga a kol.[9]

V prvním kroku standard detekce zájmových bodů metoda, jako je Harris detekce rohů, se používá ke generování úrokových bodů. Funkce obrazu generované z blízkosti těchto bodů jsou poté seskupeny pomocí k-prostředky nebo jiný vhodný algoritmus. V tomto procesu vektorové kvantování, lze centroidy těchto shluků považovat za reprezentativní pro vzhled charakteristických částí objektu. Odpovídající detektory funkcí jsou poté proškoleni pomocí těchto shluků, které lze použít k získání sady kandidátních částí z obrázků.


Výsledkem tohoto procesu může být nyní každý obrázek reprezentován jako sada částí. Každá část má typ odpovídající jednomu z výše uvedených shluků vzhledu, stejně jako umístění v prostoru obrazu.

Základní generativní model

Weber & Welling zde představují koncept popředí a Pozadí. Popředí části odpovídají instanci třídy cílového objektu, zatímco Pozadí části odpovídají nepořádku na pozadí nebo falešným detekcím.

Nechat T být počet různých typů dílů. Pozice všech částí extrahovaných z obrázku pak mohou být znázorněny v následující „matici“

kde představuje počet částí typu pozorováno na obrázku. Horní index Ó označuje, že tyto pozice jsou pozorovatelný, naproti tomu chybějící. Pozice částí nepozorovaného objektu mohou být reprezentovány vektorem . Předpokládejme, že objekt bude složen z odlišné popředí. Pro jednoduchost zápisu zde předpokládáme, že , ačkoli model lze zobecnit na . A hypotéza je pak definována jako sada indexů s , označující tento bod je v popředí bod v . Generativní pravděpodobnostní model je definován prostřednictvím společné hustoty pravděpodobnosti .

Detaily modelu

Zbytek této části shrnuje podrobnosti modelu Weber & Welling pro model s jednou komponentou. Vzorce pro vícesložkové modely[8] jsou rozšířeními zde popsaných.

Aby bylo možné parametrizovat hustotu pravděpodobnosti kloubu, zavádí Weber & Welling pomocné proměnné a , kde je binární vektor kódující přítomnost / nepřítomnost částí při detekci ( -li , v opačném případě ), a je vektor, kde označuje počet Pozadí kandidáti zahrnutí do řada . Od té doby a jsou zcela určeny a velikost , my máme . Rozkladem,

Hustotu pravděpodobnosti nad počtem detekcí pozadí lze modelovat pomocí a Poissonovo rozdělení,

kde je průměrný počet detekcí pozadí typu na obrázek.

V závislosti na počtu dílů , pravděpodobnost lze modelovat buď jako explicitní tabulku délek , nebo když je velký, jako nezávislé pravděpodobnosti, z nichž každá určuje přítomnost jednotlivé části.

Hustota je modelován uživatelem

kde označuje soubor všech hypotéz shodných s a , a označuje celkový počet detekcí částí typu . To vyjadřuje skutečnost, že všechny konzistentní hypotézy, které existují , jsou stejně pravděpodobné při absenci informací o umístění dílů.

A nakonec,

kde jsou souřadnice všech detekcí popředí, pozorovaných i chybějících, a představuje souřadnice detekcí pozadí. Všimněte si, že se předpokládá, že detekce popředí jsou nezávislé na pozadí. je modelován jako společný Gaussian se střední hodnotou a kovariance .

Klasifikace

Konečným cílem tohoto modelu je zařadit obrázky do tříd "objekt přítomný" (třída ) a "objekt chybí" (třída ) vzhledem k pozorování . Aby toho bylo možné dosáhnout, Weber & Welling podrobně spouští detektory částí z kroku učení přes obraz a zkoumá různé kombinace detekcí. Pokud se uvažuje o okluzi, jsou povoleny také kombinace s chybějícími detekcemi. Cílem je poté vybrat třídu s maximální a posteriori pravděpodobností, s ohledem na poměr

kde označuje nulovou hypotézu, která vysvětluje všechny části jako hluk pozadí. V čitateli zahrnuje součet všechny hypotézy, včetně nulové hypotézy, zatímco ve jmenovateli je jedinou hypotézou v souladu s absencí objektu nulová hypotéza. V praxi lze určit určitou prahovou hodnotu tak, že pokud poměr překročí tuto prahovou hodnotu, pak považujeme instanci objektu za detekovanou.

Modelové učení

Po předběžném kroku detekce zájmových bodů, generování funkcí a shlukování máme na tréninkových obrázcích velkou sadu kandidátských částí. Chcete-li se naučit model, Weber & Welling nejprve provede chamtivý průzkum možných konfigurací modelu nebo ekvivalentně potenciálních podmnožin kandidátských částí. To se děje iterativním způsobem, počínaje náhodným výběrem. Při následných iteracích se části modelu náhodně nahradí, odhadnou se parametry modelu a vyhodnotí se výkon. Proces je dokončen, když již není možné další vylepšení výkonu modelu.

Při každé iteraci parametry modelu

jsou odhadovány pomocí maximalizace očekávání. a Vzpomínáme si, že jsou průměrem a kovariancí společné Gaussian , je rozdělení pravděpodobnosti určující binární přítomnost / nepřítomnost částí a je průměrný počet detekcí pozadí u typů součástí.

M-krok

EM postupuje maximalizací pravděpodobnosti pozorovaných dat,

s ohledem na parametry modelu . Jelikož je to analyticky obtížné dosáhnout, EM iterativně maximalizuje sled nákladových funkcí,

Převzetí této derivace s ohledem na parametry a rovné nule vytvoří pravidla aktualizace:

E-krok

Pravidla aktualizace v kroku M jsou vyjádřena jako dostatečné statistiky, , , a , které se počítají v E-kroku s ohledem na zadní hustotu:

Metoda Ferguse a kol.[10]

Ve Weberovi a kol. Jsou modely tvarů a vzhledů konstruovány samostatně. Jakmile byla vybrána sada kandidátních částí, tvar se učí nezávisle na vzhledu. Inovace Ferguse a kol. je naučit se nejen dva, ale tři parametry modelu současně: tvar, vzhled a relativní měřítko. Každý z těchto parametrů je reprezentován Gaussovými hustotami.

Reprezentace funkcí

Zatímco předběžný krok ve Weber et al. metodou je hledání umístění zajímavých bodů, Fergus et al. použijte detektor Kadira a Bradyho[12] najít výběžkové oblasti v obraze přes umístění (střed) i měřítko (poloměr). Tedy kromě informací o poloze tato metoda také extrahuje související informace o měřítku . Fergus a kol. pak normalizujte čtverce ohraničující tyto kruhové oblasti na záplaty o rozměrech 11 x 11 pixelů nebo ekvivalentně 121-rozměrné vektory v prostoru vzhledu. Ty jsou pak zmenšeny na 10-15 rozměrů o analýza hlavních komponent, poskytující informace o vzhledu .

Struktura modelu

Daný konkrétní model třídy objektu s parametry , musíme se rozhodnout, zda nový obrázek obsahuje instanci této třídy či nikoli. Toho je dosaženo Bayesovským rozhodnutím,

kde je model pozadí. Tento poměr se porovnává s prahovou hodnotou určit přítomnost / nepřítomnost objektu.

Pravděpodobnosti jsou zohledněny následovně:

Vzhled

Každá část má vzhled modelovaný Gaussovou hustotou v prostoru vzhledu, se středními a kovariančními parametry , nezávisle na hustotách ostatních částí. Model na pozadí má parametry . Fergus a kol. předpokládejme, že vzhledem k detekovaným vlastnostem je poloha a vzhled těchto prvků nezávislý. Tím pádem, . Poměr pojmů vzhledu se snižuje na

Odvolání od Webera a kol. že je hypotéza pro indexy popředí a je binární vektor poskytující stav hypotézy u každé části.

Tvar

Tvar je reprezentován společnou Gaussovou hustotou umístění dílů v konkrétní hypotéze poté, co byly tyto části transformovány do prostoru neměnného měřítka. Tato transformace vylučuje potřebu provést vyčerpávající prohledávání v měřítku. Gaussova hustota má parametry . Model pozadí Předpokládá se rovnoměrné rozdělení po obrazu, který má plochu . Pronájem být počet částí popředí,

Relativní měřítko

Měřítko každé části vzhledem k referenčnímu rámci je modelován Gaussovou hustotou s parametry . Každá část se považuje za nezávislou na ostatních částech. Model pozadí předpokládá rovnoměrné rozdělení v měřítku v rozsahu .

Okluze a statistika detekce funkcí

První faktor modeluje počet funkcí detekovaných pomocí a Poissonovo rozdělení, který má průměr M. Druhý faktor slouží jako faktor „vedení účetnictví“ pro proměnnou hypotézy. Posledním faktorem je tabulka pravděpodobnosti pro všechny možné okluzní vzory.

Učení se

Úkol naučit se parametry modelu je dosaženo maximalizace očekávání. To se provádí v duchu podobném duchu Weber et al. Podrobnosti a vzorce pro E-krok a M-krok jsou uvedeny v literatuře.[11]

Výkon

Model souhvězdí ve smyslu Ferguse a kol. dosahuje úspěšných kategorií kategorizace trvale nad 90% u velkých datových sad motorek, tváří, letadel a skvrnitých koček.[13] Pro každý z těchto datových souborů je model Constellation schopen zachytit „podstatu“ třídy objektu z hlediska vzhledu a / nebo tvaru. Například datové sady obličejů a motorek generují velmi těsné modely tvarů, protože objekty v těchto kategoriích mají velmi dobře definovanou strukturu, zatímco skvrnité kočky se výrazně liší v póze, ale mají velmi výrazný skvrnitý vzhled. Model je tedy v obou případech úspěšný. Je důležité si uvědomit, že model Constellation obecně nezohledňuje významné změny v orientaci. Pokud je tedy model trénován na obrázcích horizontálních letadel, nebude fungovat dobře například na obrázcích vertikálně orientovaných letadel, pokud není model rozšířen tak, aby explicitně zohledňoval tento druh rotace.

Z hlediska výpočetní složitosti je model Constellation velmi drahý. Li je počet detekcí funkcí v obraze a počet částí v objektovém modelu, poté prostor hypotézy je . Protože výpočet dostatečných statistik v E-kroku maximalizace očekávání vyžaduje vyhodnocení pravděpodobnosti pro každou hypotézu, učení se stává hlavní překážkovou operací. Z tohoto důvodu pouze hodnoty byly použity v praktických aplikacích a počet detekcí funkcí se obvykle udržuje v rozmezí přibližně 20–30 na obrázek.

Variace

Jednou z variant, která se pokouší snížit složitost, je hvězdný model navržený Fergusem a kol.[14] Snížené závislosti tohoto modelu umožňují učení se čas místo . To umožňuje při tréninku použít větší počet modelových částí a obrazových funkcí. Vzhledem k tomu, že hvězdný model má méně parametrů, je také lepší se vyhnout problému s přesahováním, když je trénován na méně obrazů.

Reference

  1. ^ M. Fischler a R. Elschlager. Reprezentace a shoda obrazových struktur. (1973)
  2. ^ M. Burl, T. Leung a P. Perona. Lokalizace tváře pomocí statistik tvarů. (1995)[trvalý mrtvý odkaz ]
  3. ^ T. Leung, M. Burl a P. Perona. Hledání tváří v přeplněných scénách pomocí náhodného označování grafů. (1995)[trvalý mrtvý odkaz ]
  4. ^ M. Burl a P. Perona. Rozpoznávání rovinných tříd objektů (1996)[trvalý mrtvý odkaz ]
  5. ^ M. Burl, M. Weber a P. Perona. Pravděpodobnostní přístup k rozpoznávání objektů pomocí místní fotometrie a globální geometrie (1998)
  6. ^ M. Weber. Neupravené učení modelů pro rozpoznávání objektů. Disertační práce. (2000)
  7. ^ M. Weber, W. Einhaeuser, M. Welling a P. Perona. Učení a detekce lidských hlav s proměnnými hledisky. (2000)[trvalý mrtvý odkaz ]
  8. ^ A b M. Weber, M. Welling a P. Perona. Směrem k automatickému zjišťování kategorií objektů. (2000)[trvalý mrtvý odkaz ]
  9. ^ A b M. Weber, M. Welling a P. Perona. Neomezené učení modelů pro rozpoznávání. (2000)[trvalý mrtvý odkaz ]
  10. ^ A b R. Fergus, P. Perona a A. Zisserman. Rozpoznávání tříd objektů pomocí nekontrolovaného škálovatelného učení. (2003)[trvalý mrtvý odkaz ]
  11. ^ A b R. Fergus. Rozpoznávání kategorií vizuálních objektů. Disertační práce. (2005)
  12. ^ T. Kadir a M. Brady. Výběžek, měřítko a popis obrázku. (2001)
  13. ^ R. Fergus a P. Perona. Datové sady kategorie objektů Caltech. http://www.vision.caltech.edu/html-files/archive.html (2003)
  14. ^ R. Fergus, P. Perona a A. Zisserman. Řídký model kategorie objektů pro efektivní učení a vyčerpávající rozpoznávání. (2005)

externí odkazy

Viz také