Konstelační model - Constellation model
The model souhvězdí je pravděpodobnostní, generativní model pro rozpoznávání objektů na úrovni kategorie v počítačové vidění. Jako ostatní dílčí modely, model konstelace se pokouší reprezentovat třídu objektů pomocí sady N díly pod vzájemnými geometrickými omezeními. Protože zohledňuje geometrický vztah mezi různými částmi, model souhvězdí se významně liší od pouze vzhledu, nebo „pytel slov "reprezentační modely, které výslovně ignorují umístění obrazových prvků.
Problém definování generativního modelu pro rozpoznávání objektů je obtížný. Úkol se výrazně komplikuje faktory, jako je nepořádek na pozadí, okluze a variace v pohledu, osvětlení a měřítku. V ideálním případě bychom chtěli, aby konkrétní reprezentace, kterou jsme vybrali, byla robustní vůči co největšímu počtu těchto faktorů.
U uznání na úrovni kategorie je problém ještě náročnější z důvodu zásadního problému variace uvnitř třídy. I když dva objekty patří do stejné vizuální kategorie, jejich vzhled se může výrazně lišit. U strukturovaných objektů, jako jsou automobily, jízdní kola a lidé, však samostatné instance objektů ze stejné kategorie podléhají podobným geometrickým omezením. Z tohoto důvodu mají určité části objektu, jako jsou světlomety nebo pneumatiky automobilu, stále konzistentní vzhled a relativní polohy. Model Constellation využívá této skutečnosti explicitním modelováním relativního umístění, relativního měřítka a vzhledu těchto částí pro konkrétní kategorii objektu. Parametry modelu se odhadují pomocí neřízené učení algoritmus, což znamená, že vizuální koncept třídy objektu lze extrahovat z neoznačené sady tréninkových obrazů, i když tato sada obsahuje „nevyžádané“ obrázky nebo instance objektů z více kategorií. Může také zohlednit absenci částí modelu kvůli variabilitě vzhledu, okluzi, nepořádku nebo chybě detektoru.
Dějiny
Myšlenku na model „dílů a konstrukcí“ původně představili Fischler a Elschlager v roce 1973.[1] Od té doby byl tento model postaven a rozšířen v mnoha směrech. Model Constellation, jak jej zavedl Dr. Perona a jeho kolegové, byl pravděpodobnostní adaptací tohoto přístupu.
Na konci 90. let Burl a kol.[2][3][4][5] znovu navštívil Fischlerův a Elschlagerův model za účelem rozpoznávání tváře. Ve své práci Burl a kol. použil manuální výběr částí souhvězdí na cvičných obrázcích ke konstrukci statistického modelu pro sadu detektorů a relativních míst, kde by měly být použity. V roce 2000 Weber et al. [6][7][8][9] učinil významný krok v tréninku modelu pomocí nekontrolovaného procesu učení, což vylučovalo nutnost zdlouhavého ručního označování dílů. Jejich algoritmus byl obzvláště pozoruhodný, protože fungoval dobře i na přeplněných a uzavřených obrazových datech. Fergus a kol.[10][11] poté tento model vylepšil tím, že krok učení byl plně bez dozoru, měl současně naučený tvar i vzhled a explicitně zohlednil relativní měřítko dílů.
Metoda Webera a Wellinga a kol.[9]
V prvním kroku standard detekce zájmových bodů metoda, jako je Harris detekce rohů, se používá ke generování úrokových bodů. Funkce obrazu generované z blízkosti těchto bodů jsou poté seskupeny pomocí k-prostředky nebo jiný vhodný algoritmus. V tomto procesu vektorové kvantování, lze centroidy těchto shluků považovat za reprezentativní pro vzhled charakteristických částí objektu. Odpovídající detektory funkcí jsou poté proškoleni pomocí těchto shluků, které lze použít k získání sady kandidátních částí z obrázků.
Výsledkem tohoto procesu může být nyní každý obrázek reprezentován jako sada částí. Každá část má typ odpovídající jednomu z výše uvedených shluků vzhledu, stejně jako umístění v prostoru obrazu.
Základní generativní model
Weber & Welling zde představují koncept popředí a Pozadí. Popředí části odpovídají instanci třídy cílového objektu, zatímco Pozadí části odpovídají nepořádku na pozadí nebo falešným detekcím.
Nechat T být počet různých typů dílů. Pozice všech částí extrahovaných z obrázku pak mohou být znázorněny v následující „matici“
kde představuje počet částí typu pozorováno na obrázku. Horní index Ó označuje, že tyto pozice jsou pozorovatelný, naproti tomu chybějící. Pozice částí nepozorovaného objektu mohou být reprezentovány vektorem . Předpokládejme, že objekt bude složen z odlišné popředí. Pro jednoduchost zápisu zde předpokládáme, že , ačkoli model lze zobecnit na . A hypotéza je pak definována jako sada indexů s , označující tento bod je v popředí bod v . Generativní pravděpodobnostní model je definován prostřednictvím společné hustoty pravděpodobnosti .
Detaily modelu
Zbytek této části shrnuje podrobnosti modelu Weber & Welling pro model s jednou komponentou. Vzorce pro vícesložkové modely[8] jsou rozšířeními zde popsaných.
Aby bylo možné parametrizovat hustotu pravděpodobnosti kloubu, zavádí Weber & Welling pomocné proměnné a , kde je binární vektor kódující přítomnost / nepřítomnost částí při detekci ( -li , v opačném případě ), a je vektor, kde označuje počet Pozadí kandidáti zahrnutí do řada . Od té doby a jsou zcela určeny a velikost , my máme . Rozkladem,
Hustotu pravděpodobnosti nad počtem detekcí pozadí lze modelovat pomocí a Poissonovo rozdělení,
kde je průměrný počet detekcí pozadí typu na obrázek.
V závislosti na počtu dílů , pravděpodobnost lze modelovat buď jako explicitní tabulku délek , nebo když je velký, jako nezávislé pravděpodobnosti, z nichž každá určuje přítomnost jednotlivé části.
Hustota je modelován uživatelem