Registrace množiny bodů - Point set registration - Wikipedia

Registrace sady bodů je proces sladění dvou sad bodů. Tady je modrá ryba registrována na červenou rybu.

v počítačové vidění, rozpoznávání vzorů, a robotika, registrace sady bodů, také známý jako registrace mračen bodů nebo skenování shoda, je proces hledání prostorového proměna (např., škálování, otáčení a překlad ), který zarovná dva mračna bodů. Účel nalezení takové transformace zahrnuje sloučení více datových sad do globálně konzistentního modelu (nebo souřadnicového rámce) a mapování nového měření na známou datovou sadu k identifikaci prvků nebo k odhadnout jeho pózu. Surová 3D cloudová data bodů se obvykle získávají z Lidars a RGB-D kamery. Mraky 3D bodů lze také generovat z algoritmů počítačového vidění, jako jsou triangulace, úprava svazku a v poslední době použití odhadu hloubky monokulárního obrazu hluboké učení. Pro 2D registraci sady bodů používanou při zpracování obrazu a na základě funkcí registrace obrázku, množina bodů může být 2D pixelové souřadnice získané pomocí extrakce funkcí například z obrázku detekce rohů. Registrace cloudu bodů má v aplikaci rozsáhlé aplikace autonomní jízda,[1] odhad pohybu a 3D rekonstrukce,[2] detekce objektu a odhad pozice,[3][4] robotická manipulace,[5] simultánní lokalizace a mapování (SLAM),[6][7] panorama šití,[8] virtuální a rozšířená realita,[9] a lékařské zobrazování.[10]

Jako zvláštní případ lze zaznamenat registraci dvou sad bodů, které se liší pouze 3D rotací (tj., neexistuje škálování a překlad), se nazývá Wahba problém a také související s ortogonální problém.

Přehled problému

Data ze dvou 3D skenů stejného prostředí je třeba srovnat pomocí registrace sady bodů.
Data shora, úspěšně zaregistrovaná pomocí varianty iterativního nejbližšího bodu.

Problém lze shrnout takto:[11]Nechat být dvě množiny bodů konečné velikosti v konečný trojrozměrný skutečný vektorový prostor , které obsahují a bodů (např., obnoví typický případ kdy a jsou 3D sady bodů). Problémem je najít transformaci, která se použije na pohyblivou množinu bodů „modelu“ takový, že rozdíl (obvykle definován ve smyslu bodově Euklidovská vzdálenost ) mezi a statická "scéna" nastavena je minimalizován. Jinými slovy, mapování z na je požadováno, čímž se získá nejlepší vyrovnání mezi transformovanou sadou „modelu“ a sadou „scény“. Mapování může sestávat z rigidní nebo netuhé transformace. Transformační model lze zapsat jako , pomocí kterého je transformovaná registrovaná modelová sada bodů:

 

 

 

 

(1)

Výstupem algoritmu registrace bodové sady je tedy optimální transformace takhle je nejlépe sladit s , podle nějakého definovaného pojmu funkce vzdálenosti :

 

 

 

 

(2)

kde se používá k označení množiny všech možných transformací, které se optimalizace pokusí vyhledat. Nejoblíbenější volbou funkce vzdálenosti je vzít druhou mocninu Euklidovská vzdálenost za každou dvojici bodů:

 

 

 

 

(3)

kde označuje vektor 2-norm, je odpovídající bod v sadě který dosáhne nejkratší vzdálenost do daného bodu v sadě . Minimalizace takové funkce v rigidní registraci je ekvivalentní řešení a nejmenší čtverce problém. Když korespondence (tj., ) jsou uvedeny před optimalizací, například pomocí technik párování funkcí, pak optimalizaci stačí odhadnout transformaci. Tento typ registrace se nazývá korespondenční registrace. Na druhou stranu, pokud jsou korespondence neznámé, je nutná optimalizace, aby se společně zjistily korespondence a transformace. Tento typ registrace se nazývá Simultánní registrace pozice a korespondence.

Tuhá registrace

Vzhledem ke dvěma bodovým sadám přináší tuhá registrace a rigidní transformace který mapuje jeden bod nastavený na druhý. Tuhá transformace je definována jako transformace, která nemění vzdálenost mezi dvěma body. Taková transformace se obvykle skládá z překlad a otáčení.[12] Ve výjimečných případech může být sada bodů také zrcadlována. V robotice a počítačovém vidění má nejvíce aplikací rigidní registrace.

Non-rigid registrace

Registrovaný mračno bodů z a lidar namontován na jedoucím autě.

Vzhledem k tomu, že dvě sady bodů, nepružná registrace vede k nepružné transformaci, která mapuje jednu bodovou sadu na druhou. Mezi netuhé transformace patří afinní transformace jako škálování a smykové mapování. V kontextu registrace množiny bodů však netuhá registrace obvykle zahrnuje nelineární transformaci. Pokud vlastní variační režimy z množiny bodů jsou známy, nelineární transformace může být parametrizována vlastními hodnotami.[13] Nelineární transformaci lze také parametrizovat jako a tenká deska spline.[14][13]

Algoritmy registrace množiny bodů

Některé přístupy k registraci množiny bodů používají algoritmy, které řeší obecnější shoda grafu problém.[11] Výpočtová složitost takových metod však bývá vysoká a omezují se na rigidní registrace. Algoritmy specifické pro problém registrace sady bodů jsou popsány v následujících částech PCL (Point Cloud Library) je open-source framework pro n-dimenzionální mračno bodů a zpracování 3D geometrie. Zahrnuje několik algoritmů registrace bodů.[15]

V této části budeme uvažovat pouze o algoritmech pro rigidní registraci, kde se předpokládá, že transformace obsahuje 3D rotace a překlady (případně také včetně jednotného měřítka).

Metody založené na korespondenci

Metody založené na korespondenci předpokládají domnělou korespondenci jsou uvedeny za každý bod . Proto jsme dospěli k nastavení, kde oba bodové soubory a mít body a korespondence jsou uvedeny.

Registrace bez odlehlých hodnot

V nejjednodušším případě lze předpokládat, že všechny korespondence jsou správné, což znamená, že body jsou generovány následovně:

 

 

 

 

(cb.1)

kde je jednotný faktor měřítka (v mnoha případech předpokládá se), je správná 3D rotační matice ( je speciální ortogonální skupina stupně ), je 3D překladový vektor a modeluje neznámý aditivní šum (např., Gaussovský hluk ). Konkrétně, pokud je hluk Předpokládá se, že sleduje izotropní Gaussovo rozdělení s nulovou střední hodnotou se směrodatnou odchylkou , tj., , pak lze ukázat následující optimalizaci, která poskytne odhad maximální věrohodnosti pro neznámé měřítko, rotaci a překlad:

 

 

 

 

(cb.2)

Všimněte si, že když je faktor měřítka 1 a vektor translace je nula, optimalizace obnoví formulaci Wahba problém. Navzdory nekonvexnost optimalizace (cb.2) kvůli nekonvexnosti sady , klíčová práce od Berthold K.P. Roh ukázal, že (cb.2) ve skutečnosti připouští řešení uzavřené formy oddělením odhadu měřítka, rotace a překladu.[16] Podobné výsledky objevil Arun et al.[17] Kromě toho za účelem nalezení jedinečné transformace , alespoň jsou vyžadovány nekolineární body v každé množině bodů.

V poslední době Briales a Gonzalez-Jimenez vyvinuli a semidefinitní relaxace použitím Lagrangeova dualita, pro případ, kdy je model nastaven obsahuje různá 3D primitiva, jako jsou body, čáry a roviny (což je případ modelu je 3D síť).[18] Je zajímavé, že semidefinitní relaxace je empiricky těsná, tj., prokazatelně globálně optimální roztok lze extrahovat z řešení semidefinitní relaxace.

Robustní registrace

The nejmenší čtverce formulace (cb.2) je známo, že za své činnosti působí svévolně špatně odlehlé hodnoty. Odlehlá korespondence je dvojice měření který se odchyluje od generativního modelu (cb.1). V tomto případě lze uvažovat o jiném generativním modelu takto:[19]

 

 

 

 

(cb.3)

kde pokud th pár je inlier, pak se řídí modelem bez odlehlých hodnot (cb.1), tj., se získává z prostorovou transformací plus malým hlukem; pokud však th pár je tedy odlehlá může být libovolný vektor . Jelikož předem nevíte, které korespondence jsou odlehlé hodnoty, proveďte robustní registraci podle generativního modelu (cb.3) má zásadní význam pro počítačové vidění a robotiku nasazenou v reálném světě, protože současné techniky porovnávání funkcí mají tendenci vydávat vysoce poškozené korespondence, kde přes z korespondence mohou být odlehlé hodnoty.[20]

Dále popíšeme několik běžných paradigmat pro robustní registraci.

Maximální shoda

Maximální shoda usiluje o nalezení největší sady korespondencí, které jsou v souladu s generativním modelem (cb.1) pro nějakou volbu prostorové transformace . Formálně vzato maximální konsenzus řeší následující optimalizaci:

 

 

 

 

(cb.4)

kde označuje mohutnost sady . Omezení v (cb.4) vynucuje, aby každá dvojice měření v sadě inlier musí mít zbytky menší než předem definovaná prahová hodnota . Bohužel nedávné analýzy ukázaly, že problém globálního řešení (cb.4) je NP-tvrdý a globální algoritmy se obvykle musí uchýlit rozvětvené a vázané (BnB) techniky, které v nejhorším případě vyžadují exponenciální časovou složitost.[21][22][23][24][25]

Přestože je řešení maximalizace konsensu přesné, je těžké, existují účinné heuristiky, které v praxi fungují docela dobře. Jednou z nejpopulárnějších heuristik je Konsensus náhodných vzorků (RANSAC) systém.[26] RANSAC je iterační metoda hypotézy a věrohodnosti. Při každé iteraci metoda nejprve náhodně vzorkuje 3 z celkového počtu korespondence a počítá hypotézu pomocí Hornovy metody,[16] pak metoda vyhodnotí omezení v (cb.4) spočítat, kolik korespondencí ve skutečnosti souhlasí s takovou hypotézou (tj. počítá zbytek a porovná to s prahovou hodnotou pro každou dvojici měření). Algoritmus končí buď poté, co našel konsensuální sadu, která má dostatek korespondence, nebo poté, co dosáhl celkového počtu povolených iterací. RANSAC je vysoce efektivní, protože hlavní výpočet každé iterace provádí řešení v uzavřené formě metodou Horn. RANSAC je však nedeterministický a funguje dobře pouze v režimu s nízkým odlehlým poměrem (např., níže ), protože jeho runtime roste exponenciálně vzhledem k odlehlému poměru.[20]

Abychom vyplnili mezeru mezi rychlým, ale nepřesným schématem RANSAC a přesnou, ale vyčerpávající optimalizací BnB, vyvinuli nedávné výzkumy deterministické přibližné metody k řešení maximalizace konsensu.[21][22][27][23]

Odlehlé odstranění

Metody odlehlého odstraňování se snaží před zpracováním prostorové transformace předem zpracovat sadu vysoce poškozených korespondencí. Motivací odstranění odlehlých hodnot je výrazně snížit počet odlehlých korespondencí při zachování inlierových korespondencí, aby se optimalizace přes transformaci stala snazší a efektivnější (např., RANSAC funguje špatně, když je odlehlý poměr vyšší ale funguje docela dobře, když je odlehlý poměr nižší ).

Parra et al. navrhli metodu nazvanou Zaručené odstranění odlehlých míst (GORE), která používá geometrická omezení k prořezávání odlehlých korespondencí a zároveň zaručuje zachování inlierových korespondencí.[20] Ukázalo se, že GORE je schopen drasticky snížit odlehlý poměr, což může významně zvýšit výkon maximalizace konsensu pomocí RANSAC nebo BnB. Yang a Carlone navrhli vytvořit párová měření invariantní translace a rotace (TRIM) z původní sady měření a vložit TRIM jako okraje graf jejichž uzly jsou 3D body. Vzhledem k tomu, že inliery jsou párově konzistentní, pokud jde o měřítko, musí tvořit a klika v grafu. Proto za použití efektivních algoritmů pro výpočet maximální klika grafu může najít inliers a efektivně prořezat outliers.[4] Je také prokázáno, že metoda odstraňování odlehlých hodnot založená na klikach je docela užitečná při problémech s registrací bodů v reálném světě.[19] Podobné nápady na odstranění odlehlých míst navrhla také Parra et al..[28]

M-odhad

M-odhad nahrazuje objektivní funkci nejmenších čtverců v (cb.2) s robustní nákladovou funkcí, která je méně citlivá na odlehlé hodnoty. Formálně se M-odhad snaží vyřešit následující problém:

 

 

 

 

(cb.5)

kde představuje volbu robustní nákladové funkce. Všimněte si, že výběr obnoví odhad nejmenších čtverců v (cb.2). Mezi oblíbené robustní nákladové funkce patří -normální ztráta, Huberova ztráta,[29] Geman-McClure ztráta[30] a zkrácená ztráta nejmenších čtverců.[19][8][4] M-odhad byl jedním z nejpopulárnějších paradigmat pro robustní odhad v robotice a počítačovém vidění.[31][32] Protože robustní objektivní funkce jsou obvykle nekonvexní (např., ztráta zkrácených nejmenších čtverců v.s. ztráta nejmenších čtverců), algoritmy pro řešení nekonvexního M-odhadu jsou obvykle založeny na lokální optimalizace, kde je nejprve poskytnut počáteční odhad, následovaný iterativními vylepšeními transformace, aby se snižovala objektivní funkce. Místní optimalizace má tendenci fungovat dobře, když se počáteční odhad blíží globálnímu minimu, ale je také náchylný k uvíznutí v místních minimech, pokud je k dispozici špatná inicializace.

Odstupňovaná nekonvexnost

Odstupňovaná nekonvexita (GNC) je univerzální rámec pro řešení nekonvexních optimalizačních problémů bez inicializace. Dosáhla úspěchu v aplikacích raného vidění a strojového učení.[33][34] Klíčovou myšlenkou GNC je vyřešit těžký nekonvexní problém vycházejícím ze snadného konvexního problému. Konkrétně pro danou robustní nákladovou funkci , lze sestavit náhradní funkci s hyperparametrem , ladění, které může postupně zvyšovat nekonvexnost náhradní funkce dokud konverguje k cílové funkci .[34][35] Proto na každé úrovni hyperparametru , je vyřešena následující optimalizace:

 

 

 

 

(cb.6)

Black a Rangarajan dokázali, že objektivní funkce každé optimalizace (cb.6) lze rozdělit na částku vážené nejmenší čtverce a takzvaná funkce odlehlého procesu na vahách, které určují spolehlivost optimalizace v každé dvojici měření.[33] Pomocí duality Black-Rangarajan a GNC šité na míru pro funkci Geman-McClure, Zhou et al. vyvinul rychlý globální registrační algoritmus, který je robustní proti odlehlé hodnoty v korespondenci.[30] Více nedávno, Yang et al. ukázalo, že společné použití GNC (přizpůsobené funkci Geman-McClure a funkce zkrácených nejmenších čtverců) a dualita Black-Rangarajan může vést k řešení univerzálních problémů pro robustní problémy s registrací, včetně mračen bodů a registrace sítě.[35]

Ověřitelně robustní registrace

Téměř žádný z výše uvedených robustních registračních algoritmů (kromě algoritmu BnB, který běží v nejhorším případě v exponenciálním čase) nemá záruky výkonu, což znamená, že tyto algoritmy mohou bez upozornění vrátit zcela nesprávné odhady. Proto jsou tyto algoritmy pro bezpečnostní aplikace, jako je autonomní řízení, nežádoucí.

Velmi nedávno, Yang et al. vyvinula první certifikovatelný robustní registrační algoritmus s názvem Odhad zkrácených nejmenších čtverců A SEmidefinite relaxace (TEASER).[19] U registrace mračna bodů TEASER nejen vydává odhad transformace, ale také kvantifikuje optimálnost daného odhadu. TEASER přijímá následující odhad zkrácených nejmenších čtverců (TLS):

 

 

 

 

(cb.7)

který se získá výběrem robustní nákladové funkce TLS , kde je předdefinovaná konstanta, která určuje maximální povolené zbytky považované za inliery. Objektivní funkce TLS má vlastnost, že pro inlier korespondence (), je uplatněn obvyklý trest nejmenších čtverců; zatímco u odlehlých korespondencí (), není uplatněna žádná pokuta a odlehlé hodnoty jsou zahozeny. Pokud je optimalizace TLS (cb.7) je vyřešen na globální optimálnost, pak je ekvivalentní spuštění Hornovy metody pouze na inlierových korespondencích.

Řešení (cb.7) je poměrně náročný díky své kombinatorické povaze. TEASER řeší (cb.7) takto: (i) Vytváří invariantní měření tak, aby bylo možné odhadnout měřítko, rotaci a translaci oddělit a vyřešit samostatně, což je strategie inspirovaná původní Hornovou metodou; (ii) Stejný odhad TLS se použije pro každý ze tří dílčích problémů, kde lze problém škálového TLS vyřešit přesně pomocí algoritmu zvaného adaptivní hlasování, problém rotace TLS lze uvolnit na semidefinitní program (SDP), kde je relaxace v praxi přesná,[8] i při velkém počtu odlehlých hodnot; problém překladu TLS lze vyřešit pomocí adaptivního hlasování po jednotlivých komponentách. Rychlá implementace využívající GNC je otevřený zdroj zde. V praxi může TEASER tolerovat více než extrémní korespondence a běží v milisekundách.

Kromě vývoje TEASER, Yang et al. také dokázat, že za určitých mírných podmínek na datech mračen bodů odhadovaná transformace TEASER omezila chyby z transformace země-pravda.[19]

Metody simultánní pozice a korespondence

Iterativní nejbližší bod

The iterativní nejbližší bod Algoritmus (ICP) představili Besl a McKay.[36]Algoritmus provádí rigidní registraci iterativním způsobem střídáním (i) dané transformace, nálezu nejbližší bod v za každý bod ; a (ii) vzhledem k korespondenci nalezení nejlepší rigidní transformace řešením nejmenší čtverce problém (cb.2). Jako takový, to funguje nejlépe, když počáteční póza je dostatečně blízko . v pseudo kód, základní algoritmus je implementován následovně:

algoritmus ICP()        zatímco ne registrovaný: X := ∅        pro :                                θ := nejmenší čtverce (X)    vrátit se θ

Tady funkce nejmenší čtverce provádí nejmenší čtverce optimalizace k minimalizaci vzdálenosti v každém z páry pomocí řešení uzavřené formy Horn[16] a Arun.[17]

Protože nákladová funkce registrace závisí na nalezení nejbližšího bodu v do každého bodu , může se změnit, jak běží algoritmus. Proto je obtížné dokázat, že ICP bude ve skutečnosti konvergovat přesně k místnímu optimu.[37] Empiricky ve skutečnosti ICP a EM-ICP nesbližujte se s místním minimem nákladové funkce.[37] Protože ICP je intuitivní a snadno implementovatelný, zůstává nejčastěji používaným algoritmem registrace bodů.[37] Bylo navrženo mnoho variant ICP, které ovlivňují všechny fáze algoritmu od výběru a shody bodů až po minimalizační strategii.[13][38]Například maximalizace očekávání Algoritmus se aplikuje na algoritmus ICP k vytvoření metody EM-ICP a Algoritmus Levenberg-Marquardt se aplikuje na algoritmus ICP k vytvoření LM-ICP metoda.[12]

Robustní přizpůsobení bodů

Robustní porovnávání bodů (RPM) představili Gold et al.[39] Metoda provádí registraci pomocí deterministické žíhání a měkké přiřazování korespondencí mezi množinami bodů. Zatímco v ICP je korespondence generovaná heuristikou nejbližšího souseda binární, RPM používá a měkký korespondence, kde korespondence mezi libovolnými dvěma body může být kdekoli od 0 do 1, i když nakonec konverguje k 0 nebo 1. Korespondence nalezená v RPM je vždy jedna k jedné, což není vždy případ ICP.[14] Nechat být Třetí bod a být Třetí bod . The matice shody je definován jako takový:

 

 

 

 

(ot./min)

Problém je pak definován jako: Vzhledem ke dvěma bodovým sadám a najít Afinní transformace a matice shody to je nejlépe souvisí.[39] Znalost optimální transformace usnadňuje určení matice shody a naopak. Algoritmus RPM však určuje obojí současně. Transformaci lze rozložit na překladový vektor a transformační matici:

Matice ve 2D se skládá ze čtyř samostatných parametrů , což jsou měřítko, rotace a vertikální a horizontální smykové komponenty. Funkce nákladů je pak:

 

 

 

 

(ot / min. 2)

podléhá , , . The termín ovlivňuje cíl směrem k silnější korelaci snížením nákladů, pokud má matice shody více. Funkce slouží k regularizaci afinní transformace penalizací velkých hodnot komponent měřítka a smyku:

pro nějaký parametr regularizace .

Metoda RPM optimalizuje nákladovou funkci pomocí Softassign algoritmus. Zde bude odvozen případ 1D. Vzhledem k souboru proměnných kde . Proměnná je spojen s každým takhle . Cílem je najít který maximalizuje . To lze formulovat jako trvalý problém zavedením kontrolního parametru . V deterministické žíhání metoda, kontrolní parametr jak se algoritmus spouští, se pomalu zvyšuje. Nechat být:

 

 

 

 

(ot / min. 3.)

toto je známé jako funkce softmax. Tak jako zvyšuje, přibližuje se k binární hodnotě podle potřeby v rovnici (ot./min). Problém lze nyní zobecnit na 2D případ, kdy místo maximalizace , je maximalizováno následující:

 

 

 

 

(4 / min)

kde

To je jednoduché, až na to, že nyní platí omezení jsou dvojnásobně stochastická matice omezení: a . Jako takový jmenovatel z rovnice (ot / min. 3.) nelze pro 2D případ vyjádřit jednoduše. K uspokojení omezení je možné použít výsledek kvůli Sinkhornovi,[39] který uvádí, že dvojnásobná stochastická matice se získá z libovolné čtvercové matice se všemi pozitivními položkami iteračním procesem střídání normalizací řádků a sloupců. Algoritmus je tedy napsán jako takový:[39]

algoritmus RPM2D    t := 0                zatímco :        zatímco μ nekonverguje: // aktualizuje parametry korespondence pomocí softassign                                    // použít Sinkhornovu metodu            zatímco  nekonverguje:                // Aktualizace  normalizací ve všech řádcích:                                // Aktualizace  normalizací ve všech sloupcích:                            // aktualizovat parametry pozice sestupem souřadnic            Aktualizace θ pomocí aktualizace analytického řešení t pomocí aktualizace analytického řešení a, b, c použitím Newtonova metoda                    vrátit se a, b, c, θ a t

kde deterministický kontrolní parametr žíhání je původně nastaven na a zvyšuje se faktorem dokud nedosáhne maximální hodnoty . Souhrny v normalizačních krocích jsou součtem a místo jen a protože omezení na jsou nerovnosti. Jako takový th a th prvky jsou uvolněné proměnné.

Algoritmus lze také rozšířit pro množiny bodů ve 3D nebo vyšších rozměrech. Omezení na korespondenční matici jsou stejné v případě 3D jako v případě 2D. Struktura algoritmu proto zůstává nezměněna, přičemž hlavní rozdíl spočívá v tom, jak jsou řešeny rotační a překladové matice.[39]

Tenká deska spline robustní spojování bodů
Animace 2D netuhé registrace sady zelených bodů do sady purpurových bodů poškozené hlučnými odlehlými hodnotami. Velikost modrých kruhů nepřímo souvisí s kontrolním parametrem . Žluté čáry označují korespondenci.

Algoritmus ChPS a Rangarajan s algoritmem TPS-RPM (thin point spline robust point matching) rozšiřuje metodu RPM o nepružnou registraci parametrizací transformace jako tenká deska spline.[14]Protože však parametrizace spline tenké desky existuje pouze ve třech rozměrech, nelze metodu rozšířit na problémy zahrnující čtyři nebo více dimenzí.

Korelační jádro

Přístup jádrové korelace (KC) registrace sady bodů zavedli Tsin a Kanade.[37]Ve srovnání s ICP je algoritmus KC odolnější vůči hlučným datům. Na rozdíl od ICP, kde je pro každý bod modelu uvažován pouze nejbližší bod scény, zde každý bod scény ovlivňuje každý bod modelu.[37] Jako takový se jedná o vícekrát propojený registrační algoritmus. Pro některé funkce jádra , korelace jádra dvou bodů je definována takto:[37]

 

 

 

 

(kc.1)

The funkce jádra vybrané pro registraci množiny bodů je obvykle symetrické a nezáporné jádro, podobné těm, které se používají v Okno Parzen odhad hustoty. The Gaussovo jádro se obvykle používá pro svou jednoduchost, i když jiné jako Jádro Epanechnikov a jádro tricube může být nahrazeno.[37] Korelační korelace celé množiny bodů je definován jako součet korelací jádra každého bodu v sadě s každým dalším bodem v sadě:[37]

 

 

 

 

(kc.2)

Logaritmus KC množiny bodů je proporcionální v rámci konstantního faktoru k informační entropie. Všimněte si, že KC je měřítkem „kompaktnosti“ množiny bodů - triviálně, pokud by všechny body v množině bodů byly na stejném místě, vyhodnotila by KC velkou hodnotu. The nákladová funkce algoritmu registrace množiny bodů pro některý transformační parametr je definována takto:

 

 

 

 

(kc.3)

Některé algebraické manipulace přinášejí:

 

 

 

 

(kc.4)

Výraz je zjednodušen pozorováním je nezávislý na . Dále, za předpokladu rigidní registrace, je neměnný, když se změní, protože euklidovská vzdálenost mezi každou dvojicí bodů zůstává stejná pod rigidní transformace. Výše uvedená rovnice může být tedy přepsána jako:

 

 

 

 

(kc.5)

The odhady hustoty jádra jsou definovány jako:

Funkci nákladů lze poté ukázat jako korelaci dvou odhadů hustoty jádra:

 

 

 

 

(kc.6)

Po založení nákladová funkce, algoritmus jednoduše používá klesání najít optimální transformaci. Výpočet nákladové funkce od nuly při každé iteraci je výpočetně nákladný, takže diskrétní verze nákladové funkce Rovnice (kc.6) se používá. Odhady hustoty jádra lze vyhodnotit v bodech mřížky a uložit do a vyhledávací tabulka. Na rozdíl od ICP a souvisejících metod není nutné hledat nejbližšího souseda, což umožňuje implementaci poměrně jednoduchého algoritmu KC.

Ve srovnání s ICP a EM-ICP pro hlučné 2D a 3D sady bodů je algoritmus KC méně citlivý na šum a častěji vede ke správné registraci.[37]

Gaussův model směsi

Odhady hustoty jádra jsou součty Gaussianů, a proto je lze reprezentovat jako Gaussovy modely směsí (GMM).[40] Jian a Vemuri používají verzi GMM registračního algoritmu KC k provedení netuhé registrace parametrizované tenké dlahy.

Koherentní posun bodu

Pevné (s přidáním měřítka) registrace sady modrých bodů to the red point set using the Coherent Point Drift algorithm. Both point sets have been corrupted with removed points and random spurious outlier points.
Affine registration of a blue point set to the red point set using the Coherent Point Drift algorithm.
Non-rigid registration of a blue point set to the red point set using the Coherent Point Drift algorithm. Both point sets have been corrupted with removed points and random spurious outlier points.

Coherent point drift (CPD) was introduced by Myronenko and Song.[13][41]The algorithm takes a probabilistic approach to aligning point sets, similar to the GMM KC method. Unlike earlier approaches to non-rigid registration which assume a thin plate spline transformation model, CPD is agnostic with regard to the transformation model used. The point set představuje Gaussian mixture model (GMM) centroids. When the two point sets are optimally aligned, the correspondence is the maximum of the GMM posterior probability for a given data point. To preserve the topological structure of the point sets, the GMM centroids are forced to move coherently as a group. The maximalizace očekávání algorithm is used to optimize the cost function.[13]

Ať tam bude M body v a N body v . The GMM funkce hustoty pravděpodobnosti pro bod s je:

 

 

 

 

(cpd.1)

kde v D rozměry, je Gaussovo rozdělení centered on point .

The membership probabilities is equal for all GMM components. The weight of the uniform distribution is denoted as . The mixture model is then:

 

 

 

 

(cpd.2)

The GMM centroids are re-parametrized by a set of parameters estimated by maximizing the likelihood. This is equivalent to minimizing the negative funkce log-likelihood:

 

 

 

 

(cpd.3)

where it is assumed that the data is nezávislé a identicky distribuované. The correspondence probability between two points a je definován jako posterior probability of the GMM centroid given the data point:

The maximalizace očekávání (EM) algorithm is used to find a . The EM algorithm consists of two steps. First, in the E-step or odhad step, it guesses the values of parameters ("old" parameter values) and then uses Bayesova věta to compute the posterior probability distributions of mixture components. Second, in the M-step or maximization step, the "new" parameter values are then found by minimizing the expectation of the complete negative log-likelihood function, i.e. the cost function:

 

 

 

 

(cpd.4)

Ignoring constants independent of a , Rovnice (cpd.4) can be expressed thus:

 

 

 

 

(cpd.5)

kde

s jen když . The posterior probabilities of GMM components computed using previous parameter values je:

 

 

 

 

(cpd.6)

Minimizing the cost function in Equation (cpd.5) necessarily decreases the negative log-likelihood function E in Equation (cpd.3) unless it is already at a local minimum.[13] Thus, the algorithm can be expressed using the following pseudocode, where the point sets a are represented as a matice a respektive:[13]

algorithm CPD        inicializovat         zatímco not registered:        // E-step, compute P        pro  a :                    // M-step, solve for optimal transformation            vrátit se θ

kde vektor is a column vector of ones. The řešit function differs by the type of registration performed. For example, in rigid registration, the output is a scale A, a rotation matrix , and a translation vector . Parametr can be written as a tuple of these:

which is initialized to one, the matice identity, and a column vector of zeroes:

The aligned point set is:

The solve_rigid function for rigid registration can then be written as follows, with derivation of the algebra explained in Myronenko's 2010 paper.[13]

solve_rigid                             // the singular value decomposition z      // diag(ξ) je diagonální matice formed from vector ξ         // tr je stopa matice            vrátit se 

For affine registration, where the goal is to find an afinní transformace instead of a rigid one, the output is an affine transformation matrix and a translation such that the aligned point set is:

The solve_affine function for rigid registration can then be written as follows, with derivation of the algebra explained in Myronenko's 2010 paper.[13]

solve_affine                                    vrátit se 

It is also possible to use CPD with non-rigid registration using a parametrization derived using variační počet.[13]

Sums of Gaussian distributions can be computed in lineární čas za použití fast Gauss transform (FGT).[13] V důsledku toho časová složitost of CPD is , which is asymptotically much faster than metody.[13]

Sorting the Correspondence Space (SCS)

This algorithm was introduced in 2013 by H. Assalih to accommodate sonar image registration.[42] These types of images tend to have high amounts of noise, so it is expected to have many outliers in the point sets to match. SCS delivers high robustness against outliers and can surpass ICP and CPD performance in the presence of outliers. SCS doesn't use iterative optimization in high dimensional space and is neither probabilistic nor spectral. SCS can match rigid and non-rigid transformations, and performs best when the target transformation is between three and six stupně svobody.

Bayesian coherent point drift (BCPD)

A variant of coherent point drift, called Bayesian coherent point drift (BCPD), was derived through a Bayesian formulation of point set registration.[43]BCPD has several advantages over CPD, e.g., (1) nonrigid and rigid registrations can be performed in a single algorithm, (2) the algorithm can be accelerated regardless of the Gaussianity of a Gram matrix to define motion coherence, (3) the algorithm is more robust against outliers because of a more reasonable definition of an outlier distribution. Additionally, in the Bayesian formulation, motion coherence was introduced through a prior distribution of displacement vectors, providing a clear difference between tuning parameters that control motion coherence.

Viz také

Reference

  1. ^ Zhang, Ji; Singh, Sanjiv (May 2015). "Visual-lidar odometry and mapping: low-drift, robust, and fast". 2015 IEEE International Conference on Robotics and Automation (ICRA): 2174–2181. doi:10.1109/ICRA.2015.7139486. ISBN  978-1-4799-6923-4.
  2. ^ Choi, Sungjoon; Zhou, Qian-Yi; Koltun, Vladlen (2015). "Robust reconstruction of indoor scenes" (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR): 5556–5565.
  3. ^ Lai, Kevin; Bo, Liefeng; Ren, Xiaofeng; Fox, Dieter (May 2011). "A large-scale hierarchical multi-view RGB-D object dataset". 2011 IEEE International Conference on Robotics and Automation: 1817–1824. CiteSeerX  10.1.1.190.1598. doi:10.1109/ICRA.2011.5980382. ISBN  978-1-61284-386-5.
  4. ^ A b C Yang, Heng; Carlone, Luca (2019). "A polynomial-time solution for robust registration with extreme outlier rates". Robotics: Science and Systems (RSS). arXiv:1903.08588. Bibcode:2019arXiv190308588Y. doi:10.15607/RSS.2019.XV.003. ISBN  978-0-9923747-5-4.
  5. ^ Calli, Berk; Singh, Arjun; Bruce, James; Walsman, Aaron; Konolige, Kurt; Srinivasa, Siddhartha; Abbeel, Pieter; Dollar, Aaron M (2017-03-01). "Yale-CMU-Berkeley dataset for robotic manipulation research". International Journal of Robotics Research. 36 (3): 261–268. doi:10.1177/0278364917700714. ISSN  0278-3649.
  6. ^ Cadena, Cesar; Carlone, Luca; Carrillo, Henry; Latif, Yasir; Scaramuzza, Davide; Neira, José; Reid, Ian; Leonard, John J. (December 2016). "Past, Present, and Future of Simultaneous Localization and Mapping: Toward the Robust-Perception Age". Transakce IEEE na robotice. 32 (6): 1309–1332. arXiv:1606.05830. Bibcode:2016arXiv160605830C. doi:10.1109/TRO.2016.2624754. ISSN  1941-0468.
  7. ^ Mur-Artal, Raúl; Montiel, J. M. M.; Tardós, Juan D. (October 2015). „ORB-SLAM: Všestranný a přesný monokulární SLAM systém“. Transakce IEEE na robotice. 31 (5): 1147–1163. arXiv:1502.00956. Bibcode:2015arXiv150200956M. doi:10.1109 / TRO.2015.2463671. ISSN  1941-0468.
  8. ^ A b C Yang, Heng; Carlone, Luca (2019). "A Quaternion-based Certifiably Optimal Solution to the Wahba Problem with Outliers" (PDF). Proceedings of the IEEE International Conference on Computer Vision (ICCV): 1665–1674. arXiv:1905.12536. Bibcode:2019arXiv190512536Y.
  9. ^ Newcombe, Richard A.; Izadi, Shahram; Hilliges, Otmar; Molyneaux, David; Kim, David; Davison, Andrew J.; Kohi, Pushmeet; Shotton, Jamie; Hodges, Steve; Fitzgibbon, Andrew (October 2011). "KinectFusion: Real-time dense surface mapping and tracking". 2011 10th IEEE International Symposium on Mixed and Augmented Reality: 127–136. CiteSeerX  10.1.1.453.53. doi:10.1109/ISMAR.2011.6092378. ISBN  978-1-4577-2183-0.
  10. ^ Audette, Michel A.; Ferrie, Frank P.; Peters, Terry M. (2000-09-01). "An algorithmic overview of surface registration techniques for medical imaging". Medical Image Analysis. 4 (3): 201–217. doi:10.1016/S1361-8415(00)00014-1. ISSN  1361-8415. PMID  11145309.
  11. ^ A b Jian, Bing; Vemuri, Baba C. (2011). "Robust Point Set Registration Using Gaussian Mixture Models". Transakce IEEE na analýze vzorů a strojové inteligenci. 33 (8): 1633–1645. doi:10.1109/tpami.2010.223. PMID  21173443.
  12. ^ A b Fitzgibbon, Andrew W. (2003). "Robust registration of 2D and 3D point sets". Výpočet obrazu a vidění. 21 (13): 1145–1153. CiteSeerX  10.1.1.335.116. doi:10.1016/j.imavis.2003.09.004.
  13. ^ A b C d E F G h i j k l Myronenko, Andriy; Song, Xubo (2010). "Point set registration: Coherent Point drift". Transakce IEEE na analýze vzorů a strojové inteligenci. 32 (2): 2262–2275. arXiv:0905.2635. doi:10.1109/tpami.2010.46. PMID  20975122.
  14. ^ A b C Chui, Haili; Rangarajan, Anand (2003). "A new point matching algorithm for non-rigid registration". Počítačové vidění a porozumění obrazu. 89 (2): 114–141. CiteSeerX  10.1.1.7.4365. doi:10.1016/S1077-3142(03)00009-2.
  15. ^ Holz, Dirk; Ichim, Alexandru E.; Tombari, Federico; Rusu, Radu B.; Behnke, Sven (2015). "Registration with the Point Cloud Library: A Modular Framework for Aligning in 3-D". IEEE Robotics Automation Magazine. 22 (4): 110–124. doi:10.1109/MRA.2015.2432331.
  16. ^ A b C Horn, Berthold K. P. (1987-04-01). "Closed-form solution of absolute orientation using unit quaternions". JOSA A. 4 (4): 629–642. Bibcode:1987JOSAA...4..629H. doi:10.1364/JOSAA.4.000629. ISSN  1520-8532.
  17. ^ A b Arun, K. S.; Huang, T. S.; Blostein, S. D. (September 1987). "Least-Squares Fitting of Two 3-D Point Sets". Transakce IEEE na analýze vzorů a strojové inteligenci. PAMI-9 (5): 698–700. doi:10.1109/TPAMI.1987.4767965. ISSN  1939-3539. PMID  21869429.
  18. ^ Briales, Jesus; Gonzalez-Jimenez, Javier (July 2017). "Convex Global 3D Registration with Lagrangian Duality". Konference IEEE 2017 o počítačovém vidění a rozpoznávání vzorů (CVPR): 5612–5621. doi:10.1109/CVPR.2017.595. hdl:10630/14599. ISBN  978-1-5386-0457-1.
  19. ^ A b C d E Yang, Heng; Shi, Jingnan; Carlone, Luca (2020-01-21). "TEASER: Fast and Certifiable Point Cloud Registration". arXiv:2001.07715 [cs.RO ].
  20. ^ A b C Parra Bustos, Álvaro; Chin, Tat-Jun (December 2018). "Guaranteed Outlier Removal for Point Cloud Registration with Correspondences". Transakce IEEE na analýze vzorů a strojové inteligenci. 40 (12): 2868–2882. arXiv:1711.10209. doi:10.1109/TPAMI.2017.2773482. ISSN  1939-3539. PMID  29990122.
  21. ^ A b Chin, Tat-Jun; Suter, David (2017-02-27). "The Maximum Consensus Problem: Recent Algorithmic Advances". Synthesis Lectures on Computer Vision. 7 (2): 1–194. doi:10.2200/s00757ed1v01y201702cov011. ISSN  2153-1056.
  22. ^ A b Wen, Fei; Ying, Rendong; Gong, Zheng; Liu, Peilin (February 2020). "Efficient Algorithms for Maximum Consensus Robust Fitting". Transakce IEEE na robotice. 36 (1): 92–106. doi:10.1109/TRO.2019.2943061. ISSN  1941-0468.
  23. ^ A b Cai, Zhipeng; Chin, Tat-Jun; Koltun, Vladlen (2019). "Consensus Maximization Tree Search Revisited". Proceedings of IEEE International Conference on Computer Vision (ICCV): 1637–1645. arXiv:1908.02021. Bibcode:2019arXiv190802021C.
  24. ^ Bazin, Jean-Charles; Seo, Yongduek; Pollefeys, Marc (2013). Lee, Kyoung Mu; Matsushita, Yasuyuki; Rehg, James M.; Hu, Zhanyi (eds.). "Globally Optimal Consensus Set Maximization through Rotation Search". Computer Vision – ACCV 2012. Přednášky z informatiky. Berlín, Heidelberg: Springer. 7725: 539–551. doi:10.1007/978-3-642-37444-9_42. ISBN  978-3-642-37444-9.
  25. ^ Hartley, Richard I.; Kahl, Fredrik (2009-04-01). "Global Optimization through Rotation Space Search". International Journal of Computer Vision. 82 (1): 64–79. doi:10.1007/s11263-008-0186-9. ISSN  1573-1405.
  26. ^ Fischler, Martin; Bolles, Robert (1981). "Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography". Komunikace ACM. 24 (6): 381–395. doi:10.1145/358669.358692.
  27. ^ Le, Huu Minh; Chin, Tat-Jun; Eriksson, Anders; Do, Thanh-Toan; Suter, David (2019). "Deterministic Approximate Methods for Maximum Consensus Robust Fitting". Transakce IEEE na analýze vzorů a strojové inteligenci: 1. arXiv:1710.10003. doi:10.1109/TPAMI.2019.2939307. ISSN  1939-3539. PMID  31494545.
  28. ^ Bustos, Alvaro Parra; Chin, Tat-Jun; Neumann, Frank; Friedrich, Tobias; Katzmann, Maximilian (2019-02-04). "A Practical Maximum Clique Algorithm for Matching with Pairwise Constraints". arXiv:1902.01534 [cs.CV ].
  29. ^ Huber, Peter J .; Ronchetti, Elvezio M.(29.01.2009). Robustní statistiky. Wiley Series v Pravděpodobnost a statistika. Hoboken, NJ, USA: John Wiley & Sons, Inc. doi:10.1002/9780470434697. ISBN  978-0-470-43469-7.
  30. ^ A b Zhou, Qian-Yi; Park, Jaesik; Koltun, Vladlen (2016). Leibe, Bastian; Matas, Jiří; Sebe, Nicu; Welling, Max (eds.). "Rychlá globální registrace". Počítačové vidění - ECCV 2016. Přednášky z informatiky. Cham: Springer International Publishing. 9906: 766–782. doi:10.1007/978-3-319-46475-6_47. ISBN  978-3-319-46475-6.
  31. ^ MacTavish, Kirk; Barfoot, Timothy D. (2015). „Za každou cenu: Srovnání robustních nákladových funkcí pro kamerové odlehlé hodnoty“. 12. konference 2015 o počítačové a robotické vizi: 62–69. doi:10.1109 / CRV.2015.52. ISBN  978-1-4799-1986-4.
  32. ^ Bosse, Michael; Agamennoni, Gabriel; Gilitschenski, Igor (2016). „Robustní odhad a aplikace v robotice“. Základy a trendy v robotice. Nyní. 4 (4): 225–269. doi:10.1561/2300000047.
  33. ^ A b Black, Michael J .; Rangarajan, Anand (01.07.1996). „Sjednocení liniových procesů, odmítnutí odlehlých hodnot a robustní statistiky s aplikacemi v rané vizi“. International Journal of Computer Vision. 19 (1): 57–91. doi:10.1007 / BF00131148. ISSN  1573-1405.
  34. ^ A b Blake, Andrew; Zisserman, Andrew (1987). Vizuální rekonstrukce. MIT Press. ISBN  9780262524063.
  35. ^ A b Yang, Heng; Antonante, Pasquale; Tzoumas, Vasileios; Carlone, Luca (2020). „Odstupňovaná nekonvexnost pro robustní prostorové vnímání: Od neminimálních řešitelů po odmítnutí globálních odlehlých hodnot“. IEEE Robotics and Automation Letters. 5 (2): 1127–1134. arXiv:1909.08605. doi:10.1109 / LRA.2020.2965893. ISSN  2377-3774.
  36. ^ Besl, Paul; McKay, Neil (1992). „Metoda registrace trojrozměrných tvarů“. Transakce IEEE na analýze vzorů a strojové inteligenci. 14 (2): 239–256. Bibcode:1992SPIE.1611..586B. doi:10.1109/34.121791.
  37. ^ A b C d E F G h i Tsin, Šanghaj; Kanade, Takeo (2004). Korelační přístup k robustní registraci sady bodů. ECCV pro počítačové vidění. Přednášky z informatiky. 3023. Springer Berlin Heidelberg. str. 558–569. CiteSeerX  10.1.1.156.6729. doi:10.1007/978-3-540-24672-5_44. ISBN  978-3-540-21982-8.
  38. ^ Rusinkiewicz, Szymon; Levoy, Marc (2001). Efektivní varianty ICP algoritmu. Proceedings of the Third International Conference on 3-D Digital Imaging and Modeling, 2001. IEEE. str. 145–152. doi:10.1109 / IM.2001.924423.
  39. ^ A b C d E Zlato, Steven; Rangarajan, Anand; Lu, Chien-Ping; Suguna, Pappu; Mjolsness, Eric (1998). Msgstr "Nové algoritmy pro porovnávání 2D a 3D bodů :: odhad pozice a korespondence". Rozpoznávání vzorů. 38 (8): 1019–1031. doi:10.1016 / S0031-3203 (98) 80010-1.
  40. ^ Jian, Bing; Vemuri, Baba C. (2005). Robustní algoritmus pro registraci množiny bodů pomocí směsi Gaussianů. Desátá mezinárodní konference IEEE o počítačovém vidění 2005. 2. str. 1246–1251.
  41. ^ Myronenko, Andriy; Song, Xubo; Carriera-Perpinán, Miguel A. (2006). „Registrace tuhého bodu: Souvislý posun bodu“. Pokroky v systémech zpracování neurálních informací. 19: 1009–1016. Citováno 31. května 2014.
  42. ^ Assalih, Hassan. (2013). „Kapitola 6: Třídění prostoru korespondence“ (PDF). 3D rekonstrukce a odhad pohybu pomocí výhledového sonaru (Ph.D.). Heriot-Watt University.
  43. ^ Hirose, Osamu (2020). „Bayesiánská formulace koherentního posunu bodu“. Transakce IEEE na analýze vzorů a strojové inteligenci. Předčasný přístup: 1–18. doi:10.1109 / TPAMI.2020.2971687. PMID  32031931.

externí odkazy