Perspektiva-n-bod - Perspective-n-Point - Wikipedia

Perspektivní-n-Směřovat^[1] je problém odhadu pozice kalibrované kamery dané sadou $n$ 3D body na světě a jejich odpovídající 2D projekce v obraze. Pozice kamery se skládá ze 6 stupňů volnosti (DOF), které jsou tvořeny rotací (kolečkem, roztečí a vybočením) a 3D překladem kamery s ohledem na svět. Tento problém pochází z kalibrace kamery a má mnoho aplikací v počítačovém vidění a dalších oblastech, včetně Odhad pozice 3D, robotika a rozšířená realita.^[2] Běžně používané řešení problému existuje pro $n = 3$ s názvem P3P a k dispozici je mnoho řešení pro obecný případ $n \geq 3$ . Řešení pro $n = 2$ existuje, pokud jsou k dispozici orientace prvků ve dvou bodech.^[3] Implementace těchto řešení jsou k dispozici také v softwaru s otevřeným zdrojovým kódem.

Specifikace problému

Definice

Vzhledem k souboru $n$ 3D body ve světovém referenčním rámci a jejich odpovídající projekce 2D obrazu, stejně jako kalibrované parametry vnitřní kamery, určují pól 6 DOF kamery ve formě její rotace a translace s ohledem na svět. Toto následuje perspektivní model projektu pro kamery:

{ displaystyle s , p_ {c} = K , [, R , | , T ,] , p_ {w}}

.

kde ${ displaystyle textstyle p_ {w} = { begin {bmatrix} x & y & z & 1 end {bmatrix}} ^ {T}}$ je homogenní světový bod, ${ displaystyle textstyle p_ {c} = { begin {bmatrix} u & v & 1 end {bmatrix}} ^ {T}}$ je odpovídající homogenní obrazový bod, ${ displaystyle textstyle K}$ je matice vnitřní parametry kamery, (kde ${ displaystyle textstyle f_ {x}}$ a ${ displaystyle f_ {y}}$ jsou zmenšené ohniskové vzdálenosti, ${ displaystyle textstyle gamma}$ je parametr zkosení, o kterém se někdy předpokládá, že je 0, a ${ displaystyle textstyle (u_ {0}, , v_ {0})}$ je hlavním bodem), ${ displaystyle textstyle s}$ je faktor měřítka pro obrazový bod a ${ displaystyle textstyle R}$ a ${ displaystyle textstyle T}$ jsou požadovaná 3D rotace a 3D překlad kamery (vnější parametry), které se počítají. To vede k následující rovnici pro model:

{ displaystyle s { begin {bmatrix} u v 1 end {bmatrix}} = { begin {bmatrix} f_ {x} & gamma & u_ {0} 0 & f_ {y} & v_ {0 } 0 & 0 & 1 end {bmatrix}} { begin {bmatrix} r_ {11} & r_ {12} & r_ {13} & t_ {1} r_ {21} & r_ {22} & r_ {23} & t_ {2} r_ {31} & r_ {32} & r_ {33} & t_ {3} end {bmatrix}} { begin {bmatrix} x y z 1 end {bmatrix}}}

.

Předpoklady a datové charakteristiky

Existuje několik předběžných aspektů problému, které jsou společné pro všechna řešení PnP. U většiny řešení se předpokládá, že kamera je již kalibrována. Jeho vnitřní vlastnosti jsou tedy již známy, jako je ohnisková vzdálenost, hlavní bod obrazu, parametr zkosení a další parametry. Některé metody, například UPnP.^[4] nebo Přímá lineární transformace (DLT) aplikovaný na projekční model, jsou výjimkou z tohoto předpokladu, protože odhadují tyto vnitřní parametry i vnější parametry, které tvoří pózu kamery, že původní PnP problém se snaží najít.

U každého řešení PnP nemůže být vybraná bodová korespondence kolineární. Kromě toho PnP může mít více řešení a výběr konkrétního řešení by vyžadoval následné zpracování sady řešení. RANSAC se také běžně používá s PnMetoda P, aby bylo řešení robustní vůči odlehlým hodnotám v sadě bodových korespondencí. Metody P3P předpokládají, že data neobsahují šum, většina metod PnP předpokládá Gaussův šum na inlierské sadě.

Metody

Tato následující část popisuje dvě běžné metody, které lze použít k řešení PnProblém P, který je také snadno dostupný v softwaru s otevřeným zdrojovým kódem a jak lze RANSAC použít k řešení odlehlých hodnot v datové sadě.

P3P

Když $n = 3$ , P.nProblém P je ve své minimální podobě P3P a lze jej vyřešit tříbodovou korespondencí. S pouhými tříbodovými korespondencemi však P3P přináší až čtyři skutečná, geometricky proveditelná řešení. Pro nízké hladiny hluku lze použít čtvrtou korespondenci k odstranění nejednoznačnosti. Nastavení problému je následující.

Nechat P být středem projekce pro kameru, A, B, a C být 3D světovými body s odpovídajícími obrázky u, proti, a w. Nechat X = | PA |, Y = | PB |, Z = | PC |, ${ displaystyle alpha = úhel BPC}$ , ${ displaystyle beta = úhel APC}$ , ${ displaystyle gamma = úhel APB}$ , ${ displaystyle p = 2 cos alpha}$ , ${ displaystyle q = 2 cos beta}$ , ${ displaystyle r = 2 cos gamma}$ , ${ displaystyle a '= | AB |}$ , ${ displaystyle b '= | BC |}$ , ${ displaystyle c '= | AC |}$ . To tvoří trojúhelníky PBC, PAC, a PAB ze kterého získáme dostatečný systém rovnic pro P3P:

{ displaystyle { begin {cases} Y ^ {2} + Z ^ {2} -YZp-b '^ {2} & = 0 Z ^ {2} + X ^ {2} -XZq-c' ^ {2} & = 0 X ^ {2} + Y ^ {2} -XYr-a '^ {2} & = 0 konec {případů}}}

.

Výsledkem řešení systému P3P jsou až čtyři geometricky proveditelná skutečná řešení pro $R$ a $T$ . Nejstarší publikované řešení pochází z roku 1841^[5]. Nedávný algoritmus pro řešení problému a klasifikace řešení pro něj je uveden v roce 2003 Transakce IEEE na analýze vzorů a strojové inteligenci článek Gao a kol.^[6] Implementaci open source řešení Gao P3P najdete v OpenCV je calib3d modul v řešitPnP funkce.^[7]Od té doby bylo vydáno několik rychlejších a přesnějších verzí, včetně Lambda Twist P3P^[8] který v roce 2018 dosáhl nejmodernějšího výkonu s 50násobným zvýšením rychlosti a 400násobným snížením počtu selhání. Lambdatwist je k dispozici jako otevřený zdroj v OpenMVG a v https://github.com/midjji/pnp.

EPnP

Efektivní PnP (EPnP) je metoda vyvinutá Lepetitem a kol. ve svém příspěvku International Journal of Computer Vision z roku 2008^[9] který řeší obecný problém PnP pro $n \geq 4$ . Tato metoda je založena na představě, že každý z n body (které se nazývají referenční body) lze vyjádřit jako vážený součet čtyř virtuálních řídicích bodů. Souřadnice těchto řídicích bodů se tak stávají neznámými problému. Právě z těchto kontrolních bodů je řešena konečná pozice fotoaparátu.

Jako přehled procesu si nejprve všimněte, že každý z $n$ referenční body ve světovém rámci, ${ displaystyle p_ {i} ^ {w}}$ a jejich odpovídající obrazové body, ${ displaystyle p_ {i} ^ {c}}$ , jsou vážené součty čtyř kontrolních bodů, ${ displaystyle c_ {j} ^ {w}}$ a ${ displaystyle c_ {j} ^ {c}}$ v uvedeném pořadí a váhy jsou normalizovány na referenční bod, jak je uvedeno níže. Všechny body jsou vyjádřeny v homogenní formě.

{ displaystyle p_ {i} ^ {w} = součet _ {j = 1} ^ {4} { alpha _ {ij} c_ {j} ^ {w}}}

{ displaystyle p_ {i} ^ {c} = součet _ {j = 1} ^ {4} { alpha _ {ij} c_ {j} ^ {c}}}

{ displaystyle sum _ {j = 1} ^ {4} { alpha _ {ij}} = 1}

Z toho bude odvození referenčních bodů obrazu

{ displaystyle s_ {i} , p_ {i} ^ {c} = K sum _ {j = 1} ^ {4} { alpha _ {ij} c_ {j} ^ {c}}}

.

Homogenní kontrolní bod obrazu má formu ${ displaystyle textstyle c_ {j} ^ {c} = { begin {bmatrix} x_ {j} ^ {c} & y_ {j} ^ {c} & z_ {j} ^ {c} end {bmatrix}} ^ {T}}$ . Přeskupením rovnice referenčního bodu obrazu získáte následující dvě lineární rovnice pro každý referenční bod:

{ displaystyle sum _ {j = 1} ^ {4} { alpha _ {ij} f_ {x} x_ {j} ^ {c} + alpha _ {ij} (u_ {0} -u_ {i }) z_ {j} ^ {c}} = 0}

{ displaystyle sum _ {j = 1} ^ {4} { alpha _ {ij} f_ {y} y_ {j} ^ {c} + alpha _ {ij} (v_ {0} -v_ {i }) z_ {j} ^ {c}} = 0}

.

Pomocí těchto dvou rovnic pro každou z $n$ referenční body, systém ${ displaystyle textstyle Mx = 0}$ mohou být vytvořeny kde ${ displaystyle textstyle x = { begin {bmatrix} c_ {1} ^ {c ^ {T}} & c_ {2} ^ {c ^ {T}} & c_ {3} ^ {c ^ {T}} & c_ {4} ^ {c ^ {T}} end {bmatrix}} ^ {T}}$ . Řešení pro kontrolní body existuje v prázdný prostor z $M$ a je vyjádřena jako

{ displaystyle x = sum _ {i = 1} ^ {N} { beta _ {i} v_ {i}}}

kde ${ displaystyle N}$ je číslo null singulární hodnoty v ${ displaystyle M}$ a každý ${ displaystyle v_ {i}}$ je odpovídající pravý singulární vektor z ${ displaystyle M}$ . ${ displaystyle N}$ se může pohybovat od 0 do 4. Po výpočtu počátečních koeficientů ${ displaystyle beta _ {i}}$ , Gauss-Newton k jejich upřesnění se používá algoritmus. The $R$ a $T$ matice, které minimalizují chybu reprojekce světových referenčních bodů, ${ displaystyle p_ {i} ^ {w}}$ a jejich odpovídající skutečné obrazové body ${ displaystyle p_ {i} ^ {c}}$ , poté se vypočítají.

Toto řešení má ${ displaystyle O (n)}$ složitost a funguje v obecném případě PnP pro planární i neplanární kontrolní body. Open source softwarové implementace této metody lze nalézt v OpenCV Camera Calibration and 3D Reconstruction module v řešitPnP funkce^[7] stejně jako z kódu publikovaného Lepetitem a kol. na jejich webových stránkách, CVLAB ve společnosti EPFL.^[10]

Tato metoda není robustní vůči odlehlým hodnotám a obecně se špatně porovnává s RANSAC P3P následovanou nelineárním vylepšením.

Pomocí RANSAC

PnP je náchylný k chybám, pokud jsou v sadě bodových korespondencí odlehlé hodnoty. RANSAC lze tedy použít ve spojení se stávajícími řešeními, aby konečné řešení pro kameru představovalo robustnější odlehlé hodnoty. Open source implementace PnMetody P s RANSAC lze najít v modulu OpenCV Camera Calibration and 3D Reconstruction v řešitPnPRansac funkce^[11].

Viz také

Reference

^ Fischler, M. A .; Bolles, R. C. (1981). "Náhodná shoda vzorků: Paradigma pro přizpůsobení modelu aplikacím pro analýzu obrazu a automatickou kartografii". Komunikace ACM. 24 (6): 381–395. doi:10.1145/358669.358692.
^ Apple, tým ARKIT (2018). „Porozumění sledování a detekci ARKit“. WWDC.
^ Fabbri, Ricardo; Giblin, Peter; Kimia, Benjamin (2012). „Odhad pozice kamery pomocí diferenciální geometrie křivky prvního řádu“ (PDF). Přednášky z informatiky (ECCV 2012). Přednášky z informatiky. 7575: 231–244. doi:10.1007/978-3-642-33765-9_17. ISBN 978-3-642-33764-2.
^ Penate-Sanchez, A .; Andrade-Cetto, J .; Moreno-Noguer, F. (2013). "Vyčerpávající linearizace pro robustní odhad pozice kamery a ohniskové vzdálenosti". Transakce IEEE na analýze vzorů a strojové inteligenci. 35 (10): 2387–2400. doi:10.1109 / TPAMI.2013.36. hdl:2117/22931. PMID 23969384.
^ Quan, Long; Lan, Zhong-Dan (1999). „Stanovení polohy kamery lineárním N-bodem“ (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci.
^ Gao, Xiao-Shan; Hou, Xiao-Rong; Tang, Jianliang; Cheng, Hang-Fei (2003). „Kompletní klasifikace řešení pro perspektivní tříbodový problém“. Transakce IEEE na analýze vzorů a strojové inteligenci. 25 (8): 930–943. doi:10.1109 / tpami.2003.1217599.
^ ^A ^b "Kalibrace kamery a 3D rekonstrukce". OpenCV.
^ Persson, Mikael; Nordberg, Klas (2018). „Lambda Twist: přesný rychlý, robustní, tříbodový (P3P) řešič“ (PDF). Evropská konference o počítačovém vidění (ECCV).
^ Lepetit, V .; Moreno-Noguer, M .; Fua, P. (2009). "EPnP: Přesné O (n) řešení problému PnP". International Journal of Computer Vision. 81 (2): 155–166. doi:10.1007 / s11263-008-0152-6. hdl:2117/10327.
^ „EPnP: Efektivní odhad pozice kamery v perspektivě n-bodu“. EPFL-CVLAB.
^ "Kalibrace kamery a 3D rekonstrukce". OpenCV.

externí odkazy

[1] Fischler, M. A .; Bolles, R. C. (1981). "Náhodná shoda vzorků: Paradigma pro přizpůsobení modelu aplikacím pro analýzu obrazu a automatickou kartografii". Komunikace ACM. 24 (6): 381–395. doi:10.1145/358669.358692.

[2] Apple, tým ARKIT (2018). „Porozumění sledování a detekci ARKit“. WWDC.

[SIFTOrientationPose-3] Fabbri, Ricardo; Giblin, Peter; Kimia, Benjamin (2012). „Odhad pozice kamery pomocí diferenciální geometrie křivky prvního řádu“ (PDF). Přednášky z informatiky (ECCV 2012). Přednášky z informatiky. 7575: 231–244. doi:10.1007/978-3-642-33765-9_17. ISBN 978-3-642-33764-2.

[4] Penate-Sanchez, A .; Andrade-Cetto, J .; Moreno-Noguer, F. (2013). "Vyčerpávající linearizace pro robustní odhad pozice kamery a ohniskové vzdálenosti". Transakce IEEE na analýze vzorů a strojové inteligenci. 35 (10): 2387–2400. doi:10.1109 / TPAMI.2013.36. hdl:2117/22931. PMID 23969384.

[5] Quan, Long; Lan, Zhong-Dan (1999). „Stanovení polohy kamery lineárním N-bodem“ (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci.

[6] Gao, Xiao-Shan; Hou, Xiao-Rong; Tang, Jianliang; Cheng, Hang-Fei (2003). „Kompletní klasifikace řešení pro perspektivní tříbodový problém“. Transakce IEEE na analýze vzorů a strojové inteligenci. 25 (8): 930–943. doi:10.1109 / tpami.2003.1217599.

[cvsolpnp-7] A ^b "Kalibrace kamery a 3D rekonstrukce". OpenCV.

[8] Persson, Mikael; Nordberg, Klas (2018). „Lambda Twist: přesný rychlý, robustní, tříbodový (P3P) řešič“ (PDF). Evropská konference o počítačovém vidění (ECCV).

[9] Lepetit, V .; Moreno-Noguer, M .; Fua, P. (2009). "EPnP: Přesné O (n) řešení problému PnP". International Journal of Computer Vision. 81 (2): 155–166. doi:10.1007 / s11263-008-0152-6. hdl:2117/10327.

[10] „EPnP: Efektivní odhad pozice kamery v perspektivě n-bodu“. EPFL-CVLAB.

[11] "Kalibrace kamery a 3D rekonstrukce". OpenCV.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]