Detekce objektů - Object detection

Objekty detekované modulem Deep Neural Network (dnn) OpenCV pomocí modelu YOLOv3 trénovaného na datové sadě COCO schopného detekovat objekty 80 běžných tříd.

Detekce objektů je počítačová technologie související s počítačové vidění a zpracování obrazu která se zabývá detekcí instancí sémantických objektů určité třídy (například lidí, budov nebo automobilů) v digitálních obrazech a videích.^[1] Mezi dobře prozkoumané domény detekce objektů patří detekce obličeje a detekce chodců. Detekce objektů má aplikace v mnoha oblastech počítačového vidění, včetně načítání obrázků a video dohled.

Použití

Je široce používán v počítačové vidění úkoly jako anotace obrázku,^[2] rozpoznávání činnosti,^[3] detekce obličeje, rozpoznávání obličejů, segmentace videa. Používá se také v sledování objektů například sledování míče během fotbalového zápasu, sledování pohybu kriketové pálky nebo sledování osoby ve videu.

Pojem

Každý objekt třída má svůj vlastní speciál funkce který pomáhá při klasifikaci třídy - například všech kruhy detekce třídy objektů používá tyto speciální funkce. Například při hledání kruhů jsou hledány objekty, které jsou v určité vzdálenosti od bodu (tj. Od středu). Podobně, když hledáte čtverce, objekty, které jsou kolmý v rozích a mají stejnou délku strany. Podobný přístup se používá pro identifikace obličeje kde lze nalézt oči, nos a rty a funkce lze zjistit barvu pleti a vzdálenost mezi očima.

Metody

Porovnání rychlosti a přesnosti různých detektorů ^[4] na datové sadě Microsoft COCO testdev http://mscoco.org (Všechny hodnoty najdete v https://arxiv.org články autorů těchto algoritmů)

Metody detekce objektů obvykle spadají do jedné z nich strojové učení - přístupy založené na hluboké učení - přístupy založené na Pro přístupy Machine Learning je nutné nejprve definovat funkce pomocí jedné z níže uvedených metod a poté pomocí techniky, jako je podporovat vektorový stroj (SVM) provést klasifikaci. Na druhou stranu techniky hlubokého učení jsou schopny provádět detekci objektů typu end-to-end bez konkrétního definování funkcí a jsou obvykle založeny na konvoluční neuronové sítě (CNN).

Přístupy strojového učení:
Přístupy hlubokého učení:
- Návrhy regionů (R-CNN,^[6] Rychlý R-CNN,^[7] Rychlejší R-CNN^[8], kaskáda R-CNN.^[9])
- Single Shot MultiBox Detector (SSD) ^[10]
- Podíváte se jen jednou (YOLO) ^[11]^[12]^[13]^[4]
- Single-Shot Refinement Neural Network pro detekci objektů (RefineDet) ^[14]
- Sítnice ^[15]^[9]
- Deformovatelné konvoluční sítě ^[16]^[17]

Viz také

Reference

^ Dasiopoulou, Stamatia a kol. "Znalostní sémantická detekce video objektů „Transakce IEEE na obvodech a systémech pro videotechniku 15.10 (2005): 1210–1224.
^ Ling Guan; Yifeng He; Sun-Yuan Kung (1. března 2012). Zpracování multimediálního obrazu a videa. CRC Press. str. 331–. ISBN 978-1-4398-3087-1.
^ Wu, Jianxin a kol. "Škálovatelný přístup k rozpoznávání aktivity na základě použití objektu "11. mezinárodní konference IEEE o počítačovém vidění v roce 2007. IEEE, 2007.
^ ^A ^b Bochkovskiy, Alexey (2020). "Yolov4: Optimální rychlost a přesnost detekce objektů". arXiv:2004.10934 [cs.CV ].
^ Dalal, Navneet (2005). "Histogramy orientovaných gradientů pro detekci člověka" (PDF). Počítačové vidění a rozpoznávání vzorů. 1.
^ Ross, Girshick (2014). „Hierarchie bohatých funkcí pro přesnou detekci objektů a sémantickou segmentaci“ (PDF). Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. IEEE: 580–587. arXiv:1311.2524. doi:10.1109 / CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID 215827080.
^ Girschick, Ross (2015). „Fast R-CNN“ (PDF). Sborník mezinárodní konference IEEE o počítačovém vidění: 1440–1448. arXiv:1504.08083. Bibcode:2015arXiv150408083G.
^ Shaoqing, Ren (2015). „Rychlejší R-CNN“. Pokroky v systémech zpracování neurálních informací. arXiv:1506.01497.
^ ^A ^b Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (04.04.2019). "Libra R-CNN: Směrem k vyváženému učení pro detekci objektů". arXiv:1904.02701v1 [cs.CV ].
^ Liu, Wei (říjen 2016). "SSD: Single shot multibox detector". Počítačové vidění - ECCV 2016. Evropská konference o počítačovém vidění. Přednášky z informatiky. 9905. 21–37. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID 2141740.
^ Redmon, Joseph (2016). "Podíváte se pouze jednou: Jednotná detekce objektů v reálném čase". Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. arXiv:1506.02640. Bibcode:2015arXiv150602640R.
^ Redmon, Joseph (2017). „YOLO9000: lepší, rychlejší, silnější“. arXiv:1612.08242 [cs.CV ].
^ Redmon, Joseph (2018). „Yolov3: Přírůstkové vylepšení“. arXiv:1804.02767 [cs.CV ].
^ Zhang, Shifeng (2018). "Neuronová síť pro zdokonalení jednoho snímku pro detekci objektů". Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů: 4203–4212. arXiv:1711.06897. Bibcode:2017arXiv171106897Z.
^ Lin, Tsung-Yi (2020). "Ohnisková ztráta pro detekci hustých objektů". Transakce IEEE na analýze vzorů a strojové inteligenci. 42 (2): 318–327. arXiv:1708.02002. Bibcode:2017arXiv170802002L. doi:10.1109 / TPAMI.2018.2858826. PMID 30040631. S2CID 47252984.
^ Zhu, Xizhou (2018). "Deformovatelné ConvNets v2: Deformovatelnější, lepší výsledky". arXiv:1811.11168 [cs.CV ].
^ Dai, Jifeng (2017). "Deformovatelné konvoluční sítě". arXiv:1703.06211 [cs.CV ].

"Detekce třídy objektu". Vision.eecs.ucf.edu. Archivovány od originál dne 2013-07-14. Citováno 2013-10-09.
„ETHZ - Laboratoř počítačového vidění: Publikace“. Vision.ee.ethz.ch. Archivovány od originál dne 03.06.2013. Citováno 2013-10-09.

externí odkazy

[1] Dasiopoulou, Stamatia a kol. "Znalostní sémantická detekce video objektů „Transakce IEEE na obvodech a systémech pro videotechniku 15.10 (2005): 1210–1224.

[GuanHe2012-2] Ling Guan; Yifeng He; Sun-Yuan Kung (1. března 2012). Zpracování multimediálního obrazu a videa. CRC Press. str. 331–. ISBN 978-1-4398-3087-1.

[3] Wu, Jianxin a kol. "Škálovatelný přístup k rozpoznávání aktivity na základě použití objektu "11. mezinárodní konference IEEE o počítačovém vidění v roce 2007. IEEE, 2007.

[yolov4-4] A ^b Bochkovskiy, Alexey (2020). "Yolov4: Optimální rychlost a přesnost detekce objektů". arXiv:2004.10934 [cs.CV ].

[5] Dalal, Navneet (2005). "Histogramy orientovaných gradientů pro detekci člověka" (PDF). Počítačové vidění a rozpoznávání vzorů. 1.

[6] Ross, Girshick (2014). „Hierarchie bohatých funkcí pro přesnou detekci objektů a sémantickou segmentaci“ (PDF). Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. IEEE: 580–587. arXiv:1311.2524. doi:10.1109 / CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID 215827080.

[7] Girschick, Ross (2015). „Fast R-CNN“ (PDF). Sborník mezinárodní konference IEEE o počítačovém vidění: 1440–1448. arXiv:1504.08083. Bibcode:2015arXiv150408083G.

[8] Shaoqing, Ren (2015). „Rychlejší R-CNN“. Pokroky v systémech zpracování neurálních informací. arXiv:1506.01497.

[Pang_Chen_Shi_Feng_2019-9] A ^b Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (04.04.2019). "Libra R-CNN: Směrem k vyváženému učení pro detekci objektů". arXiv:1904.02701v1 [cs.CV ].

[10] Liu, Wei (říjen 2016). "SSD: Single shot multibox detector". Počítačové vidění - ECCV 2016. Evropská konference o počítačovém vidění. Přednášky z informatiky. 9905. 21–37. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID 2141740.

[11] Redmon, Joseph (2016). "Podíváte se pouze jednou: Jednotná detekce objektů v reálném čase". Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. arXiv:1506.02640. Bibcode:2015arXiv150602640R.

[12] Redmon, Joseph (2017). „YOLO9000: lepší, rychlejší, silnější“. arXiv:1612.08242 [cs.CV ].

[13] Redmon, Joseph (2018). „Yolov3: Přírůstkové vylepšení“. arXiv:1804.02767 [cs.CV ].

[14] Zhang, Shifeng (2018). "Neuronová síť pro zdokonalení jednoho snímku pro detekci objektů". Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů: 4203–4212. arXiv:1711.06897. Bibcode:2017arXiv171106897Z.

[15] Lin, Tsung-Yi (2020). "Ohnisková ztráta pro detekci hustých objektů". Transakce IEEE na analýze vzorů a strojové inteligenci. 42 (2): 318–327. arXiv:1708.02002. Bibcode:2017arXiv170802002L. doi:10.1109 / TPAMI.2018.2858826. PMID 30040631. S2CID 47252984.

[16] Zhu, Xizhou (2018). "Deformovatelné ConvNets v2: Deformovatelnější, lepší výsledky". arXiv:1811.11168 [cs.CV ].

[17] Dai, Jifeng (2017). "Deformovatelné konvoluční sítě". arXiv:1703.06211 [cs.CV ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]