Počítačové vidění - Computer vision - Wikipedia

Počítačové vidění je mezioborový vědecký obor který se zabývá tím, jak počítače může získat porozumění na vysoké úrovni digitální obrázky nebo videa. Z pohledu inženýrství, snaží se pochopit a automatizovat úkoly, které lidský vizuální systém může udělat.[1][2][3]

Úkoly počítačového vidění zahrnují metody pro získávání, zpracovává se, analyzovat a porozumění digitálním obrazům a extrakce vysoce dimenzionální data ze skutečného světa za účelem získání číselných nebo symbolických informací, např. ve formách rozhodnutí.[4][5][6][7] Pochopení v této souvislosti znamená transformaci vizuálních obrazů (vstup sítnice) do popisů světa, které dávají smysl myšlenkovým procesům a mohou vyvolat příslušnou akci. Toto porozumění obrazu lze chápat jako rozmotání symbolických informací z obrazových dat pomocí modelů konstruovaných pomocí geometrie, fyziky, statistiky a teorie učení.[8]

The vědní disciplína počítačového vidění se zabývá teorií umělých systémů, které extrahují informace z obrazů. Obrazová data mohou mít mnoho podob, například videosekvence, pohledy z více kamer, vícerozměrná data ze 3D skeneru nebo lékařské skenovací zařízení. Technologická disciplína počítačového vidění se snaží aplikovat své teorie a modely na konstrukci systémů počítačového vidění.

Subdomény počítačového vidění zahrnují rekonstrukce scény, detekce událostí, sledování videa, rozpoznávání objektů, Odhad 3D pozice, učení, indexování, odhad pohybu, vizuální servo, Modelování 3D scén a restaurování obrazu.[6]

Definice

Počítačové vidění je mezioborový obor která pojednává o tom, jak lze z počítačů získat porozumění na vysoké úrovni digitální obrázky nebo videa. Z pohledu inženýrství, snaží se automatizovat úkoly, které lidský vizuální systém může udělat.[1][2][3] „Počítačové vidění se zabývá automatickou extrakcí, analýzou a porozuměním užitečných informací z jednoho obrazu nebo sekvence obrazů. Zahrnuje vývoj teoretického a algoritmického základu pro dosažení automatického vizuálního porozumění.“[9] Jako vědní disciplína „Počítačové vidění se zabývá teorií umělých systémů, které extrahují informace ze snímků. Obrazová data mohou mít mnoho podob, například videosekvence, pohledy z více kamer nebo vícerozměrná data z a lékařský skener.[10] Jako technologická disciplína se počítačové vidění snaží uplatnit své teorie a modely pro konstrukci systémů počítačového vidění.

Dějiny

Na konci 60. let začalo počítačové vidění na univerzitách, které byly průkopnické umělá inteligence. Mělo to napodobovat lidský vizuální systém, jako odrazový můstek k obdarování robotů inteligentním chováním.[11] V roce 1966 se věřilo, že toho lze dosáhnout letním projektem připojením fotoaparátu k počítači a jeho „popsáním toho, co viděl“.[12][13]

Co odlišovalo počítačové vidění od převládajícího pole digitální zpracování obrazu v té době byla touha extrahovat trojrozměrný struktura ze snímků s cílem dosáhnout úplného porozumění scéně. Studie v 70. letech tvořily rané základy mnoha počítačových vidění algoritmy které dnes existují, včetně extrakce hran z obrázků, značení čar, nepolyedrické a polyedrické modelování, reprezentace objektů jako propojení menších struktur, optický tok, a odhad pohybu.[11]

V příštím desetiletí proběhly studie založené na přísnější matematické analýze a kvantitativních aspektech počítačového vidění. Patří mezi ně koncept měřítko-prostor, odvození tvaru z různých narážek, jako je stínování, textury a zaměření a obrysové modely známé jako hadi. Vědci si také uvědomili, že s mnoha z těchto matematických konceptů lze zacházet ve stejném optimalizačním rámci jako regulace a Markovova náhodná pole.[14]V 90. letech se některá z předchozích výzkumných témat stala aktivnějšími než ostatní. Výzkum v projektivní 3-D rekonstrukce vedlo k lepšímu porozumění kalibrace kamery. S příchodem optimalizačních metod pro kalibraci kamer bylo zjištěno, že mnoho nápadů již bylo prozkoumáno úprava svazku teorie z oblasti fotogrammetrie. To vedlo k metodám pro rozptýlení 3D rekonstrukce scén z více obrázků. Pokroku bylo dosaženo v problému husté stereofonní korespondence a dalších stereofonních technik s více pohledy. Ve stejnou dobu, variace řezu grafu byly použity k řešení segmentace obrazu. Toto desetiletí také znamenalo poprvé, kdy byly v praxi použity techniky statistického učení k rozpoznávání tváří v obrazech (viz Vlastní tvar ). Ke konci 90. let došlo k významné změně se zvýšenou interakcí mezi poli počítačová grafika a počítačové vidění. To zahrnovalo image-based rendering, morfing obrazu, zobrazit interpolaci, panoramatické švy a brzy vykreslování světelného pole.[11]

Nedávná práce zaznamenala oživení Vlastnosti metody založené na použití ve spojení s technikami strojového učení a komplexními optimalizačními rámci.[15][16] Pokrok technik Deep Learning přinesl další život v oblasti počítačového vidění. Přesnost algoritmů hlubokého učení na několika srovnávacích souborech dat počítačového vidění pro úkoly od klasifikace, segmentace a optického toku předčila předchozí metody.[Citace je zapotřebí ]

Související pole

Umělá inteligence

Oblasti umělá inteligence jednat s autonomními plánování cesty nebo uvažování pro robotické systémy do procházet prostředím.[17] Pro orientaci v těchto prostředích je nutné podrobné porozumění těmto prostředím. Informace o prostředí by mohly být poskytovány systémem počítačového vidění, který funguje jako kamerový senzor a poskytuje informace o prostředí a robotovi na vysoké úrovni.

Umělá inteligence a počítačové vidění sdílejí další témata jako např rozpoznávání vzorů a techniky učení. V důsledku toho je počítačové vidění někdy považováno za součást pole umělé inteligence nebo oboru počítačové vědy obecně.

Informační inženýrství

Počítačové vidění je často považováno za součást informační inženýrství.[18][19]

Fyzika pevných látek

Fyzika pevných látek je další pole, které úzce souvisí s počítačovým viděním. Většina systémů počítačového vidění se spoléhá obrazové senzory, které detekují elektromagnetická radiace, který má obvykle formu buď viditelné nebo infračervené světlo. Senzory jsou konstruovány pomocí kvantová fyzika. Proces, kterým světlo interaguje s povrchy, je vysvětlen pomocí fyziky. Fyzika vysvětluje chování optika které jsou klíčovou součástí většiny zobrazovacích systémů. Sofistikovaný obrazové senzory dokonce vyžadovat kvantová mechanika poskytnout úplné pochopení procesu formování obrazu.[11] Pomocí počítačového vidění lze také řešit různé problémy měření ve fyzice, například pohyb v tekutinách.

Neurobiologie

Třetí pole, které hraje důležitou roli, je neurobiologie, konkrétně studium systému biologického vidění. V minulém století proběhlo rozsáhlé studium očí, neuronů a struktur mozku věnovaných zpracování vizuálních podnětů u lidí i různých zvířat. To vedlo k hrubému, ale komplikovanému popisu toho, jak fungují „skutečné“ systémy vidění za účelem řešení určitých úkolů souvisejících s viděním. Tyto výsledky vedly k dílčímu poli počítačového vidění, kde jsou umělé systémy navrženy tak, aby napodobovaly zpracování a chování biologických systémů na různých úrovních složitosti. Také některé metody založené na učení vyvinuté v rámci počítačového vidění (např. neurální síť a hluboké učení analýza a klasifikace obrazů a funkcí) mají své pozadí v biologii.

Některé oblasti výzkumu počítačového vidění úzce souvisí se studiem biologické vidění - ve skutečnosti je tolik oblastí výzkumu AI úzce spjato s výzkumem lidského vědomí a s využitím uložených znalostí k interpretaci, integraci a využití vizuálních informací. Pole biologického vidění studuje a modeluje fyziologické procesy za vizuálním vnímáním u lidí a jiných zvířat. Počítačové vidění na druhé straně studuje a popisuje procesy implementované v softwaru a hardwaru za systémy umělého vidění. Interdisciplinární výměna mezi biologickým a počítačovým viděním se ukázala jako plodná pro obě oblasti.[20]

Zpracování signálu

Ještě další pole související s počítačovým viděním je zpracování signálu. Mnoho způsobů zpracování signálů s jednou proměnnou, obvykle dočasných signálů, lze rozšířit přirozeným způsobem na zpracování signálů se dvěma proměnnými nebo signálů s více proměnnými v počítačovém vidění. Kvůli specifické povaze obrazů však existuje mnoho metod vyvinutých v rámci počítačového vidění, které nemají protějšek při zpracování signálů s jednou proměnnou. Spolu s vícerozměrností signálu to definuje podpole ve zpracování signálu jako součást počítačového vidění.

Další pole

Kromě výše zmíněných pohledů na počítačové vidění lze mnoho souvisejících výzkumných témat studovat také z čistě matematického hlediska. Například je založeno na mnoha metodách počítačového vidění statistika, optimalizace nebo geometrie. Nakonec je významná část oboru věnována aspektu implementace počítačového vidění; jak lze stávající metody realizovat v různých kombinacích softwaru a hardwaru, nebo jak lze tyto metody upravit, aby se dosáhlo rychlosti zpracování bez ztráty příliš vysokého výkonu. Počítačové vidění se také používá v módním elektronickém obchodu, řízení zásob, vyhledávání patentů, nábytku a kosmetickém průmyslu.[Citace je zapotřebí ]

Rozdíly

Pole, která nejvíce souvisejí s počítačovým viděním, jsou zpracování obrazu, analýza obrazu a strojové vidění. Rozsah technik a aplikací, které pokrývají, se významně překrývá. To znamená, že základní techniky, které se používají a vyvíjejí v těchto oblastech, jsou podobné, což lze interpretovat, protože existuje pouze jedno pole s různými názvy. Na druhou stranu se jeví jako nezbytné, aby se výzkumné skupiny, vědecké časopisy, konference a společnosti prezentovaly nebo uváděly na trh jako společnosti, které patří konkrétně do jedné z těchto oblastí, a proto byly různé charakterizace, které odlišují každou z těchto oblastí od ostatních. prezentovány.

Počítačová grafika produkuje obrazová data z 3D modelů, počítačové vidění často produkuje 3D modely z obrazových dat.[21] Existuje také trend ke kombinaci těchto dvou oborů, např., jak bylo prozkoumáno v rozšířená realita.

Následující charakterizace se zdají být relevantní, ale neměly by být považovány za všeobecně přijímané:

  • Zpracování obrazu a analýza obrazu mají tendenci se soustředit na 2D obrazy, jak transformovat jeden obrázek na jiný, např., pixelovými operacemi, jako je vylepšení kontrastu, lokálními operacemi, jako je extrakce hran nebo odstranění šumu, nebo geometrickými transformacemi, jako je otáčení obrazu. Z této charakterizace vyplývá, že zpracování / analýza obrazu nevyžadují předpoklady ani nevytvářejí interpretace obsahu obrazu.
  • Počítačové vidění zahrnuje 3D analýzu z 2D obrazů. Tím se analyzuje 3D scéna promítnutá na jeden nebo několik obrazů, např., jak rekonstruovat strukturu nebo jiné informace o 3D scéně z jednoho nebo několika obrázků. Počítačové vidění se často spoléhá na více či méně složité předpoklady o scéně zobrazené na obrázku.
  • Strojové vidění je proces aplikace řady technologií a metod k zajištění automatické kontroly založené na zobrazování, řízení procesu a navádění robota[22] v průmyslových aplikacích.[20] Strojové vidění má tendenci se zaměřovat na aplikace, zejména ve výrobě, např., roboty a systémy založené na vidění pro kontrolu, měření nebo vychystávání na základě vidění (např vychystávání koše[23]). To znamená, že technologie obrazových senzorů a teorie řízení jsou často integrovány do zpracování obrazových dat pro řízení robota a že zpracování v reálném čase je zdůrazněno pomocí efektivních implementací v hardwaru a softwaru. To také znamená, že vnější podmínky, jako je osvětlení, mohou být a jsou častěji kontrolovány ve strojovém vidění než v obecném počítačovém vidění, což umožňuje použití různých algoritmů.
  • Existuje také pole s názvem zobrazování který se primárně zaměřuje na proces produkce obrazů, ale někdy se také zabývá zpracováním a analýzou obrazů. Například, lékařské zobrazování zahrnuje podstatné práce na analýze obrazových dat v lékařských aplikacích.
  • Konečně, rozpoznávání vzorů je pole, které používá různé metody k získávání informací ze signálů obecně, zejména na základě statistických přístupů a umělé neuronové sítě. Významná část tohoto oboru je věnována aplikaci těchto metod na obrazová data.

Fotogrammetrie překrývá se také s počítačovým viděním, např. stereofotogrammetrie vs. počítačové stereofonní vidění.

Aplikace

Aplikace sahají od úkolů, jako jsou průmyslové strojové vidění systémy, které, řekněme, kontrolují zrychlení lahví na výrobní lince, k výzkumu umělé inteligence a počítačů nebo robotů, které dokážou pochopit svět kolem sebe. Pole počítačového vidění a strojového vidění se významně překrývají. Počítačové vidění pokrývá základní technologii automatizované analýzy obrazu, která se používá v mnoha oblastech. Strojové vidění obvykle odkazuje na proces kombinování automatizované analýzy obrazu s jinými metodami a technologiemi k zajištění automatizované kontroly a navádění robota v průmyslových aplikacích. V mnoha aplikacích pro počítačové vidění jsou počítače předprogramovány tak, aby řešily konkrétní úkoly, ale metody založené na učení jsou nyní stále běžnější. Příklady aplikací počítačového vidění zahrnují systémy pro:

Učení 3D tvarů bylo v počítačovém vidění náročným úkolem. Poslední pokrok v roce hluboké učení umožnila vědcům vytvářet modely schopné generovat a rekonstruovat 3D tvary z jednoho nebo více pohledů hloubkové mapy nebo siluety hladce a efektivně [21]

Lék

DARPA Konceptuální video s logickým uvažováním o vizuálních médiích

Jedním z nejvýznamnějších aplikačních oborů je lékařské počítačové vidění nebo lékařské zpracování obrazu, charakterizované extrakcí informací z obrazových dat do diagnostikovat pacienta. Příkladem toho je detekce nádory, arterioskleróza nebo jiné maligní změny; dalším příkladem jsou měření rozměrů orgánů, průtoku krve atd. Podporuje také lékařský výzkum poskytováním nových informací: např., o struktuře mozku nebo o kvalitě lékařských ošetření. Aplikace počítačového vidění v lékařské oblasti také zahrnují vylepšení obrazů interpretovaných lidmi - například ultrazvukové obrazy nebo rentgenové snímky - za účelem snížení vlivu šumu.

Strojové vidění

Druhá oblast aplikace v oblasti počítačového vidění je v průmyslu, někdy se jí říká strojové vidění, kde jsou informace extrahovány za účelem podpory výrobního procesu. Jedním z příkladů je kontrola kvality, kde se automaticky kontrolují detaily nebo konečné výrobky, aby se zjistily vady. Dalším příkladem je měření polohy a orientace detailů, které má robotické rameno zachytit. Strojové vidění se také hojně používá v zemědělském procesu k odstranění nežádoucích potravin z hromadného materiálu, což je proces zvaný optické třídění.[25]

Válečný

Vojenské aplikace jsou pravděpodobně jednou z největších oblastí počítačového vidění. Zjevnými příklady jsou detekce nepřátelských vojáků nebo vozidel a navádění raket. Pokročilejší systémy pro navádění raket posílají rakety spíše do oblasti než ke konkrétním cílům a výběr cíle se provede, když raketa dosáhne oblasti na základě lokálně získaných obrazových dat. Moderní vojenské koncepty, například „povědomí o bojišti“, naznačují, že různé senzory, včetně obrazových, poskytují bohatou sadu informací o bojové scéně, které lze použít k podpoře strategických rozhodnutí. V tomto případě se automatické zpracování dat používá ke snížení složitosti ak fúzi informací z více senzorů ke zvýšení spolehlivosti.

Autonomní vozidla

Umělcova koncepce Zvědavost, příklad pozemního vozidla bez posádky. Všimněte si stereofonní kamera namontovaný na horní straně vozítka.

Jednou z novějších oblastí použití jsou autonomní vozidla, která zahrnují ponorky, pozemní vozidla (malé roboty na kolech, osobních nebo nákladních automobilech), letecká vozidla a bezpilotní letadla (UAV ). Úroveň autonomie sahá od plně autonomních (bezpilotních) vozidel po vozidla, kde systémy založené na počítačovém vidění podporují řidiče nebo pilota v různých situacích. Plně autonomní vozidla obvykle používají pro navigaci počítačové vidění, např. za to, že věděli, kde to je, nebo za vytvoření mapy svého prostředí (SLAM ) a pro detekci překážek. Lze jej také použít k detekci určitých událostí specifických pro daný úkol, např., UAV hledající lesní požáry. Příkladem podpůrných systémů jsou systémy varování před překážkami v automobilech a systémy pro autonomní přistání letadel. Několik výrobců automobilů předvedlo systémy pro autonomní řízení automobilů, ale tato technologie stále nedosáhla úrovně, kde by mohla být uvedena na trh. Existuje spousta příkladů vojenských autonomních vozidel od pokročilých raket po UAV pro průzkumné mise nebo navádění raket. Průzkum vesmíru již probíhá s autonomními vozidly pomocí počítačového vidění, např., NASA je Zvědavost a CNSA je Yutu-2 rover.

Hmatová zpětná vazba

Gumová umělá vrstva kůže s pružnou strukturou pro odhad tvaru mikro-zvlněných povrchů
Nahoře je silikonová forma s kamerou uvnitř obsahující mnoho různých bodových značek. Když je tento snímač přitlačen k povrchu, křemík se deformuje a poloha bodových značek se posune. Počítač pak může tato data odebrat a určit, jak přesně je forma přitlačena k povrchu. To lze použít ke kalibraci robotických rukou, aby se zajistilo, že budou moci efektivně uchopit objekty.

Materiály, jako je guma a křemík, se používají k výrobě senzorů, které umožňují aplikace, jako je detekce mikroskopických vln a kalibrace robotických rukou. Gumu lze použít k vytvoření formy, kterou lze umístit přes prst, uvnitř této formy by bylo několik tenzometrů. Forma na prsty a senzory by pak mohly být umístěny na horní část malé gumové vrstvy obsahující řadu gumových kolíků. Uživatel pak může nosit prstovou formu a vystopovat povrch. Počítač pak může číst data z tenzometrů a měřit, zda je jeden nebo více kolíků tlačeno nahoru. Pokud je kolík tlačen nahoru, počítač to rozpozná jako nedokonalost povrchu. Tento druh technologie je užitečný k získání přesných údajů o nedokonalostech na velmi velké ploše.[26] Další variantou tohoto snímače formy na prst jsou snímače, které obsahují kameru zavěšenou v křemíku. Křemík tvoří kopuli kolem vnějšku kamery a do křemíku jsou vloženy bodové značky, které jsou rovnoměrně rozmístěny. Tyto kamery lze poté umístit na zařízení, jako jsou robotické ruce, aby počítač mohl přijímat vysoce přesná hmatová data.[27]

Mezi další oblasti použití patří:

Typické úkoly

Každá z výše popsaných oblastí použití využívá řadu úkolů počítačového vidění; více či méně přesně definované problémy měření nebo problémy se zpracováním, které lze vyřešit pomocí různých metod. Níže jsou uvedeny některé příklady typických úloh počítačového vidění.

Úkoly počítačového vidění zahrnují metody pro získávání, zpracovává se, analyzovat a porozumění digitálním obrazům a extrakce vysoce dimenzionální data ze skutečného světa za účelem získání numerických nebo symbolických informací, např., ve formě rozhodnutí.[4][5][6][7] Pochopení v tomto kontextu znamená transformaci vizuálních obrazů (vstup sítnice) do popisů světa, které mohou být propojeny s jinými myšlenkovými procesy a vyvolávat vhodné akce. Toto porozumění obrazu lze chápat jako rozmotání symbolických informací z obrazových dat pomocí modelů konstruovaných pomocí geometrie, fyziky, statistiky a teorie učení.[8]

Uznání

Klasický problém v počítačovém vidění, zpracování obrazu a strojové vidění je to, zda určit, zda obrazová data obsahují nějaký konkrétní objekt, vlastnost nebo aktivitu. V literatuře jsou popsány různé varianty problému rozpoznávání:[Citace je zapotřebí ]

  • Rozpoznávání objektů (také zvaný klasifikace objektů) - lze rozpoznat jeden nebo několik předem určených nebo naučených objektů nebo tříd objektů, obvykle společně s jejich 2D pozicemi v obraze nebo 3D pozicemi ve scéně. Blippar, Google Goggles a LikeThat poskytují samostatné programy, které ilustrují tuto funkci.
  • Identifikace - je rozpoznána jednotlivá instance objektu. Mezi příklady patří identifikace obličeje nebo otisku prstu konkrétní osoby, identifikace ručně psané číslice, nebo identifikace konkrétního vozidla.
  • Detekce - obrazová data jsou skenována na konkrétní podmínky. Mezi příklady patří detekce možných abnormálních buněk nebo tkání v lékařských obrazech nebo detekce vozidla v automatickém systému mýtného. Detekce založená na relativně jednoduchých a rychlých výpočtech se někdy používá k hledání menších oblastí zajímavých obrazových dat, které lze dále analyzovat výpočetně náročnějšími technikami, aby se dosáhlo správné interpretace.

V současné době jsou založeny nejlepší algoritmy pro tyto úkoly konvoluční neuronové sítě. Ilustraci jejich schopností poskytuje Velká výzva ImageNet pro vizuální rozpoznávání; toto je měřítko v klasifikaci a detekci objektů, v soutěži se používají miliony obrázků a 1000 tříd objektů.[29] Výkon konvolučních neuronových sítí v testech ImageNet je nyní téměř stejný jako u lidí.[29] Nejlepší algoritmy stále bojují s objekty, které jsou malé nebo tenké, jako je malý mravenec na stonku květiny nebo osoba, která drží v ruce brk. Mají také potíže s obrazy, které byly zkresleny pomocí filtrů (u moderních digitálních fotoaparátů je to stále častější jev). Naproti tomu tyto druhy obrazů lidi zřídka trápí. Lidé však mívají potíže s jinými problémy. Například nedokáží klasifikovat objekty do jemnozrnných tříd, jako je konkrétní plemeno psa nebo druh ptáka, zatímco konvoluční neuronové sítě to zvládají s lehkostí[Citace je zapotřebí ].

Existuje několik specializovaných úkolů založených na rozpoznávání, například:

  • Načítání obrázků podle obsahu - hledání všech obrázků ve větší sadě obrázků se specifickým obsahem. Obsah lze specifikovat různými způsoby, například z hlediska podobnosti relativního cílového obrázku (dejte mi všechny obrázky podobné obrázku X) nebo z hlediska kritérií vyhledávání na vysoké úrovni zadaných jako vstup textu (dejte mi všechny obrázky, které obsahují mnoho domů, které jsou převzaty v zimě a nemají v nich žádná auta).
Počítačové vidění pro počítadlo lidí účely na veřejných místech, v nákupních centrech, nákupních centrech

Analýza pohybu

Několik úkolů se týká odhadu pohybu, kdy se obrazová sekvence zpracovává tak, aby se vytvořil odhad rychlosti buď v každém bodě obrazu nebo ve 3D scéně, nebo dokonce v kameře, která obrazy vytváří. Příklady takových úkolů jsou:

  • Egomotion - určení 3D rigidního pohybu (rotace a translace) kamery ze sekvence obrazu vytvořené kamerou.
  • Sledování - sledování pohybů (obvykle) menší sady bodů zájmu nebo předmětů (např., vozidla, lidé nebo jiné organismy[28]) v sekvenci snímků.
  • Sledování pohybu vozidel pomocí Pythonu (knihovna cvlib)
    Optický tok - určit pro každý bod obrazu, jak se tento bod pohybuje vzhledem k rovině obrazu, tj., jeho zdánlivý pohyb. Tento pohyb je výsledkem jak pohybu příslušného 3D bodu ve scéně, tak i pohybu kamery vzhledem ke scéně.

Rekonstrukce scény

Vzhledem k jednomu nebo (obvykle) více obrazům scény nebo videu je cílem rekonstrukce scény výpočet 3D modelu scény. V nejjednodušším případě může být modelem sada 3D bodů. Složitější metody vytvářejí kompletní 3D model povrchu. Nástup 3D zobrazování, které nevyžaduje pohyb ani skenování, a související algoritmy zpracování umožňují rychlý pokrok v této oblasti. Mřížkové 3D snímání lze použít k získání 3D obrazů z více úhlů. Nyní jsou k dispozici algoritmy pro spojování více 3D obrazů do mračen bodů a 3D modelů.[21]

Obnova obrazu

Cílem obnovy obrazu je odstranění šumu (šum snímače, rozmazání pohybu atd.) Ze snímků. Nejjednodušším možným přístupem k odstranění šumu jsou různé typy filtrů, jako jsou dolní propusti nebo střední filtry. Sofistikovanější metody předpokládají model toho, jak vypadají místní obrazové struktury, aby se odlišily od hluku. Nejprve analyzováním obrazových dat z hlediska místních obrazových struktur, jako jsou čáry nebo hrany, a následným ovládáním filtrování na základě místních informací z kroku analýzy, je obvykle dosaženo lepší úrovně odstranění šumu ve srovnání s jednoduššími přístupy.

Příkladem v této oblasti je malování.

Systémové metody

Organizace systému počítačového vidění je vysoce závislá na aplikacích. Některé systémy jsou samostatné aplikace, které řeší konkrétní problém měření nebo detekce, zatímco jiné představují subsystém většího designu, který například obsahuje také subsystémy pro ovládání mechanických akčních členů, plánování, informační databáze, správu rozhraní stroje atd. Specifická implementace systému počítačového vidění závisí také na tom, zda je předem specifikována jeho funkčnost, nebo zda lze některou jeho část během provozu naučit nebo upravit. Mnoho funkcí je pro aplikaci jedinečných. Existují však typické funkce, které se nacházejí v mnoha systémech počítačového vidění.

  • Pořízení obrazu - Digitální obraz vytváří jeden nebo několik obrazové senzory, které kromě různých typů kamer citlivých na světlo zahrnují snímače vzdálenosti, tomografická zařízení, radar, ultrazvukové kamery atd. V závislosti na typu snímače jsou výslednými obrazovými daty běžný 2D obraz, 3D svazek nebo obrazová sekvence. Hodnoty pixelů obvykle odpovídají intenzitě světla v jednom nebo několika spektrálních pásmech (šedé obrazy nebo barevné obrazy), ale mohou také souviset s různými fyzikálními opatřeními, jako je hloubka, absorpce nebo odrazivost zvukových nebo elektromagnetických vln, nebo nukleární magnetická rezonance.[25]
  • Předběžné zpracování - Než lze metodu počítačového vidění použít na obrazová data za účelem získání určité konkrétní informace, je obvykle nutné data zpracovat, aby bylo zajištěno, že splňují určité předpoklady plynoucí z této metody. Příklady:
    • Opětovné vzorkování k zajištění správnosti souřadnicového systému obrazu.
    • Redukce šumu zajišťuje, že šum snímače nezavádí nepravdivé informace.
    • Vylepšení kontrastu zajišťuje, že lze detekovat relevantní informace.
    • Měřítko prostoru reprezentace ke zlepšení struktur obrazu v místně vhodných měřítcích.
  • Extrakce funkcí - Z obrazových dat jsou extrahovány obrazové prvky na různých úrovních složitosti.[25] Typickými příklady takových funkcí jsou:
Složitější funkce mohou souviset s texturou, tvarem nebo pohybem.
  • Detekce /segmentace - V určitém okamžiku zpracování se rozhodne o tom, které obrazové body nebo oblasti obrazu jsou relevantní pro další zpracování.[25] Příklady:
    • Výběr konkrétní sady bodů zájmu.
    • Segmentace jedné nebo více oblastí obrazu, které obsahují konkrétní objekt zájmu.
    • Segmentace obrazu do vnořené architektury scény zahrnující popředí, skupiny objektů, jednotlivé objekty nebo výběžek objekt[30] části (označované také jako hierarchie scény prostorových taxonů),[31] zatímco vizuální nápad je často implementován jako prostorový a časová pozornost.
    • Segmentace nebo společná segmentace jednoho nebo více videí do řady masek popředí na snímek při zachování jeho časové sémantické kontinuity.[32][33]
  • Zpracování na vysoké úrovni - V tomto kroku je vstupem obvykle malá sada dat, například sada bodů nebo oblast obrazu, o které se předpokládá, že obsahuje konkrétní objekt.[25] Zbývající zpracování se zabývá například:
    • Ověření, že data splňují předpoklady založené na modelu a konkrétní aplikaci.
    • Odhad parametrů specifických pro aplikaci, jako je pozice objektu nebo velikost objektu.
    • Rozpoznávání obrazu - klasifikace detekovaného objektu do různých kategorií.
    • Registrace obrázku - porovnání a kombinace dvou různých pohledů na stejný objekt.
  • Rozhodování Učinit konečné rozhodnutí požadované pro žádost,[25] například:
    • Vyhovět / selhat v aplikacích automatické kontroly.
    • Shoda / žádná shoda v aplikacích rozpoznávání.
    • Vlajka pro další kontrolu člověka v lékařských, vojenských, bezpečnostních a rozpoznávacích aplikacích.

Systémy pro porozumění obrazu

Systémy pro porozumění obrazu (IUS) zahrnují tři úrovně abstrakce takto: nízká úroveň zahrnuje obrazová primitiva, jako jsou hrany, prvky textury nebo oblasti; střední úroveň zahrnuje hranice, povrchy a objemy; a vysoká úroveň zahrnuje objekty, scény nebo události. Mnoho z těchto požadavků je zcela tématem dalšího výzkumu.

Reprezentativní požadavky při navrhování IUS pro tyto úrovně jsou: reprezentace prototypových konceptů, organizace konceptů, prostorové znalosti, časové znalosti, škálování a popis srovnáním a diferenciací.

Zatímco inference odkazuje na proces odvozování nových, nikoli výslovně zastoupených faktů z aktuálně známých faktů, kontrola odkazuje na proces, který vybírá, která z mnoha technik odvozování, hledání a párování by měla být použita v konkrétní fázi zpracování. Inferenční a kontrolní požadavky pro IUS jsou: vyhledávání a aktivace hypotéz, párování a testování hypotéz, generování a použití očekávání, změna a zaměření pozornosti, jistota a síla víry, inference a spokojenost s cílem.[34]

Hardware

Nový iPad obsahuje lidar senzor

Existuje mnoho druhů systémů počítačového vidění; všechny však obsahují tyto základní prvky: zdroj energie, alespoň jedno zařízení pro získávání obrazu (kamera, ccd atd.), procesor a ovládací a komunikační kabely nebo nějaký druh bezdrátového propojovacího mechanismu. Praktický kamerový systém navíc obsahuje software a displej, který monitoruje systém. Kamerové systémy pro vnitřní prostory, stejně jako většina průmyslových, obsahují osvětlovací systém a mohou být umístěny v kontrolovaném prostředí. Dokončený systém dále zahrnuje mnoho příslušenství, jako jsou podpěry fotoaparátu, kabely a konektory.

Většina systémů počítačového vidění používá kamery viditelného světla pasivně sledující scénu se snímkovou frekvencí maximálně 60 snímků za sekundu (obvykle mnohem pomalejší).

Několik systémů počítačového vidění používá hardware pro získávání obrazu s aktivním osvětlením nebo něčím jiným než viditelným světlem nebo obojím, například 3D skenery se strukturovaným světlem, termografické kamery, hyperspektrální zobrazovače, radarové zobrazování, lidar skenery, obrazy magnetické rezonance, boční sonar, sonar se syntetickou clonou atd. Takový hardware zachycuje „obrazy“, které se pak často zpracovávají pomocí stejných algoritmů počítačového vidění, jaké se používají ke zpracování obrazů ve viditelném světle.

Zatímco tradiční vysílací a spotřebitelské videosystémy pracují rychlostí 30 snímků za sekundu, pokroky zpracování digitálních signálů a spotřební grafický hardware umožnil vysokorychlostní získávání, zpracování a zobrazování obrazu pro systémy v reálném čase v řádu stovek až tisíců snímků za sekundu. Pro aplikace v robotice jsou kritické důležité rychlé videosystémy v reálném čase, které často mohou zjednodušit zpracování potřebné pro určité algoritmy. V kombinaci s vysokorychlostním projektorem umožňuje rychlé pořízení obrazu 3D měření a sledování funkcí.[35]

Egocentrické vidění systémy se skládají z nositelného fotoaparátu, který automaticky pořizuje snímky z pohledu první osoby.

Od roku 2016 jednotky zpracování obrazu se objevují jako nová třída procesorů, která doplňuje CPU a jednotky grafického zpracování (GPU) v této roli.[36]

Viz také

Seznamy

Reference

  1. ^ A b Dana H. Ballard; Christopher M. Brown (1982). Počítačové vidění. Prentice Hall. ISBN  978-0-13-165316-0.
  2. ^ A b Huang, T. (1996-11-19). Vandoni, Carlo, E (ed.). Počítačové vidění: vývoj a slib (PDF). 19. výpočetní škola CERN. Ženeva: CERN. 21–25. doi:10.5170 / CERN-1996-008.21. ISBN  978-9290830955.
  3. ^ A b Milan Sonka; Václav Hlavac; Roger Boyle (2008). Zpracování obrazu, analýza a strojové vidění. Thomson. ISBN  978-0-495-08252-1.
  4. ^ A b Reinhard Klette (2014). Stručné počítačové vidění. Springer. ISBN  978-1-4471-6320-6.
  5. ^ A b Linda G. Shapiro; George C. Stockman (2001). Počítačové vidění. Prentice Hall. ISBN  978-0-13-030796-5.
  6. ^ A b C Tim Morris (2004). Computer Vision and Image Processing. Palgrave Macmillan. ISBN  978-0-333-99451-1.
  7. ^ A b Bernd Jähne; Horst Haußecker (2000). Počítačové vidění a aplikace, Průvodce pro studenty a odborníky z praxe. Akademický tisk. ISBN  978-0-13-085198-7.
  8. ^ A b David A. Forsyth; Jean Ponce (2003). Computer Vision, A Modern Approach. Prentice Hall. ISBN  978-0-13-085198-7.
  9. ^ http://www.bmva.org/visionoverview Archivováno 16. 02. 2017 na Wayback Machine The British Machine Vision Association and Society for Pattern Recognition Retrieved February 20, 2017
  10. ^ Murphy, Mike. "Star Trek's "tricorder" medical scanner just got closer to becoming a reality".
  11. ^ A b C d Richard Szeliski (30 September 2010). Počítačové vidění: Algoritmy a aplikace. Springer Science & Business Media. s. 10–16. ISBN  978-1-84882-935-0.
  12. ^ Papert, Seymour (1966-07-01). "The Summer Vision Project". MIT AI Memos (1959 - 2004). hdl:1721.1/6125.
  13. ^ Margaret Ann Boden (2006). Mind as Machine: A History of Cognitive Science. Clarendon Press. str. 781. ISBN  978-0-19-954316-8.
  14. ^ Takeo Kanade (6 December 2012). Three-Dimensional Machine Vision. Springer Science & Business Media. ISBN  978-1-4613-1981-8.
  15. ^ Nicu Sebe; Ira Cohen; Ashutosh Garg; Thomas S. Huang (3 June 2005). Machine Learning in Computer Vision. Springer Science & Business Media. ISBN  978-1-4020-3274-5.
  16. ^ William Freeman; Pietro Perona; Bernhard Scholkopf (2008). "Guest Editorial: Machine Learning for Computer Vision". International Journal of Computer Vision. 77 (1): 1. doi:10.1007/s11263-008-0127-7. ISSN  1573-1405.
  17. ^ Murray, Don, and Cullen Jennings. "Stereo vision based mapping and navigation for mobile robots." Proceedings of International Conference on Robotics and Automation. Vol. 2. IEEE, 1997.
  18. ^ "Information Engineering | Department of Engineering". www.eng.cam.ac.uk. Citováno 2018-10-03.
  19. ^ "Information Engineering Main/Home Page". www.robots.ox.ac.uk. Citováno 2018-10-03.
  20. ^ A b Steger, Carsten; Markus Ulrich; Christian Wiedemann (2018). Machine Vision Algorithms and Applications (2. vyd.). Weinheim: Wiley-VCH. str. 1. ISBN  978-3-527-41365-2. Citováno 2018-01-30.
  21. ^ A b C Soltani, A. A.; Huang, H .; Wu, J .; Kulkarni, T. D.; Tenenbaum, J. B. (2017). "Synthesizing 3D Shapes via Modeling Multi-View Depth Maps and Silhouettes With Deep Generative Networks". Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů: 1511–1519. doi:10.1109/CVPR.2017.269.
  22. ^ Turek, Fred (June 2011). "Machine Vision Fundamentals, How to Make Robots See". Časopis NASA Tech Briefs. 35 (6). pages 60–62
  23. ^ "The Future of Automated Random Bin Picking".
  24. ^ Wäldchen, Jana; Mäder, Patrick (01.01.2017). „Identifikace druhů rostlin pomocí technik počítačového vidění: Systematický přehled literatury“. Archivy výpočetních metod ve strojírenství. 25 (2): 507–543. doi:10.1007 / s11831-016-9206-z. ISSN  1134-3060. PMC  6003396. PMID  29962832.
  25. ^ A b C d E F E. Roy Davies (2005). Machine Vision: Theory, Algorithms, Practicalities. Morgan Kaufmann. ISBN  978-0-12-206093-9.
  26. ^ Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020-03-03). "Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces". ROBOMECH Journal. 7 (1): 11. doi:10.1186/s40648-020-00159-0. ISSN  2197-4225.
  27. ^ Choi, Seung-hyun; Tahara, Kenji (2020-03-12). "Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors". ROBOMECH Journal. 7 (1): 14. doi:10.1186/s40648-020-00162-5. ISSN  2197-4225.
  28. ^ A b Bruijning, Marjolein; Visser, Marco D .; Hallmann, Caspar A.; Jongejans, Eelke; Golding, Nick (2018). "trackdem: Automated particle tracking to obtain population counts and size distributions from videos in r". Metody v ekologii a evoluci. 9 (4): 965–973. doi:10.1111/2041-210X.12975. ISSN  2041-210X.
  29. ^ A b Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya; Bernstein, Michael; Berg, Alexander C. (December 2015). "ImageNet Large Scale Visual Recognition Challenge". International Journal of Computer Vision. 115 (3): 211–252. doi:10.1007 / s11263-015-0816-r. ISSN  0920-5691.
  30. ^ A. Maity (2015). "Improvised Salient Object Detection and Manipulation". arXiv:1511.02999 [cs.CV ].
  31. ^ Barghout, Lauren. "Visual Taxometric Approach to Image Segmentation Using Fuzzy-Spatial Taxon Cut Yields Contextually Relevant Regions." Information Processing and Management of Uncertainty in Knowledge-Based Systems. Springer International Publishing, 2014.
  32. ^ Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). "Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks" (PDF). Transakce IEEE na zpracování obrazu. 27 (12): 5840–5853. Bibcode:2018ITIP...27.5840L. doi:10.1109/tip.2018.2859622. ISSN  1057-7149. PMID  30059300. S2CID  51867241. Archivovány od originál (PDF) dne 07.09.2018. Citováno 2018-09-14.
  33. ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). "Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation" (PDF). Senzory. 18 (5): 1657. doi:10.3390/s18051657. ISSN  1424-8220. PMC  5982167. PMID  29789447.
  34. ^ Shapiro, Stuart C. (1992). Encyclopedia of Artificial Intelligence, Volume 1. New York: John WIley & Sons, Inc. pp. 643–646. ISBN  978-0-471-50306-4.
  35. ^ Kagami, Shingo (2010). "High-speed vision systems and projectors for real-time perception of the world". 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops. IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Workshops. 2010. pp. 100–107. doi:10.1109/CVPRW.2010.5543776. ISBN  978-1-4244-7029-7. S2CID  14111100.
  36. ^ Seth Colaner (January 3, 2016). "A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU". www.tomshardware.com.

Další čtení

externí odkazy