Vizuální Turingův test - Visual Turing Test
![](http://upload.wikimedia.org/wikipedia/commons/thumb/6/61/Sample_questions.png/330px-Sample_questions.png)
Počítačové vidění výzkum je řízen standardními postupy hodnocení. Současné systémy jsou testovány podle jejich přesnosti pro úkoly jako detekce objektů, segmentace a lokalizace. Metody jako konvoluční neuronové sítě Zdá se, že si v těchto úkolech vedou docela dobře, ale současné systémy stále nejsou blízko řešení konečného problému porozumění obrazům tak, jak to dělají lidé. Takže motivováni schopností lidí porozumět obrazu a dokonce o něm vyprávět příběh, Gemane et al. zavedli Vizuální Turingův test pro systémy počítačového vidění.
Jak je popsáno v,[1] je to „operátorem asistované zařízení, které vyrábí a stochastický posloupnost binárních otázek z daného testovacího obrazu “.[1] Dotazovací stroj vytváří sled otázek, které mají vzhledem k historii otázek nepředvídatelné odpovědi. Test je pouze o zraku a nevyžaduje žádné zpracování přirozeného jazyka. Úkolem lidského operátora je poskytnout správnou odpověď na otázku nebo ji odmítnout jako nejednoznačnou. Generátor dotazů vytváří otázky tak, že sledují „přirozenou linii příběhu“, podobnou tomu, co dělají lidé, když se dívají na obrázek.
Dějiny
Výzkum v oblasti počítačového vidění sahá až do 60. let, kdy Seymour Papert nejprve se pokusil problém vyřešit. Tento neúspěšný pokus byl označován jako Projekt Letní vize. Důvodem, proč to nebylo úspěšné, bylo to, že počítačové vidění je složitější, než si lidé myslí. Složitost je v souladu s lidským vizuálním systémem. Zhruba 50% lidského mozku je věnováno zpracování vidění, což jasně naznačuje, že jde o obtížný problém.
Později se objevily pokusy vyřešit problémy s modely inspirovanými lidským mozkem. Perceptrony podle Frank Rosenblatt, což je forma neuronové sítě, byl jedním z prvních takových přístupů. Tyto jednoduché neuronové sítě nemohly splnit jejich očekávání a měly určitá omezení, kvůli nimž nebyly v budoucím výzkumu brány v úvahu.
Později s dostupností hardwaru a určité výpočetní síly se výzkum přesunul k zpracování obrazu což zahrnuje operace na úrovni pixelů hledání hran, odstranění šumu nebo použití filtrů, abychom jmenovali alespoň některé. V této oblasti došlo k velkému pokroku, ale problém vidění, kterým bylo zajistit, aby stroje porozuměly obrazům, stále nebyl vyřešen. Během této doby se také znovu objevily neurální sítě, protože se ukázalo, že omezení perceptronů lze překonat Vícevrstvé perceptrony. Také na počátku 90. let konvoluční neuronové sítě se narodili, kteří vykazovali skvělé výsledky při rozpoznávání číslic, ale při těžších problémech se dobře nezvýšili.
Na konci 90. let a na počátku 2000 se zrodilo moderní počítačové vidění. Jedním z důvodů, proč se to stalo, byla dostupnost klíče, extrakce funkcí a reprezentační algoritmy. Funkce spolu s již přítomnými strojové učení k detekci, lokalizaci a segmentaci objektů v obrazech byly použity algoritmy.
Zatímco se všechna tato vylepšení prováděla, komunita cítila potřebu mít standardizované datové sady a metriky hodnocení, aby bylo možné výkony srovnávat. To vedlo ke vzniku výzev, jako je výzva Pascal VOC a ImageNet výzva. Směrování k výzkumu poskytla dostupnost standardních metrik hodnocení a otevřené výzvy. Byly zavedeny lepší algoritmy pro konkrétní úkoly, jako je detekce a klasifikace objektů.
Visual Turing Test si klade za cíl dát nový směr výzkumu počítačového vidění, který by vedl k zavedení systémů, které budou o krok blíže k porozumění obrazům tak, jak to dělají lidé.
Současné postupy hodnocení
Velké množství datových sad bylo anotováno a zobecněno, aby bylo možné srovnávat výkony odlišných tříd algoritmů pro hodnocení různých úkolů vidění (např. Detekce / rozpoznávání objektů) v některé doméně obrazu (např. Obrazy scény).
Jeden z nejznámějších datových souborů v počítačovém vidění je ImageNet který se používá k posouzení problému klasifikace obrazu na úrovni objektu. ImageNet je jedním z největších dostupných anotovaných datových sad a má více než jeden milion obrázků. Dalším důležitým úkolem vidění je detekce a lokalizace objektu, která odkazuje na detekci instance objektu v obraze a poskytnutí souřadnic ohraničujícího rámečku kolem instance objektu nebo segmentaci objektu. Nejoblíbenější datovou sadou pro tento úkol je datová sada Pascal. Podobně existují další datové sady pro konkrétní úkoly, jako je H3D[2] datová sada pro detekci lidské pozice, základní datová sada k vyhodnocení kvality atributů detekovaného objektu, jako je barva, orientace a aktivita.
Mít tyto standardní datové sady pomohlo komunitě vize přijít s extrémně dobře fungujícími algoritmy pro všechny tyto úkoly. Dalším logickým krokem je vytvoření většího úkolu zahrnujícího tyto menší dílčí úkoly. Mít takový úkol by vedlo k vytvoření systémů, které by porozuměly obrazům, protože porozumění obrazům by ve své podstatě zahrnovalo detekci objektů, jejich lokalizaci a segmentaci.
Detaily
Vizuální Turingův test (VTT) na rozdíl od Turingův test má systém dotazovacího stroje, který vyslýchá systém počítačového vidění za přítomnosti lidského koordinátora.
Jedná se o systém, který generuje náhodnou sekvenci binárních otázek specifických pro testovací obraz, takže odpovídá na jakoukoli otázku k je nepředvídatelné vzhledem k pravdivé odpovědi na předchozí k - 1 otázka (známá také jako historie otázek).
Test se provádí za přítomnosti lidského operátora, který slouží dvěma hlavním účelům: vyjmutí dvojznačný otázky a poskytnutí správných odpovědí na jednoznačné otázky. Vzhledem k obrázku je možné položit nekonečné možné binární otázky a mnoho z nich musí být nejednoznačné. Tyto otázky, pokud jsou vygenerovány vyhledávacím modulem, jsou odebrány moderátorem člověka a místo toho vygeneruje dotazovací modul další otázku tak, že odpověď na ni je vzhledem k historii otázek nepředvídatelná.
Cílem vizuálního Turingova testu je vyhodnotit porozumění obrazu počítačového systému a důležitou součástí porozumění obrazu je příběhová linie obrazu. Když se lidé dívají na obrázek, nemyslí si, že v „X‘Pixely zleva a‘y„Pixely shora, ale místo toho se na to dívají jako na příběh, například mohli by si myslet, že na silnici stojí auto, člověk opouští auto a míří k budově. Nejdůležitějšími prvky příběhové linie jsou objekty, takže pro získání jakékoli příběhové linie z obrázku je prvním a nejdůležitějším úkolem vytvořit instanci objektů v ní, a to je to, co dotazovací modul dělá.
Dotazovací modul
Dotazovací modul je jádrem Vizuálního Turingova testu a skládá se ze dvou hlavních částí: Slovník a Dotazy
Slovní zásoba
Slovník je sada slov, která představují prvky obrázků. Tento slovník při použití s příslušnou gramatikou vede k souboru otázek. Gramatika je v následující části definována tak, že vede k prostoru binárních otázek.
Slovník skládá se ze tří složek:
- Druhy objektů
- Atributy objektů závislé na typu
- Vztahy závislé na typu mezi dvěma objekty
U snímků městských pouličních scén jsou zahrnuty typy objektů lidé, vozidlo a budovy. Atributy odkazují na vlastnosti těchto objektů, například žena, dítě, nosí klobouk nebo něco nosí, pro lidi a pohybující se, zaparkované, zastavené, viditelná jedna pneumatika nebo dvě pneumatiky pro vozidla. Vztahy mezi každou dvojicí tříd objektů mohou být buď „objednané“, nebo „neuspořádané“. Neuspořádané vztahy mohou zahrnovat mluvící, chůze spolu a objednané vztahy zahrnují vyšší, blíže k fotoaparátu, zakrývající, zakryté atd.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/3/35/Wregions.png/330px-Wregions.png)
Navíc se veškerá tato slovní zásoba používá v kontextu obdélníkových oblastí obrazu w in W, které umožňují lokalizaci objektů v obraze. Je možný extrémně velký počet těchto oblastí, což problém komplikuje, takže pro tento test se používají pouze oblasti v konkrétních měřítcích, které zahrnují 1/16 velikosti obrázku, 1/4 velikosti obrázku, 1/2 velikosti obrázku nebo větší.
Dotazy
Prostor pro otázky se skládá ze čtyř typů otázek:
- Existenční otázky: Cílem existujících otázek je najít v obraze nové objekty, které nebyly dříve jednoznačně identifikovány.
Jsou ve formě:
Qexistovat = 'Existuje instance objektu typu t s atributy A částečně viditelného v oblasti w, která nebyla dříve vytvořena?'
- Otázky jedinečnosti: Otázka jedinečnosti se pokouší jednoznačně identifikovat objekt a vytvořit jej instanci.
Quniq = 'Existuje jedinečná instance objektu typu t s atributy A částečně viditelného v oblasti w, která nebyla dříve vytvořena?'
Otázky týkající se jedinečnosti spolu s otázkami existence tvoří otázky týkající se instance. Jak již bylo zmíněno dříve, vytváření instancí objektů vede k dalším zajímavým otázkám a nakonec k dějové linii. Otázky jedinečnosti sledují otázky existence a pozitivní odpověď na ně vede k instanci objektu.
- Atributové otázky: Atributová otázka se pokusí najít více informací o objektu po jeho vytvoření instance. Takové otázky se mohou ptát na jeden atribut, spojení dvou atributů nebo disjunkci dvou atributů.
Qatt(Ót) = {'Má objekt ot mít atribut a? ' , 'Má objekt ot mít atribut a1 nebo atribut a2?' , 'Má objekt ot mít atribut a1 a atribut a2?'}
- Otázky týkající se vztahů: Po vytvoření instance více objektů zkoumá otázka vztahů vztah mezi dvojicemi objektů.
Qrel(Ót,Ót ') = 'Má objekt ot mít vztah r s objektem ot '?'
Podrobnosti implementace
Jak již bylo zmíněno dříve, jádrem Vizuálního Turingova testu je generátor dotazů, který generuje sekvenci binárních otázek tak, že odpověď na jakoukoli otázku k je nepředvídatelné vzhledem k správné odpovědi na předchozí k - 1 otázka. Jedná se o rekurzivní proces, vzhledem k historii otázek a jejich správným odpovědím se generátor dotazů buď zastaví, protože již neexistují žádné nepředvídatelné otázky, nebo náhodně vybere nepředvídatelnou otázku a přidá ji do historie.
Dříve definovaný prostor otázek implicitně omezuje tok otázek. Aby bylo jasnější, znamená to, že otázky týkající se atributů a vztahů nemohou předcházet instančním otázkám. Pouze v případě, že byly objekty vytvořeny v instanci, lze je dotázat na jejich atributy a vztahy k jiným dříve vytvořeným objektům. Vzhledem k historii můžeme omezit možné otázky, které ji mohou následovat, a tato sada otázek se označuje jako kandidátské otázky .
Úkolem je vybrat nepředvídatelnou otázku z těchto kandidátských otázek tak, aby odpovídala toku otázek, který si popíšeme v následující části. Za tímto účelem najděte nepředvídatelnost každé otázky mezi kandidátskými otázkami.
Nechat být binární náhodná proměnná, kde , pokud historie platí pro obrázek a v opačném případě. Nechat může být navrhovaná otázka a být odpovědí na otázku .
Poté najděte podmíněnou pravděpodobnost získání odpovědi Xq na otázku q vzhledem k historii H.
Vzhledem k této pravděpodobnosti je míra nepředvídatelnosti dána vztahem:
Blíže je 0, tím nepředvídatelnější je otázka. pro každou otázku se počítá. Otázky, pro které , jsou množinou téměř nepředvídatelných otázek a z nich je náhodně vybrána další otázka.
Tok otázek
Jak je popsáno v předchozí části, v prostoru otázek je implicitní uspořádání, podle kterého otázky atributů přicházejí po otázkách instancí a otázky vztahů přicházejí po otázkách atributů, jakmile bylo vytvořeno více objektů.
Proto dotazovací modul sleduje strukturu smyčky, kde nejprve vytvoří instanci objektu s otázkami existence a jedinečnosti, poté dotazy týkající se jeho atributů a poté jsou pro tento objekt položeny otázky vztahů se všemi dříve vytvořenými objekty.
Předběžné vyhledávání
Je zřejmé, že zajímavé otázky týkající se atributů a vztahů přicházejí po instančních otázkách, a proto se generátor dotazů zaměřuje na vytváření instancí co nejvíce objektů.
Instanční otázky se skládají jak z otázek existence, tak z otázek jedinečnosti, ale právě otázky jedinečnosti ve skutečnosti vytvářejí instanci objektu, pokud získají pozitivní odpověď. Pokud tedy generátor dotazů musí náhodně vybrat instanční otázku, upřednostňuje vybrat nepředvídatelnou otázku jedinečnosti, pokud je přítomna. Pokud taková otázka není k dispozici, generátor dotazů vybere otázku existence tak, že v budoucnu povede k otázce jedinečnosti s vysokou pravděpodobností. Generátor dotazů tedy v tomto případě provede vyhledávání dopředu.
Příběhová linie
Nedílnou součástí konečného cíle budování systémů, které dokáží porozumět obrazům tak, jak to dělají lidé, je příběhová linie. Lidé se snaží zjistit obrazovou linii v obrazu, který vidí. Generátor dotazů toho dosahuje kontinuitou v posloupnostech otázek.
To znamená, že jakmile byl objekt vytvořen, pokusí se ho prozkoumat podrobněji. Kromě nalezení jeho atributů a vztahu k ostatním objektům je lokalizace také důležitým krokem. Jako další krok se tedy generátor dotazů pokusí lokalizovat objekt v oblasti, kde byl poprvé identifikován, takže omezuje množinu instančních otázek na oblasti v původní oblasti.
Preference jednoduchosti
Preference jednoduchosti uvádí, že generátor dotazů by měl vybírat jednodušší otázky než ty komplikovanější. Jednodušší otázky jsou ty, které mají méně atributů. To dává pořadí otázek na základě počtu atributů a generátor dotazů upřednostňuje ty jednodušší.
Odhad předvídatelnosti
Chcete-li vybrat další otázku v pořadí, musí VTT odhadnout předvídatelnost každé navrhované otázky. To se provádí pomocí anotované tréninkové sady obrázků. Každý obrázek je opatřen ohraničujícím rámečkem kolem objektů a označen atributy a dvojice objektů jsou označeny vztahy.
Zvažte každý typ otázky zvlášť:
- Instaciační otázky: Odhad podmíněné pravděpodobnosti pro instanční otázky lze reprezentovat jako:
Otázka je zvažována pouze v případě, že jmenovatelem je alespoň 80 obrázků. Stav je velmi přísný a nemusí platit pro velký počet obrázků, protože každá otázka v historii vylučuje přibližně polovinu kandidátů (obrázky v tomto případě). Výsledkem je ořezávání historie a odstraňování otázek, které nemusí měnit podmíněnou pravděpodobnost. Kratší historie nám umožňuje odhadnout větší počet obrázků pro odhad pravděpodobnosti.
Prořezávání historie se provádí ve dvou fázích:- V první fázi jsou odstraněny všechny otázky týkající se atributů a vztahů za předpokladu, že přítomnost a vytváření instancí objektů závisí pouze na jiných objektech, nikoli na jejich atributech nebo vztazích. Rovněž jsou zrušeny všechny otázky týkající se existence odkazující na regiony nesouvislé s regionem, na který odkazuje navrhovaná otázka, s předpokladem, že pravděpodobnost přítomnosti objektu v místě se nemění s přítomností nebo nepřítomností předmětů na jiných místech než . A konečně všechny otázky jedinečnosti s negativní odpovědí odkazující na regiony oddělené od regionu, na který se odkazuje v navrhované otázce, jsou zrušeny s předpokladem, že otázky jedinečnosti s pozitivní odpovědí, pokud jsou vynechány, mohou změnit odpověď budoucích instančních otázek. Historie otázek získaných po této první fázi prořezávání lze označit jako .
- Ve druhé fázi se provádí prořezávání obrazu po obrázku. Nechat být otázkou jedinečnosti v která nebyla prořezána a je zachována v . Pokud je tato otázka v kontextu regionu, který je nesouvislý s regionem, na který se odkazuje v navrhované otázce, bude očekávaná odpověď na tuto otázku , kvůli omezením v první fázi. Ale pokud skutečná odpověď na tuto otázku pro tréninkový obraz je , pak se tento tréninkový obraz nezohledňuje pro odhad pravděpodobnosti a otázku je také zrušeno. Konečná historie otázek po tomto je a pravděpodobnost je dána:
- Atributové otázky: Odhad pravděpodobnosti pro otázky atributů závisí na počtu označených objektů spíše než na obrázcích, na rozdíl od otázek týkajících se instance.
Zvažte atributovou otázku formuláře: „Má předmět ot mít atribut a? “, kde je objekt typu a . Nechat být soubor atributů, o nichž je již známo, že k nim patří kvůli historii. Nechat být množinou všech anotovaných objektů (základní pravda) v tréninkové sadě a pro každý , nechť být typem objektu a být soubor atributů patřících do . Poté je odhad dán vztahem:
Toto je v zásadě poměr počtu, kolikrát byl objekt typu s atributy vyskytuje se v tréninkových datech, kolikrát byl objekt typu s atributy se vyskytuje v tréninkových datech. Vysoký počet atributů v vede k problému řídkosti podobnému instančním otázkám. Abychom to zvládli, rozdělili jsme atributy do podmnožin, které jsou přibližně nezávislé, podmíněné příslušností k objektu . Například pro osoba, atributy jako přejezd ulicí a stát v klidu nejsou nezávislé, ale oba jsou docela nezávislé na pohlaví osoby, zda je daná osoba dítě nebo dospělýa zda jsou něco nést nebo ne. Tyto podmíněné nezávislosti zmenšují velikost sady , a tím překonat problém řídkosti. - Vztahové otázky: Přístup k otázkám vztahů je stejný jako u otázek atributů, kde se místo počtu objektů uvažuje počet párů objektů a pro předpoklad nezávislosti jsou vztahy nezávislé na atributech souvisejících objektů a vztahů jsou na sobě nezávislé.
Příklad
Podrobný příklad sekvencí lze nalézt tady.[3]
Datová sada
Obrázky uvažované pro Gemane et al.[1] práce jsou soubory dat „městské pouliční scény“,[1] který má scény z ulic z různých měst po celém světě. Proto jsou pro tento experiment typy objektů omezeny na lidi a vozidla.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/c/c7/DatasetSample.png/330px-DatasetSample.png)
Další datová sada zavedená Institut Maxe Plancka pro informatiku je známý jako DAQUAR[4][5] datová sada, která obsahuje obrazy vnitřních scén v reálném světě. Ale oni[4] navrhnout jinou verzi vizuálního Turingova testu, který zaujme holistický přístup a očekává, že zúčastněný systém bude vykazovat lidský zdravý rozum.
![](http://upload.wikimedia.org/wikipedia/commons/thumb/0/02/Annotated_image.png/330px-Annotated_image.png)
Závěr
Toto je velmi nedávná práce publikovaná v časopise 9. března 2015 Řízení z Národní akademie věd, výzkumníky z Brown University a Univerzita Johna Hopkinse. Vyhodnocuje, jak systémy počítačového vidění chápou Obrazy ve srovnání s lidmi. V současné době je test napsán a vyšetřovatel je stroj, protože ústní hodnocení lidským vyšetřovatelem dává lidem nepřiměřenou výhodu, že jsou subjektivní, a také očekává odpovědi v reálném čase.
Očekává se, že Visual Turingův test dá nový směr výzkumu počítačového vidění. Společnosti jako Google a Facebook investují miliony dolarů do výzkumu počítačového vidění a snaží se vybudovat systémy, které se velmi podobají lidskému vizuálnímu systému. Nedávno Facebook oznámila svou novou platformu M, která se dívá na obrázek a poskytuje jeho popis, aby pomohla zrakově postiženým.[6] Tyto systémy by mohly fungovat dobře na VTT.
Reference
- ^ A b C d Geman, Donald; Geman, Stuart; Hallonquist, Neil; Younes, Laurent (2015-03-24). „Vizuální Turingův test pro systémy počítačového vidění“. Sborník Národní akademie věd. 112 (12): 3618–3623. Bibcode:2015PNAS..112,3618G. doi:10.1073 / pnas.1422953112. ISSN 0027-8424. PMC 4378453. PMID 25755262.
- ^ „H3D“. www.eecs.berkeley.edu. Citováno 2015-11-19.
- ^ "Vizuální Turingův test | Divize aplikované matematiky". www.brown.edu. Citováno 2015-11-19.
- ^ A b „Max-Planck-Institut für Informatik: Visual Turing Challenge“. www.mpi-inf.mpg.de. Citováno 2015-11-19.
- ^ Malinowski, Mateusz; Fritz, Mario (29.10.2014). "Směrem k výzvě vizuálního Turinga". arXiv:1410.8027 [cs.AI ].
- ^ Metz, Cade (27. října 2015). „Facebooková umělá inteligence umožňuje titulky pro nevidomé sama o sobě“. WIRED. Citováno 2015-11-19.