LabelMe - LabelMe

LabelMe je projekt vytvořený Laboratoř informatiky a umělé inteligence MIT (CSAIL), který poskytuje a datová sada z digitální obrázky s anotace. Datová sada je dynamická, volně použitelná a otevřená pro veřejný příspěvek. Nejvhodnější použití LabelMe je v počítačové vidění výzkum. K 31. říjnu 2010 má LabelMe 187 240 obrázků, 62 197 anotovaných obrázků a 658 992 označených objektů.

Motivace

Motivace při vytváření LabelMe pochází z historie veřejně dostupných dat pro výzkumníky počítačového vidění. Většina dostupných údajů byla přizpůsobena problémům konkrétní výzkumné skupiny a způsobila, že noví vědci museli sbírat další údaje, aby mohli vyřešit své vlastní problémy. LabelMe byl vytvořen s cílem vyřešit několik běžných nedostatků dostupných dat. Následuje seznam vlastností, které odlišují LabelMe od předchozí práce.

  • Navržený pro uznání třídy objektů namísto jednotlivých instancí objektu. Například tradiční datový soubor může obsahovat obrázky psů, každý stejné velikosti a orientace. Naproti tomu LabelMe obsahuje obrázky psů v různých úhlech, velikostech a orientacích.
  • Navrženo pro rozpoznávání objektů vložených do libovolných scén namísto obrázků, které jsou oříznutý, normalizováno a / nebo velikost zobrazit jeden objekt.
  • Složitá anotace: Namísto označení celého obrázku (který také omezuje každý obrázek na jeden objekt) umožňuje LabelMe anotaci více objektů v obrázku zadáním a polygon ohraničující rámeček, který obsahuje objekt.
  • Obsahuje velké množství tříd objektů a umožňuje snadné vytváření nových tříd.
  • Různorodé obrázky: LabelMe obsahuje obrázky z mnoha různých scén.
  • Poskytuje ne-chráněno autorskými právy obrázky a umožňuje veřejné doplnění anotací. Tím se vytvoří svobodné prostředí.

Anotační nástroj

Annotační nástroj LabelMe poskytuje uživatelům prostředky, jak přispět do projektu. K nástroji lze přistupovat anonymně nebo po přihlášení do bezplatného účtu. Pro přístup k nástroji musí mít uživatelé kompatibilní webový prohlížeč s JavaScript Podpěra, podpora. Po načtení nástroje vybere náhodný obrázek z datové sady LabelMe a zobrazí jej na obrazovce. Pokud k obrázku již jsou přidruženy popisky objektů, budou překryty v horní části obrázku ve formátu mnohoúhelníku. Každý odlišný štítek objektu je zobrazen v jiné barvě.

Pokud obrázek není úplně označen, může uživatel použít myš nakreslit mnohoúhelník obsahující objekt v obrázku. Například na sousedním obrázku, pokud osoba stála před budovou, mohl uživatel kliknout na bod na okraji osoby a pokračovat v klikání podél vnějšího okraje, dokud se nevrátí do počátečního bodu. Jakmile je mnohoúhelník uzavřen, na obrazovce se objeví bublina, která umožňuje uživateli zadat štítek objektu. Uživatel si může vybrat jakýkoli štítek, který podle jeho názoru nejlépe popisuje objekt. Pokud uživatel nesouhlasí s předchozím označením obrázku, může uživatel kliknout na obrysový polygon objektu a buď polygon zcela odstranit, nebo upravit textový štítek a dát mu nový název.

Jakmile uživatel provede změny v obraze, uloží se a budou k dispozici pro kohokoli ke stažení z datové sady LabelMe. Tímto způsobem se data vždy mění kvůli příspěvkům komunity uživatelů, kteří nástroj používají. Jakmile uživatel dokončí obrázek, Ukaž mi další obrázek lze kliknout na odkaz a vybrat další náhodný obrázek, který se uživateli zobrazí.

Problémy s daty

Datová sada LabelMe má nějaké problémy. Některá jsou inherentní datům, například objekty v obrazech nejsou rovnoměrně rozloženy s ohledem na velikost a umístění obrazu. To je způsobeno snímky, které pořizují především lidé, kteří mají tendenci zaostřovat fotoaparát na zajímavé objekty ve scéně. Oříznutí a změna měřítka obrázků však může simulovat rovnoměrné rozložení.[1] Další problémy jsou způsobeny velikostí svobody poskytované uživatelům anotačního nástroje. Objevují se některé problémy:

  • Uživatel si může vybrat, které objekty ve scéně se mají obrysovat. Měl by uzavřený osoba být označena? Měla by být při obrysu objektu zahrnuta uzavřená část objektu? Mělo by být označeno nebe?
  • Uživatel musí sám popsat tvar objektu načrtnutím mnohoúhelníku. Měly by být prsty ruky na osobě načrtnuty podrobně? Kolik přesnosti musí být použito při obrysu předmětů?
  • Uživatel si vybere, jaký text má zadat jako popisek pro objekt. Měl by být štítek osoba, mužnebo pěší?

Tvůrci LabelMe se rozhodli ponechat tato rozhodnutí na anotátorovi. Důvodem je to, že věří, že lidé budou mít tendenci komentovat obrázky podle toho, co považují za přirozené označení obrázků. To také poskytuje určitou variabilitu dat, která může vědcům pomoci vyladit je algoritmy zohlednit tuto variabilitu.[2]

Rozšíření dat

Pomocí WordNet

Vzhledem k tomu, že textové popisky pro objekty poskytované v LabelMe pocházejí ze vstupu uživatele, existuje mnoho variací použitých popisků (jak je popsáno výše). Z tohoto důvodu může být analýza objektů obtížná. Například obrázek psa může být označen jako Pes, psí, ohař, poochnebo zvíře. V ideálním případě při použití dat třída objektu Pes na abstraktní úrovni by měly zahrnovat všechny tyto textové štítky.

WordNet je databáze slov strukturovaná strukturou. Umožňuje přiřadit slovo do kategorie nebo v jazyce WordNet: smysl. Přiřazení smyslů není snadné udělat automaticky. Když autoři LabelMe vyzkoušeli automatické přiřazení smyslů, zjistili, že je náchylný k vysoké míře chyb, takže místo toho přiřadili slova smyslům ručně. Zpočátku se to může zdát jako skličující úkol, protože do projektu LabelMe se neustále přidávají nové štítky. Vpravo je graf porovnávající růst polygonů s růstem slov (popisy). Jak vidíte, růst slov je ve srovnání s neustálým růstem polygonů malý, a proto je dostatečně snadné na to, aby ho tým LabelMe udržoval aktuální ručně.[3]

Jakmile je přiřazení WordNet hotové, hledání v databázi LabelMe je mnohem efektivnější. Například hledání zvíře může přinést obrázky psy, kočky a hadi. Vzhledem k tomu, že přiřazení bylo provedeno ručně, byl obrázek počítačové myši označen jako myš se nezobrazí při hledání zvířata. Také, pokud jsou objekty označeny složitějšími pojmy jako venčení psů, WordNet stále umožňuje vyhledávání Pes vrátit tyto objekty jako výsledky. Díky WordNet je databáze LabelMe mnohem užitečnější.

Hierarchie částí objektu

Mít velkou datovou sadu objektů, kde je povoleno překrývání, poskytuje dostatek dat k vyzkoušení a kategorizaci objektů jako součásti jiného objektu. Například většina přiřazených štítků kolo jsou pravděpodobně součástí objektů přiřazených k jiným štítkům jako auto nebo jízdní kolo. Tito se nazývají štítky dílů. Chcete-li zjistit, zda štítek P je označení dílu pro štítek Ó:[4]

  • Nechat označit sadu obrázků obsahujících objekt (např. auto)
  • Nechat označit sadu obrázků obsahujících část (např. kolo)
  • Nechte překrývat skóre mezi objekty Ó a část P, , být definován jako poměr průsečíku k ploše polygonu součásti. (např. )
  • Nechat označit obrázky, kde mají polygony objektů a částí kde je nějaká prahová hodnota. Autoři LabelMe používají
  • Skóre objektové části pro kandidátský štítek je kde a je počet obrázků v a , respektive, a je parametr koncentrace. Autoři LabelMe používají .

Tento algoritmus umožňuje automatickou klasifikaci částí objektu, pokud jsou objekty dílů často obsaženy ve vnějším objektu.

Řazení hloubky objektu

Další instance překrytí objektu je, když je jeden objekt ve skutečnosti nad druhým. Například obrázek může obsahovat osobu stojící před budovou. Osoba není označení dílu jak je uvedeno výše, protože osoba není součástí budovy. Místo toho jsou to dva samostatné objekty, které se náhodou překrývají. Aby autoři LabelMe automaticky určili, který objekt je v popředí a co pozadí, navrhují několik možností:[5]

  • Pokud je objekt zcela obsažen v jiném objektu, pak musí být vnitřní objekt v popředí. Jinak by to na obrázku nebylo vidět. Jedinou výjimkou jsou průhledné nebo průsvitné objekty, ale ty se vyskytují jen zřídka.
  • Jeden z objektů lze označit jako něco, co nemůže být v popředí. Příklady jsou nebe, přízemnínebo silnice.
  • Objekt s více polygonovými body uvnitř protínající se oblasti je pravděpodobně v popředí. Autoři testovali tuto hypotézu a zjistili, že je vysoce přesná.
  • Průsečík histogramu[6] může být použito. K tomu, a barevný histogram v protínajících se oblastech je porovnáván s barevným histogramem dvou objektů. Objekt s bližším barevným histogramem je přiřazen jako popředí. Tato metoda je méně přesná než počítání polygonových bodů.

Sada nástrojů Matlab

Projekt LabelMe poskytuje sadu nástrojů pro používání datové sady LabelMe z Matlabu. Jelikož se výzkum často provádí v Matlabu, umožňuje to integraci datové sady se stávajícími nástroji do počítačového vidění. Celý soubor dat lze stáhnout a použít offline, nebo sada nástrojů umožňuje dynamické stahování obsahu na vyžádání.

Viz také

Reference

Bibliografie
  • Russell, Bryan C .; Torralba, Antonio; Murphy, Kevin P .; Freeman, William T. (2008). "Označení : Databázový a webový nástroj pro anotaci obrázků " (PDF). International Journal of Computer Vision. 77 (1–3): 157–173. doi:10.1007 / s11263-007-0090-8. S2CID  1900911.
  • Swain, Michael J .; Ballard, Dana H. (1991). "Barevné indexování". International Journal of Computer Vision. 7: 11–32. doi:10.1007 / BF00130487. S2CID  8167136.

externí odkazy