Vizuální slovo - Visual Word
![]() | Tento článek je hlavní část není adekvátně shrnout klíčové body jeho obsahu. Zvažte prosím rozšíření potenciálního zákazníka na poskytnout přístupný přehled všech důležitých aspektů článku. (Květen 2012) |

Vizuální slova, jak se používá v načítání obrázků systémy,[1] odkazují na malé části obrazu, které nesou určitý druh informací souvisejících s vlastnostmi (jako je barva, tvar nebo struktura) nebo změny, ke kterým dochází v pixelů jako je filtrování, deskriptory funkcí na nízké úrovni (PROSÍT, SURFOVAT, ...atd.).
Dějiny
Přístupy načítání textu systém (nebo vyhledávání informací IR systém [1]), který se vyvíjel více než 40 let, vychází z klíčová slova nebo termín. Výhodou těchto přístupů je zejména skutečnost, že jsou efektivní a rychlé. Textové vyhledávače jsou schopni rychle najít dokumenty od stovek nebo milionů (pomocí vektorový vesmírný model [2]). Současně mají systémy pro vyhledávání textu obrovský úspěch, standardní systémy pro vyhledávání obrázků (jako je jednoduché vyhledávání podle barev, tvarů ... atd.) Mají velké množství omezení. V důsledku toho se vědci snaží využít výhod technik načítání textu, aby je mohli aplikovat načítání obrázků. To může být díky novému druhu vize porozumět obrazům jako textové dokumenty, což je vizuální přístup slov.[3]
Analogický textový obrázek
Uvažujme, že pixely obrazu, které jsou nejmenšími částmi v digitální obrázky (nelze je rozdělit na menší), jsou jako písmena abecedního jazyka. Pak je sada pixelů v obrázku (záplaty nebo pole pixelů) slovo. Každé slovo lze poté znovu zpracovat do morfologického systému, aby se získal výraz související s tímto slovem. Několik slov pak může mít stejný význam, každé bude odkazovat na stejný výraz (jako v jakémkoli jazyce). Více než jedno slovo sdílelo stejný význam a patří ke stejnému výrazu (mají stejné informace). Z tohoto pohledu mohou vědci využít techniky načítání textu k jejich použití v systému načítání obrázků.
Vizuální definice

Použijeme-li tento princip na obrázky, musíme najít, jaká slova a výrazy budou v našich obrázcích. Cílem je pokusit se porozumět obrazům jako sbírka „vizuálních slov“.
Definice 1: Vizuální slovo: [4] je to malá záplata na obrázku (pole pixelů), která může nést jakoukoli zajímavou informaci v jakémkoli prostoru funkcí (změny barev, změny textury ... atd.).
Obecně platí, že vizuální slova (VW) existují v jejich charakteristickém prostoru spojitých hodnot, což znamená obrovské množství slov, a tedy obrovský jazyk. Vzhledem k tomu, že systémy pro vyhledávání obrázků potřebují používat techniky vyhledávání textu, které jsou závislé na přirozených jazycích a tyto systémy mají omezený počet výrazů a slov, je důležité snížit počet vizuálních slov.
K řešení tohoto problému existuje řada řešení, jedním z nich je rozdělení prostoru funkcí na rozsahy, z nichž každé má společné charakteristiky (které lze považovat za stejné slovo), nicméně toto řešení má mnoho problémů, jako je strategie dělení, velikost rozsahu v prostoru funkcí atd. Další řešení navržené vědci využívá shlukovací mechanismus ke klasifikaci a sloučení slov nesoucích běžné informace v konečném počtu pojmů.
Definice 2: Vizuální pojem: je to výsledek shlukování v prostoru funkcí (středy klastrů), více než jedna oprava může poskytnout nejbližší informace v prostoru funkcí, takže je můžeme považovat za stejný termín.
Protože výraz v textu (sloveso nekonečna, podstatná jména, články ... atd.) Odkazuje na mnoho běžných slov, které mají stejné vlastnosti, vizuální výraz (jako výsledek jeho shlukování), bude odkazovat na všechna běžná slova, která sdílely stejné informace v prostoru funkcí.
A pokud všechny obrázky odkazují na stejnou sadu vizuálních výrazů, pak všechny obrázky mohou mluvit stejným jazykem (nebo vizuální jazyk ).
Definice 3: Vizuální jazyk: je to sada vizuálních slov a vizuálních termínů, (samotný vizuální výraz můžeme považovat za „vizuální slovník“, který bude referencí a vyhledávací systém bude na něm záviset při načítání obrázků).
A všechny obrázky budou reprezentovány tímto vizuálním jazykem jako sbírka vizuálních slov (VW) nebo jak jej lze nazvat pytel vizuálních slov
Definice 4: Pytel vizuálních slov: [4] je to sbírka vizuálních slov, která společně mohou poskytnout informace o významu obrázku vůbec (nebo jeho částí).
Na základě tohoto druhu obrazové reprezentace pak můžeme použít techniky načítání textu k návrhu systému načítání obrázků. Protože však všechny systémy pro načítání textu závisí na podmínkách, obrázky dotazu uživatele musí být převedeny na sadu vizuálních podmínek v systému. Poté porovná tyto vizuální pojmy se všemi vizuálními pojmy v databázi.
Viz také
- Načítání obrázků a videí na základě obsahu
- Rozpoznávání obličejů
- Načítání textových informací
- Model bag-of-words v počítačovém vidění
Reference
- ^ A b BAEZA-YATES, R. A .; RIBEIRO-NETO, B. A. (1999), Moderní vyhledávání informací, ACM Press Addison-Wesley
- ^ SALTON, G. (1971), Systém SMART Retrieval
- ^ JURIE, F .; TRIGGS, B. (2005), Vytváření efektivních číselníků pro vizuální rozpoznávání
- ^ A b Yang, červen; Jiang, Yu-Gang; Yu-Gang, Hauptmann; Ngo, Chong-Wah (2007), Vyhodnocování reprezentace bag-of-visual-words při klasifikaci scén, Augsburg, Bavorsko, Německo: ACM