Strukturální podobnost - Structural similarity - Wikipedia
![]() | Zdá se, že hlavní přispěvatel do tohoto článku má úzké spojení s jeho předmětem.Březen 2019) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
The strukturální podobnost indexová míra (SSIM) je metoda pro předpovídání vnímané kvality digitální televize a filmových obrazů, jakož i dalších druhů digitálních obrazů a videí. SSIM se používá k měření podobnosti mezi dvěma obrazy. Index SSIM je a úplná referenční metrika; jinými slovy, měření nebo předpověď kvalita obrazu je založen na počátečním nekomprimovaném nebo nezkresleném obrázku jako reference.
SSIM je model založený na vnímání, který považuje degradaci obrazu za vnímaná změna strukturálních informací, a zároveň zahrnuje důležité percepční jevy, včetně výrazů maskování jasu a maskování kontrastu. Rozdíl s jinými technikami, jako je MSE nebo PSNR je to, že tyto přístupy odhadují absolutní chyby. Strukturální informace je myšlenka, že pixely mají silné vzájemné závislosti, zvláště když jsou prostorově blízko. Tyto závislosti nesou důležité informace o struktuře objektů ve vizuální scéně. Maskování jasu je jev, při kterém jsou zkreslení obrazu (v tomto kontextu) obvykle méně viditelná ve světlých oblastech, zatímco maskování kontrastu je jev, při kterém jsou zkreslení méně viditelná, pokud je v obraze významná aktivita nebo „struktura“.
Dějiny
Byl povolán předchůdce SSIM Univerzální index kvality (UQI) nebo Wang – Bovikův index, který vyvinuli Zhou Wang a Alan Bovik v roce 2001. To se vyvinulo díky jejich spolupráci s Hamidem Sheikhem a Eero Simoncelli, do aktuální verze SSIM, která byla zveřejněna v dubnu 2004 v Transakce IEEE na zpracování obrazu.[1] Kromě definování indexu kvality SSIM tento dokument poskytuje obecný kontext pro vývoj a hodnocení percepčních opatření kvality, včetně připojení k lidské vizuální neurobiologii a vnímání a přímé ověření indexu proti hodnocení lidských subjektů.
Základní model byl vyvinut v Laboratoři pro obrazové a video inženýrství (LIVE) na adrese Texaská univerzita v Austinu a dále rozvíjeny společně s Laboratory for Computational Vision (LCV) v Newyorská univerzita. Další varianty modelu byly vyvinuty v Image and Visual Computing Laboratory na adrese University of Waterloo a byly komerčně uvedeny na trh.
SSIM následně našel silné přijetí v komunitě zpracování obrazu. Dokument SSIM z roku 2004 byl citován více než 20 000krát Google Scholar,[2] což z něj činí jeden z nejlépe citovaných článků v oblasti zpracování obrazu a videoinženýrství. Bylo přiznáno Společnost pro zpracování signálů IEEE Cena za nejlepší papír za rok 2009.[3] Rovněž obdržela Společnost pro zpracování signálů IEEE Cena Sustained Impact Award za rok 2016 svědčí o tom, že příspěvek má neobvykle vysoký dopad po dobu nejméně 10 let po jeho zveřejnění.
Algoritmus
Index SSIM se počítá na různých oknech obrázku. Míra mezi dvěma okny a běžné velikosti N×N je:[4]
s:
- the průměrný z ;
- the průměrný z ;
- the rozptyl z ;
- the rozptyl z ;
- the kovariance z a ;
- , dvě proměnné pro stabilizaci rozdělení se slabým jmenovatelem;
- the dynamický rozsah hodnot pixelů (obvykle je to );
- a ve výchozím stavu.
Složky vzorce
Vzorec SSIM je založen na třech srovnávacích měřeních mezi vzorky a : jas (), kontrast () a struktura (). Jednotlivé porovnávací funkce jsou:[4]
s, kromě výše uvedených definic:
SSIM je pak vážená kombinace těchto komparativních opatření:
Nastavení váhy na 1, vzorec lze zredukovat do výše uvedené formy.
Matematické vlastnosti
SSIM uspokojuje nezápornost, identitu nerozporných a vlastnosti symetrie, ale ne nerovnost trojúhelníku, a proto není funkce vzdálenosti. Za určitých podmínek však může být SSIM převeden na normalizované kořenové měřítko MSE, což je funkce vzdálenosti.[5] Čtverec takové funkce není konvexní, ale je lokálně konvexní a kvazikonvexní,[5] SSIM je proveditelným cílem optimalizace.
Použití vzorce
Za účelem vyhodnocení kvality obrazu se tento vzorec obvykle používá pouze pro luma, ačkoli to může být také aplikováno na barvu (např. RGB ) hodnoty nebo chromatické (např. YCbCr ) hodnoty. Výsledný index SSIM je desetinná hodnota mezi -1 a 1 a hodnota 1 je dosažitelná pouze v případě dvou identických sad dat, a proto označuje dokonalou strukturní podobnost. Hodnota 0 označuje žádnou strukturální podobnost. U obrázku se obvykle počítá pomocí posuvného gaussovského okna o velikosti 11x11 nebo blokového okna o velikosti 8 × 8. Okno lze na obrázku posunout pixel po pixelu a vytvořit tak mapu kvality SSIM obrázku. V případě hodnocení kvality videa[6] autoři navrhují použít pouze podskupinu možných oken, aby se snížila složitost výpočtu.
Varianty
Multi-Scale SSIM
Pokročilejší forma SSIM, nazývaná Multiscale SSIM (MS-SSIM)[4] je prováděno na více stupnicích procesem několika fází dílčího vzorkování, což připomíná víceúrovňové zpracování v systému raného vidění. Ukázalo se, že funguje stejně dobře nebo lépe než SSIM v různých subjektivních databázích obrazů a videí.[4][7][8]
Třísložkový SSIM
Třísložkový SSIM (3-SSIM) je forma SSIM, která bere v úvahu skutečnost, že lidské oko může vidět rozdíly přesněji v texturovaných nebo okrajových oblastech než v hladkých oblastech.[9] Výsledná metrika se počítá jako vážený průměr SSIM pro tři kategorie oblastí: hrany, textury a hladké oblasti. Navrhovaná váha je 0,5 pro hrany, 0,25 pro texturované a hladké oblasti. Autoři uvádějí, že vážení 1/0/0 (ignorování všeho kromě zkreslení hran) vede k výsledkům, které se blíží subjektivnímu hodnocení. To naznačuje, že okrajové regiony hrají dominantní roli ve vnímání kvality obrazu.
Strukturální odlišnost
Strukturální odlišnost (DSSIM) může být odvozena z SSIM, ačkoli nepředstavuje funkci vzdálenosti, protože nerovnost trojúhelníku nemusí být nutně splněna.
Metriky kvality videa a časové varianty
Stojí za zmínku, že původní verze SSIM byla navržena pro měření kvality statických obrázků. Neobsahuje žádné parametry přímo související s časovými dopady lidského vnímání a lidského úsudku.[7] Běžnou praxí je výpočet průměrné hodnoty SSIM přes všechny snímky ve videosekvenci. Bylo však vyvinuto několik časových variant SSIM.[10][6][11]
Komplexní wavelet SSIM
Komplexní varianta transformace waveletové transformace SSIM (CW-SSIM) je navržena tak, aby řešila problémy změny měřítka, překladu a rotace obrazu. Místo toho, aby obrázky s takovými podmínkami získaly nízké skóre, využívá CW-SSIM výhodu komplexní vlnkové transformace, a proto poskytuje vyšší skóre uvedeným obrazům. CW-SSIM je definován následovně:
Kde je komplexní vlnková transformace signálu a je komplexní vlnková transformace signálu . Dodatečně, je malé kladné číslo používané pro účely funkční stability. V ideálním případě by to mělo být nula. Stejně jako SSIM má CW-SSIM maximální hodnotu 1. Maximální hodnota 1 znamená, že oba signály jsou strukturálně dokonale podobné, zatímco hodnota 0 označuje žádnou strukturální podobnost.[12]
SSIMPLUS
Index SSIMPLUS je založen na SSIM a je komerčně dostupným nástrojem.[13] Rozšiřuje možnosti SSIM, zejména na cílové video aplikace. Poskytuje skóre v rozsahu 0–100, lineárně přizpůsobené lidským subjektivním hodnocením. Umožňuje také přizpůsobit skóre zamýšlenému zobrazovacímu zařízení a porovnávat video v různých rozlišeních a obsahu.
Podle jeho autorů dosahuje SSIMPLUS vyšší přesnosti a vyšší rychlosti než jiné metriky kvality obrazu a videa. Nebylo však provedeno žádné nezávislé hodnocení SSIMPLUS, protože samotný algoritmus není veřejně dostupný.
aplikace
SSIM má aplikace v řadě různých problémů. Některé příklady jsou:
- Komprese obrazu: ve ztrátě komprese obrazu, informace jsou záměrně zahozeny, aby se zmenšil úložný prostor obrázků a videa. MSE se obvykle používá v takových schématech komprese. Podle jeho autorů se doporučuje použít SSIM místo MSE, aby se dosáhlo lepších výsledků pro dekomprimované obrázky.[12]
- Obnova obrazu: Obnova obrazu se zaměřuje na řešení problému kde je rozmazaný obraz, který by měl být obnoven, je rozmazané jádro, je aditivní hluk a je původní obrázek, který chceme obnovit. Tradiční filtr, který se používá k řešení tohoto problému, je Wienerův filtr. Návrh Wienerova filtru je však založen na MSE. Podle autorů algoritmu se tvrdí, že použití varianty SSIM, konkrétně Stat-SSIM, produkuje lepší vizuální výsledky.[12]
- Rozpoznávání vzorů: Protože SSIM napodobuje aspekty lidského vnímání, lze jej použít k rozpoznávání vzorů. Když se potýkají s problémy, jako je změna měřítka obrazu, překlad a rotace, autoři algoritmu tvrdí, že je lepší použít CW-SSIM,[14] který je necitlivý na tyto variace a může být přímo aplikován pomocí porovnávání šablon bez použití jakéhokoli cvičného vzorku. Protože přístupy rozpoznávání vzorů založené na datech mohou produkovat lepší výkon, když je k dispozici velké množství dat pro školení, autoři navrhují použít CW-SSIM v přístupech založených na datech.[14]
Porovnání výkonu
Vzhledem ke své popularitě je SSIM často srovnáván s jinými metrikami, včetně jednodušších metrik, jako jsou MSE a PSNR, a dalších percepčních obrazů a metriky kvality videa. Bylo opakovaně prokázáno, že SSIM výrazně překonává MSE a jeho deriváty v přesnosti, včetně výzkumu jeho vlastních autorů a dalších.[7][15][16][17][18][19]
Dokument autorů Dosselmann a Yang tvrdí, že výkon SSIM je „mnohem blíže výkonu MSE“, než se obvykle předpokládalo. I když nezpochybňují výhodu SSIM oproti MSE, uvádějí analytickou a funkční závislost mezi těmito dvěma metrikami.[8] Podle jejich výzkumu bylo zjištěno, že SSIM koreluje stejně jako metody založené na MSE na jiných subjektivních databázích, než jsou databáze od tvůrců SSIM. Jako příklad uvádějí Reibmana a Pooleho, kteří zjistili, že MSE překonal SSIM v databázi obsahující video se ztrátou paketů.[20] V jiném článku byla identifikována analytická souvislost mezi PSNR a SSIM.[21]
Viz také
Reference
- ^ Wang, Zhou; Bovik, A.C .; Sheikh, H.R .; Simoncelli, E.P. (2004-04-01). Msgstr "Hodnocení kvality obrazu: od viditelnosti chyby ke strukturální podobnosti". Transakce IEEE na zpracování obrazu. 13 (4): 600–612. Bibcode:2004ITIP ... 13..600W. CiteSeerX 10.1.1.2.5689. doi:10.1109 / TIP.2003.819861. ISSN 1057-7149. PMID 15376593.
- ^ „Google Scholar“. scholar.google.com. Citováno 2019-07-04.
- ^ „Společnost pro zpracování signálů IEEE, cena za nejlepší papír“ (PDF).
- ^ A b C d Wang, Z .; Simoncelli, E.P .; Bovik, A.C. (2003-11-01). Víceúrovňová strukturní podobnost pro hodnocení kvality obrazu. Záznam z konference třicáté sedmé asilomarské konference o signálech, systémech a počítačích, 2004. 2. str. 1398–1 402 sv. 2. CiteSeerX 10.1.1.58.1939. doi:10.1109 / ACSSC.2003.1292216. ISBN 978-0-7803-8104-9.
- ^ A b Brunet, D .; Vass, J .; Vrscay, E. R .; Wang, Z. (duben 2012). „O matematických vlastnostech indexu strukturální podobnosti“ (PDF). Transakce IEEE na zpracování obrazu. 21 (4): 2324–2328. Bibcode:2012ITIP ... 21.1488B. doi:10.1109 / TIP.2011.2173206. PMID 22042163.
- ^ A b Wang, Z .; Lu, L .; Bovik, A. C. (únor 2004). „Hodnocení kvality videa na základě měření strukturálního zkreslení“. Zpracování signálu: obrazová komunikace. 19 (2): 121–132. CiteSeerX 10.1.1.2.6330. doi:10.1016 / S0923-5965 (03) 00076-6.
- ^ A b C Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (2016-02-14). „Použitelnost existujících objektivních metrik percepční kvality pro adaptivní streamování videa“ (PDF). Elektronické zobrazování. 2016 (13): 1–7. doi:10.2352 / issn.2470-1173.2016.13.iqsp-206.
- ^ A b Dosselmann, Richard; Yang, Xue Dong (06.11.2009). "Komplexní posouzení indexu strukturální podobnosti". Zpracování signálu, obrazu a videa. 5 (1): 81–91. doi:10.1007 / s11760-009-0144-1. ISSN 1863-1703.
- ^ Li, Chaofeng; Bovik, Alan Conrad (01.01.2010). "Hodnocení kvality videa podle obsahu pomocí tříkomponentního obrazového modelu". Journal of Electronic Imaging. 19 (1): 011003–011003–9. Bibcode:2010JEI .... 19a1003L. doi:10.1117/1.3267087. ISSN 1017-9909.
- ^ „Stránka přesměrování“. www.compression.ru.
- ^ Wang, Z .; Li, Q. (prosinec 2007). „Hodnocení kvality videa pomocí statistického modelu vnímání lidské vizuální rychlosti“ (PDF). Journal of the Optical Society of America A. 24 (12): B61 – B69. Bibcode:2007JOSAA..24 ... 61W. CiteSeerX 10.1.1.113.4177. doi:10.1364 / JOSAA.24.000B61. PMID 18059915.
- ^ A b C Zhou Wang; Bovik, A.C. (leden 2009). „Střední kvadratická chyba: Milujte ji nebo ji nechte? Nový pohled na opatření věrnosti signálu“. IEEE Signal Processing Magazine. 26 (1): 98–117. Bibcode:2009ISPM ... 26 ... 98W. doi:10,1109 / msp.2008.930649. ISSN 1053-5888.
- ^ Rehman, A .; Zeng, K .; Wang, Zhou (únor 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). „Zobrazit hodnocení kvality videa přizpůsobené zařízení“ (PDF). IS & T-SPIE Elektronické zobrazování, lidské vidění a elektronické zobrazování XX. Lidské vidění a elektronické zobrazování XX. 9394: 939406. Bibcode:2015SPIE.9394E..06R. doi:10.1117/12.2077917.
- ^ A b Gao, Y .; Rehman, A .; Wang, Z. (září 2011). "Klasifikace obrazu podle CW-SSIM" (PDF). Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Zhang, L .; Zhang, L .; Mou, X .; Zhang, D. (září 2012). Komplexní vyhodnocení algoritmů pro hodnocení kvality úplného referenčního obrazu. 2012 19. mezinárodní konference IEEE o zpracování obrazu. 1477–1480. CiteSeerX 10.1.1.476.2566. doi:10.1109 / icip.2012.6467150. ISBN 978-1-4673-2533-2.
- ^ Zhou Wang; Wang, Zhou; Li, Qiang (květen 2011). "Vážení informačního obsahu pro percepční hodnocení kvality obrazu". Transakce IEEE na zpracování obrazu. 20 (5): 1185–1198. Bibcode:2011ITIP ... 20.1185W. doi:10.1109 / tip.2010.2092435. PMID 21078577.
- ^ Channappayya, S. S .; Bovik, A. C .; Caramanis, C .; Heath, R. W. (březen 2008). SSIM-optimální lineární obnova obrazu. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. str. 765–768. CiteSeerX 10.1.1.152.7952. doi:10.1109 / icassp.2008.4517722. ISBN 978-1-4244-1483-3.
- ^ Gore, Akshay; Gupta, Savita (01.02.2015). Msgstr "Metriky kvality úplného referenčního obrázku pro komprimované obrázky JPEG". AEU - International Journal of Electronics and Communications. 69 (2): 604–608. doi:10.1016 / j.aeue.2014.09.002.
- ^ Wang, Z .; Simoncelli, E. P. (září 2008). „Soutěž maximální diferenciace (MAD): metodika pro srovnání výpočetních modelů vjemových veličin“ (PDF). Journal of Vision. 8 (12): 8.1–13. doi:10.1167/8.12.8. PMC 4143340. PMID 18831621.
- ^ Reibman, A. R .; Poole, D. (září 2007). Charakterizace poškození ztráty paketů v komprimovaném videu. 2007 Mezinárodní konference IEEE o zpracování obrazu. 5. str. V - 77 – V - 80. CiteSeerX 10.1.1.159.5710. doi:10.1109 / icip.2007.4379769. ISBN 978-1-4244-1436-9.
- ^ Hore, A .; Ziou, D. (srpen 2010). Metriky kvality obrazu: PSNR vs. SSIM. 20. mezinárodní konference o rozpoznávání vzorů 2010. 2366–2369. doi:10.1109 / icpr.2010.579. ISBN 978-1-4244-7542-1.