Strukturální podobnost - Structural similarity - Wikipedia

The strukturální podobnost indexová míra (SSIM) je metoda pro předpovídání vnímané kvality digitální televize a filmových obrazů, jakož i dalších druhů digitálních obrazů a videí. SSIM se používá k měření podobnosti mezi dvěma obrazy. Index SSIM je a úplná referenční metrika; jinými slovy, měření nebo předpověď kvalita obrazu je založen na počátečním nekomprimovaném nebo nezkresleném obrázku jako reference.

SSIM je model založený na vnímání, který považuje degradaci obrazu za vnímaná změna strukturálních informací, a zároveň zahrnuje důležité percepční jevy, včetně výrazů maskování jasu a maskování kontrastu. Rozdíl s jinými technikami, jako je MSE nebo PSNR je to, že tyto přístupy odhadují absolutní chyby. Strukturální informace je myšlenka, že pixely mají silné vzájemné závislosti, zvláště když jsou prostorově blízko. Tyto závislosti nesou důležité informace o struktuře objektů ve vizuální scéně. Maskování jasu je jev, při kterém jsou zkreslení obrazu (v tomto kontextu) obvykle méně viditelná ve světlých oblastech, zatímco maskování kontrastu je jev, při kterém jsou zkreslení méně viditelná, pokud je v obraze významná aktivita nebo „struktura“.

Dějiny

Byl povolán předchůdce SSIM Univerzální index kvality (UQI) nebo Wang – Bovikův index, který vyvinuli Zhou Wang a Alan Bovik v roce 2001. To se vyvinulo díky jejich spolupráci s Hamidem Sheikhem a Eero Simoncelli, do aktuální verze SSIM, která byla zveřejněna v dubnu 2004 v Transakce IEEE na zpracování obrazu.[1] Kromě definování indexu kvality SSIM tento dokument poskytuje obecný kontext pro vývoj a hodnocení percepčních opatření kvality, včetně připojení k lidské vizuální neurobiologii a vnímání a přímé ověření indexu proti hodnocení lidských subjektů.

Základní model byl vyvinut v Laboratoři pro obrazové a video inženýrství (LIVE) na adrese Texaská univerzita v Austinu a dále rozvíjeny společně s Laboratory for Computational Vision (LCV) v Newyorská univerzita. Další varianty modelu byly vyvinuty v Image and Visual Computing Laboratory na adrese University of Waterloo a byly komerčně uvedeny na trh.

SSIM následně našel silné přijetí v komunitě zpracování obrazu. Dokument SSIM z roku 2004 byl citován více než 20 000krát Google Scholar,[2] což z něj činí jeden z nejlépe citovaných článků v oblasti zpracování obrazu a videoinženýrství. Bylo přiznáno Společnost pro zpracování signálů IEEE Cena za nejlepší papír za rok 2009.[3] Rovněž obdržela Společnost pro zpracování signálů IEEE Cena Sustained Impact Award za rok 2016 svědčí o tom, že příspěvek má neobvykle vysoký dopad po dobu nejméně 10 let po jeho zveřejnění.

Algoritmus

Index SSIM se počítá na různých oknech obrázku. Míra mezi dvěma okny a běžné velikosti N×N je:[4]

s:

  • the průměrný z ;
  • the průměrný z ;
  • the rozptyl z ;
  • the rozptyl z ;
  • the kovariance z a ;
  • , dvě proměnné pro stabilizaci rozdělení se slabým jmenovatelem;
  • the dynamický rozsah hodnot pixelů (obvykle je to );
  • a ve výchozím stavu.

Složky vzorce

Vzorec SSIM je založen na třech srovnávacích měřeních mezi vzorky a : jas (), kontrast () a struktura (). Jednotlivé porovnávací funkce jsou:[4]

s, kromě výše uvedených definic:

SSIM je pak vážená kombinace těchto komparativních opatření:

Nastavení váhy na 1, vzorec lze zredukovat do výše uvedené formy.

Matematické vlastnosti

SSIM uspokojuje nezápornost, identitu nerozporných a vlastnosti symetrie, ale ne nerovnost trojúhelníku, a proto není funkce vzdálenosti. Za určitých podmínek však může být SSIM převeden na normalizované kořenové měřítko MSE, což je funkce vzdálenosti.[5] Čtverec takové funkce není konvexní, ale je lokálně konvexní a kvazikonvexní,[5] SSIM je proveditelným cílem optimalizace.

Použití vzorce

Za účelem vyhodnocení kvality obrazu se tento vzorec obvykle používá pouze pro luma, ačkoli to může být také aplikováno na barvu (např. RGB ) hodnoty nebo chromatické (např. YCbCr ) hodnoty. Výsledný index SSIM je desetinná hodnota mezi -1 a 1 a hodnota 1 je dosažitelná pouze v případě dvou identických sad dat, a proto označuje dokonalou strukturní podobnost. Hodnota 0 označuje žádnou strukturální podobnost. U obrázku se obvykle počítá pomocí posuvného gaussovského okna o velikosti 11x11 nebo blokového okna o velikosti 8 × 8. Okno lze na obrázku posunout pixel po pixelu a vytvořit tak mapu kvality SSIM obrázku. V případě hodnocení kvality videa[6] autoři navrhují použít pouze podskupinu možných oken, aby se snížila složitost výpočtu.

Varianty

Multi-Scale SSIM

Pokročilejší forma SSIM, nazývaná Multiscale SSIM (MS-SSIM)[4] je prováděno na více stupnicích procesem několika fází dílčího vzorkování, což připomíná víceúrovňové zpracování v systému raného vidění. Ukázalo se, že funguje stejně dobře nebo lépe než SSIM v různých subjektivních databázích obrazů a videí.[4][7][8]

Třísložkový SSIM

Třísložkový SSIM (3-SSIM) je forma SSIM, která bere v úvahu skutečnost, že lidské oko může vidět rozdíly přesněji v texturovaných nebo okrajových oblastech než v hladkých oblastech.[9] Výsledná metrika se počítá jako vážený průměr SSIM pro tři kategorie oblastí: hrany, textury a hladké oblasti. Navrhovaná váha je 0,5 pro hrany, 0,25 pro texturované a hladké oblasti. Autoři uvádějí, že vážení 1/0/0 (ignorování všeho kromě zkreslení hran) vede k výsledkům, které se blíží subjektivnímu hodnocení. To naznačuje, že okrajové regiony hrají dominantní roli ve vnímání kvality obrazu.

Strukturální odlišnost

Strukturální odlišnost (DSSIM) může být odvozena z SSIM, ačkoli nepředstavuje funkci vzdálenosti, protože nerovnost trojúhelníku nemusí být nutně splněna.

Metriky kvality videa a časové varianty

Stojí za zmínku, že původní verze SSIM byla navržena pro měření kvality statických obrázků. Neobsahuje žádné parametry přímo související s časovými dopady lidského vnímání a lidského úsudku.[7] Běžnou praxí je výpočet průměrné hodnoty SSIM přes všechny snímky ve videosekvenci. Bylo však vyvinuto několik časových variant SSIM.[10][6][11]

Komplexní wavelet SSIM

Komplexní varianta transformace waveletové transformace SSIM (CW-SSIM) je navržena tak, aby řešila problémy změny měřítka, překladu a rotace obrazu. Místo toho, aby obrázky s takovými podmínkami získaly nízké skóre, využívá CW-SSIM výhodu komplexní vlnkové transformace, a proto poskytuje vyšší skóre uvedeným obrazům. CW-SSIM je definován následovně:

Kde je komplexní vlnková transformace signálu a je komplexní vlnková transformace signálu . Dodatečně, je malé kladné číslo používané pro účely funkční stability. V ideálním případě by to mělo být nula. Stejně jako SSIM má CW-SSIM maximální hodnotu 1. Maximální hodnota 1 znamená, že oba signály jsou strukturálně dokonale podobné, zatímco hodnota 0 označuje žádnou strukturální podobnost.[12]

SSIMPLUS

Index SSIMPLUS je založen na SSIM a je komerčně dostupným nástrojem.[13] Rozšiřuje možnosti SSIM, zejména na cílové video aplikace. Poskytuje skóre v rozsahu 0–100, lineárně přizpůsobené lidským subjektivním hodnocením. Umožňuje také přizpůsobit skóre zamýšlenému zobrazovacímu zařízení a porovnávat video v různých rozlišeních a obsahu.

Podle jeho autorů dosahuje SSIMPLUS vyšší přesnosti a vyšší rychlosti než jiné metriky kvality obrazu a videa. Nebylo však provedeno žádné nezávislé hodnocení SSIMPLUS, protože samotný algoritmus není veřejně dostupný.

aplikace

SSIM má aplikace v řadě různých problémů. Některé příklady jsou:

  • Komprese obrazu: ve ztrátě komprese obrazu, informace jsou záměrně zahozeny, aby se zmenšil úložný prostor obrázků a videa. MSE se obvykle používá v takových schématech komprese. Podle jeho autorů se doporučuje použít SSIM místo MSE, aby se dosáhlo lepších výsledků pro dekomprimované obrázky.[12]
  • Obnova obrazu: Obnova obrazu se zaměřuje na řešení problému kde je rozmazaný obraz, který by měl být obnoven, je rozmazané jádro, je aditivní hluk a je původní obrázek, který chceme obnovit. Tradiční filtr, který se používá k řešení tohoto problému, je Wienerův filtr. Návrh Wienerova filtru je však založen na MSE. Podle autorů algoritmu se tvrdí, že použití varianty SSIM, konkrétně Stat-SSIM, produkuje lepší vizuální výsledky.[12]
  • Rozpoznávání vzorů: Protože SSIM napodobuje aspekty lidského vnímání, lze jej použít k rozpoznávání vzorů. Když se potýkají s problémy, jako je změna měřítka obrazu, překlad a rotace, autoři algoritmu tvrdí, že je lepší použít CW-SSIM,[14] který je necitlivý na tyto variace a může být přímo aplikován pomocí porovnávání šablon bez použití jakéhokoli cvičného vzorku. Protože přístupy rozpoznávání vzorů založené na datech mohou produkovat lepší výkon, když je k dispozici velké množství dat pro školení, autoři navrhují použít CW-SSIM v přístupech založených na datech.[14]

Porovnání výkonu

Vzhledem ke své popularitě je SSIM často srovnáván s jinými metrikami, včetně jednodušších metrik, jako jsou MSE a PSNR, a dalších percepčních obrazů a metriky kvality videa. Bylo opakovaně prokázáno, že SSIM výrazně překonává MSE a jeho deriváty v přesnosti, včetně výzkumu jeho vlastních autorů a dalších.[7][15][16][17][18][19]

Dokument autorů Dosselmann a Yang tvrdí, že výkon SSIM je „mnohem blíže výkonu MSE“, než se obvykle předpokládalo. I když nezpochybňují výhodu SSIM oproti MSE, uvádějí analytickou a funkční závislost mezi těmito dvěma metrikami.[8] Podle jejich výzkumu bylo zjištěno, že SSIM koreluje stejně jako metody založené na MSE na jiných subjektivních databázích, než jsou databáze od tvůrců SSIM. Jako příklad uvádějí Reibmana a Pooleho, kteří zjistili, že MSE překonal SSIM v databázi obsahující video se ztrátou paketů.[20] V jiném článku byla identifikována analytická souvislost mezi PSNR a SSIM.[21]

Viz také

Reference

  1. ^ Wang, Zhou; Bovik, A.C .; Sheikh, H.R .; Simoncelli, E.P. (2004-04-01). Msgstr "Hodnocení kvality obrazu: od viditelnosti chyby ke strukturální podobnosti". Transakce IEEE na zpracování obrazu. 13 (4): 600–612. Bibcode:2004ITIP ... 13..600W. CiteSeerX  10.1.1.2.5689. doi:10.1109 / TIP.2003.819861. ISSN  1057-7149. PMID  15376593.
  2. ^ „Google Scholar“. scholar.google.com. Citováno 2019-07-04.
  3. ^ „Společnost pro zpracování signálů IEEE, cena za nejlepší papír“ (PDF).
  4. ^ A b C d Wang, Z .; Simoncelli, E.P .; Bovik, A.C. (2003-11-01). Víceúrovňová strukturní podobnost pro hodnocení kvality obrazu. Záznam z konference třicáté sedmé asilomarské konference o signálech, systémech a počítačích, 2004. 2. str. 1398–1 402 sv. 2. CiteSeerX  10.1.1.58.1939. doi:10.1109 / ACSSC.2003.1292216. ISBN  978-0-7803-8104-9.
  5. ^ A b Brunet, D .; Vass, J .; Vrscay, E. R .; Wang, Z. (duben 2012). „O matematických vlastnostech indexu strukturální podobnosti“ (PDF). Transakce IEEE na zpracování obrazu. 21 (4): 2324–2328. Bibcode:2012ITIP ... 21.1488B. doi:10.1109 / TIP.2011.2173206. PMID  22042163.
  6. ^ A b Wang, Z .; Lu, L .; Bovik, A. C. (únor 2004). „Hodnocení kvality videa na základě měření strukturálního zkreslení“. Zpracování signálu: obrazová komunikace. 19 (2): 121–132. CiteSeerX  10.1.1.2.6330. doi:10.1016 / S0923-5965 (03) 00076-6.
  7. ^ A b C Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (2016-02-14). „Použitelnost existujících objektivních metrik percepční kvality pro adaptivní streamování videa“ (PDF). Elektronické zobrazování. 2016 (13): 1–7. doi:10.2352 / issn.2470-1173.2016.13.iqsp-206.
  8. ^ A b Dosselmann, Richard; Yang, Xue Dong (06.11.2009). "Komplexní posouzení indexu strukturální podobnosti". Zpracování signálu, obrazu a videa. 5 (1): 81–91. doi:10.1007 / s11760-009-0144-1. ISSN  1863-1703.
  9. ^ Li, Chaofeng; Bovik, Alan Conrad (01.01.2010). "Hodnocení kvality videa podle obsahu pomocí tříkomponentního obrazového modelu". Journal of Electronic Imaging. 19 (1): 011003–011003–9. Bibcode:2010JEI .... 19a1003L. doi:10.1117/1.3267087. ISSN  1017-9909.
  10. ^ „Stránka přesměrování“. www.compression.ru.
  11. ^ Wang, Z .; Li, Q. (prosinec 2007). „Hodnocení kvality videa pomocí statistického modelu vnímání lidské vizuální rychlosti“ (PDF). Journal of the Optical Society of America A. 24 (12): B61 – B69. Bibcode:2007JOSAA..24 ... 61W. CiteSeerX  10.1.1.113.4177. doi:10.1364 / JOSAA.24.000B61. PMID  18059915.
  12. ^ A b C Zhou Wang; Bovik, A.C. (leden 2009). „Střední kvadratická chyba: Milujte ji nebo ji nechte? Nový pohled na opatření věrnosti signálu“. IEEE Signal Processing Magazine. 26 (1): 98–117. Bibcode:2009ISPM ... 26 ... 98W. doi:10,1109 / msp.2008.930649. ISSN  1053-5888.
  13. ^ Rehman, A .; Zeng, K .; Wang, Zhou (únor 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). „Zobrazit hodnocení kvality videa přizpůsobené zařízení“ (PDF). IS & T-SPIE Elektronické zobrazování, lidské vidění a elektronické zobrazování XX. Lidské vidění a elektronické zobrazování XX. 9394: 939406. Bibcode:2015SPIE.9394E..06R. doi:10.1117/12.2077917.
  14. ^ A b Gao, Y .; Rehman, A .; Wang, Z. (září 2011). "Klasifikace obrazu podle CW-SSIM" (PDF). Citovat deník vyžaduje | deník = (Pomoc)
  15. ^ Zhang, L .; Zhang, L .; Mou, X .; Zhang, D. (září 2012). Komplexní vyhodnocení algoritmů pro hodnocení kvality úplného referenčního obrazu. 2012 19. mezinárodní konference IEEE o zpracování obrazu. 1477–1480. CiteSeerX  10.1.1.476.2566. doi:10.1109 / icip.2012.6467150. ISBN  978-1-4673-2533-2.
  16. ^ Zhou Wang; Wang, Zhou; Li, Qiang (květen 2011). "Vážení informačního obsahu pro percepční hodnocení kvality obrazu". Transakce IEEE na zpracování obrazu. 20 (5): 1185–1198. Bibcode:2011ITIP ... 20.1185W. doi:10.1109 / tip.2010.2092435. PMID  21078577.
  17. ^ Channappayya, S. S .; Bovik, A. C .; Caramanis, C .; Heath, R. W. (březen 2008). SSIM-optimální lineární obnova obrazu. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. str. 765–768. CiteSeerX  10.1.1.152.7952. doi:10.1109 / icassp.2008.4517722. ISBN  978-1-4244-1483-3.
  18. ^ Gore, Akshay; Gupta, Savita (01.02.2015). Msgstr "Metriky kvality úplného referenčního obrázku pro komprimované obrázky JPEG". AEU - International Journal of Electronics and Communications. 69 (2): 604–608. doi:10.1016 / j.aeue.2014.09.002.
  19. ^ Wang, Z .; Simoncelli, E. P. (září 2008). „Soutěž maximální diferenciace (MAD): metodika pro srovnání výpočetních modelů vjemových veličin“ (PDF). Journal of Vision. 8 (12): 8.1–13. doi:10.1167/8.12.8. PMC  4143340. PMID  18831621.
  20. ^ Reibman, A. R .; Poole, D. (září 2007). Charakterizace poškození ztráty paketů v komprimovaném videu. 2007 Mezinárodní konference IEEE o zpracování obrazu. 5. str. V - 77 – V - 80. CiteSeerX  10.1.1.159.5710. doi:10.1109 / icip.2007.4379769. ISBN  978-1-4244-1436-9.
  21. ^ Hore, A .; Ziou, D. (srpen 2010). Metriky kvality obrazu: PSNR vs. SSIM. 20. mezinárodní konference o rozpoznávání vzorů 2010. 2366–2369. doi:10.1109 / icpr.2010.579. ISBN  978-1-4244-7542-1.

externí odkazy