Vzdálenost hybatelů Země - Earth movers distance - Wikipedia
Ve statistikách vzdálenost hybatelů Země (EMD) je míra vzdálenosti mezi dvěma rozdělení pravděpodobnosti přes regionD. V matematice se tomu říká „ Wassersteinova metrika. Neformálně, pokud jsou distribuce interpretovány jako dva různé způsoby hromadění určitého množství nečistot v celém regionu D, EMD jsou minimální náklady na přeměnu jedné hromádky na druhou; kde se předpokládá, že nákladem je množství nečistot přesunutých krát vzdálenost kterým se pohybuje.[1]
Výše uvedená definice je platná pouze v případě, že obě distribuce mají stejný integrál (neformálně, pokud mají dvě hromady stejné množství nečistot), jako v normalizovaném histogramy nebo funkce hustoty pravděpodobnosti. V takovém případě je EMD ekvivalentní první Mallowsova vzdálenost nebo 1. Wassersteinova vzdálenost mezi oběma distribucemi.[2][3]
Teorie
Předpokládejme, že máme řadu bodů (dimenze ). Namísto přiřazení jedné distribuce k sadě bodů je můžeme seskupit a reprezentovat množinu bodů z hlediska klastrů. Každý klastr je tedy jediným bodem a o hmotnosti klastru rozhoduje zlomek distribuce přítomné v tomto klastru. Tato reprezentace distribuce sadou shluků se nazývá podpis. Dva podpisy mohou mít různé velikosti, například bimodální distribuce má kratší podpis (2 shluky) než složité. Jedna reprezentace klastru (průměr nebo režim v ) lze v podpisu považovat za jeden prvek. Vzdálenost mezi každou z funkcí se nazývá jako pozemní vzdálenost.
Earth Mover's Distance lze formulovat a řešit jako a dopravní problém. Předpokládejme, že několik dodavatelů, z nichž každý má dané množství zboží, musí zásobovat několik spotřebitelů, z nichž každý má danou omezenou kapacitu. U každého páru dodavatel - spotřebitel jsou uvedeny náklady na přepravu jedné jednotky zboží. Přepravním problémem je pak najít nejméně nákladný tok zboží od dodavatelů ke spotřebitelům, který uspokojí poptávku spotřebitelů. Podobně zde problém transformuje jeden podpis () jinému() s minimální odvedenou prací.
Předpokládejme ten podpis má klastry s , kde je zástupcem klastru a je hmotnost shluku. Podobně další podpis má shluky. Nechat být pozemní vzdálenost mezi shluky a .
Chceme najít tok , s tok mezi a , což minimalizuje celkové náklady.
s výhradou omezení:
Optimální průtok je nalezen řešením tohoto problému lineární optimalizace. Vzdálenost zemského dopravce je definována jako práce normalizovaná celkovým tokem:
Rozšíření
Některé aplikace mohou vyžadovat srovnání distribucí s různými celkovými hmotnostmi. Jedním z přístupů je umožnit a částečná shoda, kde jsou nečistoty z nejhmotnější distribuce přeskupeny tak, aby byly nejméně masivní, a veškerá zbylá „špína“ je bez jakýchkoli nákladů zahozena. Podle tohoto přístupu EMD již není skutečnou vzdáleností mezi distribucemi.
Dalším přístupem je umožnit vytvoření nebo zničení hmoty na globální a / nebo místní úrovni jako alternativu k dopravě, avšak s nákladovou pokutou. V takovém případě je třeba určit skutečný parametr σ, poměr mezi náklady na vytvoření nebo zničení jedné jednotky „špíny“ a náklady na její dopravu o jednotku vzdálenosti. To odpovídá minimalizaci součtu nákladů na pohyb Země plus σ krát L1 vzdálenost mezi přeskupenou hromádkou a druhým rozdělením.
Notačně, pokud je částečná funkce což je bijekce na podmnožiny a , pak se člověk zajímá o funkci vzdálenosti
kde označuje nastavit mínus. Tady, bude částí Země, která byla přesunuta; tím pádem bude část, která se nepohybuje, a velikost hromádky se nepohnula. Podle symetrie jeden uvažuje jako hromada v cíli, ze které se tam „dostali“ P, ve srovnání s celkem Q že my chci tam být. Formálně tato vzdálenost udává, kolik injekční korespondence se liší od izomorfismus.
EMD lze přirozeně rozšířit na případ, kdy se porovnávají více než dvě distribuce. V tomto případě je „vzdálenost“ mezi mnoha distribucemi definována jako optimální hodnota lineárního programu. Tento zobecněný EMD může být vypočítán přesně pomocí chamtivého algoritmu a výsledná funkce se ukázala být Minkowského přísada a konvexní monotónní. [4]
Výpočet EMD
EMD lze vypočítat řešením instance dopravní problém pomocí libovolného algoritmu pro problém s minimálními náklady, např. the síťový simplexní algoritmus.
Maďarský algoritmus lze použít k získání řešení, pokud je doména D je množina {0, 1}. Pokud je doména integrální, lze ji přeložit pro stejný algoritmus reprezentací integrálních košů jako více binárních košů.
Jako zvláštní případ, pokud D je jednorozměrné pole „zásobníků“, EMD lze efektivně vypočítat skenováním pole a sledováním toho, kolik nečistot je třeba přepravit mezi po sobě následujícími zásobníky:
Analýza podobnosti založená na EMD
Analýza podobnosti založená na EMD (EMDSA) je v mnoha případech důležitým a účinným nástrojem načítání multimediálních informací[5] a rozpoznávání vzorů[6] aplikace. Výpočtové náklady na EMD jsou však superkubické k počtu „zásobníků“, jimž je dán libovolný „D“. Efektivní a škálovatelné výpočetní techniky EMD pro data ve velkém měřítku byly zkoumány pomocí MapReduce,[7][8] stejně jako hromadně synchronní paralelně a odolná distribuovaná datová sada.[9]
Aplikace
Počáteční aplikací EMD v počítačové vědě bylo srovnání dvou stupně šedi obrázky, které se mohou lišit kvůli dithering, rozmazání nebo místní deformace.[10] V tomto případě je oblast doménou obrazu a celkové množství světla (nebo inkoustu) je „špína“, kterou je třeba přeskupit.
EMD je široce používán v načítání obrázků podle obsahu vypočítat vzdálenosti mezi barevné histogramy ze dvou digitální obrázky.[Citace je zapotřebí ] V tomto případě je region RGB barevná kostka a každý obrazový pixel je součástí „špíny“. Stejnou techniku lze použít pro jakoukoli jinou kvantitativní pixel atribut, například jas, spád, zdánlivý pohyb v snímek videa, atd..
Obecněji se EMD používá v rozpoznávání vzorů porovnat obecné souhrny nebo náhradní datové záznamy s názvem podpisy. Typický podpis se skládá ze seznamu párů ((X1,m1), ... (Xn,mn)), kde každý Xi je určitá „vlastnost“ (např. barva obrázku, písmeno v textu atd.) a mi je „hromadný“ (kolikrát se tato vlastnost v záznamu vyskytne). Alternativně, Xi může být těžiště a datový klastr, a mi počet entit v daném klastru. Chcete-li porovnat dva takové podpisy s EMD, musíte definovat vzdálenost mezi prvky, která se interpretuje jako cena přeměny jednotkové hmotnosti jednoho prvku na jednotkovou hmotnost druhého. EMD mezi dvěma podpisy je pak minimální cena přeměny jednoho z nich na druhý.
Analýza EMD byla použita pro kvantifikaci vícerozměrných změn v biomarkery měřeno průtoková cytometrie, s potenciálními aplikacemi na jiné technologie, které hlásí distribuce měření.[11]
Dějiny
Koncept byl poprvé představen Gaspard Monge v roce 1781,[12] v kontextu teorie dopravy. Použití EMD jako měřítka vzdálenosti pro monochromatické obrazy popsali v roce 1989 S. Peleg, M. Werman a H. Rom.[10] Název „vzdálenost pohybujících se Země“ navrhl J. Stolfi v roce 1994,[13] a byl použit v tisku v roce 1998 Y. Rubnerem, C. Tomasi a L. G. Guibas.[14]
Reference
- ^ Formální definice
- ^ Elizaveta Levina; Peter Bickel (2001). „EarthMover's Distance is the Mallows Distance: Some Insights from Statistics“. Sborník ICCV 2001. Vancouver, Kanada: 251–256.
- ^ C. L. Mallows (1972). „Poznámka k asymptotické normálnosti kloubů“. Annals of Mathematical Statistics. 43 (2): 508–515. doi:10.1214 / aoms / 1177692631.
- ^ Kline, Jeffery (2019). "Vlastnosti problému d-dimenzionálního pohybu Země". Diskrétní aplikovaná matematika. 265: 128–141. doi:10.1016 / j.dam.2019.02.042.
- ^ Mark A. Ruzon; Carlo Tomasi (2001). "Detekce hran, spojů a rohů pomocí distribuce barev". Transakce IEEE na analýze vzorů a strojové inteligenci.
- ^ Kristen Grauman; Trevor Darrel (2004). Msgstr "Rychlé přizpůsobení obrysu pomocí přibližné vzdálenosti zemského pohybu". Sborník CVPR 2004.
- ^ Jin Huang; Rui Zhang; Rajkumar Buyya; Jian Chen (2014). „MELODY-Join: Efektivní vzdálenost Země se podobností vzdálenosti spojuje pomocí MapReduce“. Sborník mezinárodní konference IEEE o datovém inženýrství.
- ^ Jia Xu; Bin Lei; Yu Gu; Winslett, M .; Ge Yu; Zhenjie Zhang (2015). "Efektivní podobnost spojení na základě vzdálenosti přemisťovatele Země pomocí MapReduce". Transakce IEEE na znalostní a datové inženýrství.
- ^ Jin Huang; Rui Zhang; Rajkumar Buyya; Jian Chen, M .; Yongwei Wu (2015). „Heads-join: Efficient Earth Mover's Distance join on Hadoop“. Transakce IEEE na paralelních a distribuovaných systémech.
- ^ A b S. Peleg; M. Werman; H. Rom (1989). „Jednotný přístup ke změně rozlišení: vesmír a úroveň šedi“. Transakce IEEE na analýze vzorů a strojové inteligenci. 11 (7): 739–742. doi:10.1109/34.192468.
- ^ Orlova, DY; Zimmerman, N; Meehan, C; Meehan, S; Waters, J; Ghosn, EEB (23. března 2016). „Earth Mover's Distance (EMD): A True Metric for Comparing the Biomarker Expression Levels in Cell Population“. PLOS One. 11 (3): e0151859. doi:10.1371 / journal.pone.0151859. Citováno 14. ledna 2020.
- ^ „Mémoire sur la théorie des déblais et des remblais“. Histoire de l'Académie Royale des Science, Année 1781, avec les Mémoires de Mathématique et de Physique. 1781.
- ^ J. Stolfi, osobní sdělení L. J. Guibasovi, 1994, cit Rubner, Yossi; Tomasi, Carlo; Guibas, Leonidas J. (2000). „Vzdálenost pohybujícího se Země jako metrika pro získávání obrázků“ (PDF). International Journal of Computer Vision. 40 (2): 99–121. doi:10.1023 / A: 1026543900054.
- ^ Yossi Rubner; Carlo Tomasi; Leonidas J. Guibas (1998). "Metrika pro distribuce s aplikacemi do databází obrázků". Sborník ICCV 1998: 59–66. doi:10.1109 / ICCV.1998.710701. ISBN 81-7319-221-9.
externí odkazy
- C kód pro vzdálenost pohybujícího se Země
- Implementace Pythonu s odkazy
- Obálka Python2 pro implementaci C Země Mover's Distance
- Obálky C ++ a Matlab a Java kódují vzdálenost Earth Mover's Distance, zvláště efektivní pro prahové pozemní vzdálenosti
- Implementace generického generátoru v jazyce Java pro vyhodnocení rozsáhlé podobnostní analýzy založené na vzdálenosti Země