Isomap - Isomap

Isomap je nelineární redukce rozměrů metoda. Je to jedna z několika široce používaných metod nízkodimenzionálního vkládání.[1] Isomap se používá pro výpočet kvazi-izometrického, nízkodimenzionálního vložení sady vysokodimenzionálních datových bodů. Algoritmus poskytuje jednoduchou metodu pro odhad vnitřní geometrie dat potrubí na základě hrubého odhadu sousedů každého datového bodu na potrubí. Isomap je vysoce efektivní a obecně použitelný pro širokou škálu zdrojů dat a rozměrů.

Úvod

Isomap je jedním z představitelů izometrických mapovacích metod a rozšiřuje metriky vícerozměrné škálování (MDS) začleněním geodetické vzdálenosti uložené váženým grafem. Konkrétně klasické měřítko metrických MDS provádí nízkodimenzionální vkládání na základě párové vzdálenosti mezi datovými body, která se obecně měří pomocí přímky Euklidovská vzdálenost. Isomap se vyznačuje využitím geodetické vzdálenosti vyvolané sousedním grafem vloženým do klasického měřítka. To se provádí za účelem začlenění struktury potrubí do výsledného vložení. Isomap definuje geodetickou vzdálenost jako součet hmotností hran podél nejkratší cesta mezi dvěma uzly (počítáno pomocí Dijkstrův algoritmus, například). Vrchol n vlastní vektory geodetické matice vzdálenosti, představují souřadnice v novém n-rozměrný euklidovský prostor.

Algoritmus

Popis na vysoké úrovni Isomap algoritmus je uveden níže.

  • Určete sousedy každého bodu.
    • Všechny body v určitém pevném poloměru.
    • K. nejbližší sousedé.
  • Vytvořte sousední graf.
    • Každý bod je spojen s jiným, pokud se jedná o a K. nejbližší soused.
    • Délka hrany se rovná euklidovské vzdálenosti.
  • Vypočítejte nejkratší cestu mezi dvěma uzly.
  • Vypočítejte vložení do nižší dimenze.

Rozšíření ISOMAP

  • LandMark ISOMAP (L-ISOMAP): Landmark-Isomap je varianta Isomap, která je rychlejší než Isomap. Přesnost potrubí je však ohrožena okrajovým faktorem. V tomto algoritmu je z celkového počtu N datových bodů použito n << N orientačních bodů a je vypočítána matice nxN geodetické vzdálenosti mezi každým datovým bodem k orientačním bodům. Landmark-MDS (LMDS) se poté aplikuje na matici k nalezení euklidovského vložení všech datových bodů.[2]
  • C Isomap : C-Isomap zahrnuje zvětšení oblastí s vysokou hustotou a zmenšení oblastí s nízkou hustotou datových bodů v potrubí. Váhy okrajů, které jsou maximalizovány v Multi-Dimensional Scaling (MDS), se upraví, přičemž vše ostatní zůstane nedotčeno.[2]
  • Rozkládání paralelního transportu : Nahradí geodetické odhady vzdálenosti na základě cesty Dijkstra paralelní doprava namísto toho založené na aproximacích, které zlepšují odolnost vůči nepravidelnostem a mezerám ve vzorkování.[3]

Možné problémy

Připojení každého datového bodu v grafu sousedství je definováno jako jeho nejbližší k Euklidovští sousedé ve vysokodimenzionálním prostoru. Tento krok je citlivý na „chyby zkratu“, pokud k je příliš velký s ohledem na strukturu potrubí nebo pokud šum v datech pohybuje body mírně mimo potrubí.[4] Dokonce i jediná chyba zkratu může změnit mnoho položek v geodetické matici vzdálenosti, což může vést k drasticky odlišnému (a nesprávnému) nízkodimenzionálnímu vložení. Naopak, pokud k je příliš malý, může být sousední graf příliš řídký, aby mohl přesně aproximovat geodetické cesty. Ale tento algoritmus byl vylepšen, aby lépe fungoval pro řídké a hlučné datové sady.[5]

Vztah k jiným metodám

V návaznosti na spojení mezi klasickým škálováním a PCA, metrické MDS lze interpretovat jako jádro PCA. Podobným způsobem lze na geodetickou matici vzdálenosti v Isomapu pohlížet jako na jádro matice. Dvojitě vycentrovaná matice geodetické vzdálenosti K. v Isomap má formu

kde je elementární čtverec geodetické matice vzdálenosti D = [Dij], H je centrovací matice daná vztahem

Avšak jádrová matice K. není vždy pozitivní semidefinit. Hlavní myšlenkou jádra Isomap je vytvořit toto K. jako Obchodník střižním zbožím matice jádra (to je pozitivní semidefinitní) používající metodu konstantního posunu, aby se vztahovala k jádru PCA tak, aby se přirozeně objevila vlastnost generalizace.[6]

Viz také

Reference

  1. ^ J. B. Tenenbaum, V. de Silva, J. C. Langford, Globální geometrický rámec pro redukci nelineární dimenze, Science 290, (2000), 2319–2323.
  2. ^ A b „Globální versus lokální metody při nelineárním snižování rozměrů“ (PDF). Citováno 2014-09-09.
  3. ^ Budninskiy, Max; Yin, Gloria; Feng, Leman; Tong, Yiying; Desbrun, Mathieu (2019). „Parallel Transport Unfolding: A Connection-Based Manifold Learning Approach“. SIAM Journal on Applied Algebra and Geometry. 3 (2): 266–291. arXiv:1806.09039. doi:10.1137 / 18M1196133. ISSN  2470-6566.
  4. ^ M. Balasubramanian, E. L. Schwartz, The Isomap Algorithm and Topological Stability. Science 4. ledna 2002: sv. 295 č. 5552 str. 7
  5. ^ A. Saxena, A. Gupta a A. Mukerjee. Nelineární redukce rozměrů lokálně lineárními izomapami, . Přednášky z informatiky, 3316:1038–1043, 2004.
  6. ^ H. Choi, S. Choi, Robust Kernel Isomap, Pattern Recognition, sv. 40, č. 3, str. 853-862, 2007

externí odkazy