Zarovnání potrubí - Manifold alignment

Zarovnání potrubí je třída strojové učení algoritmy, které vytvářejí projekce mezi sadami dat, vzhledem k tomu, že původní datové sady leží na společné potrubí. Koncept byl poprvé představen Hamem, Lee a Saulem v roce 2003,[1] přidání omezení potrubí k obecnému problému korelace sad výškových vektorů.[2]

Přehled

Zarovnání potrubí předpokládá, že různorodé datové sady vytvořené podobnými generujícími procesy budou sdílet podobný podklad potrubí zastoupení. Naučením projekcí z každého původního prostoru do sdíleného potrubí se získávají korespondence a znalosti z jedné domény lze přenést do jiné. Většina technik uspořádání potrubí zohledňuje pouze dvě sady dat, ale koncept se rozšiřuje na libovolně mnoho počátečních sad dat.

Zvažte případ zarovnání dvou datových sad, a , s a .

Algoritmy zarovnání potrubí se pokusí promítnout obojí a do nového d-dimenzionální prostor tak, že projekce minimalizují vzdálenost mezi odpovídajícími body a zachovávají místní strukturu potrubí původních dat. Projekční funkce jsou označeny:

Nechat představují binární matici korespondence mezi body v a :

Nechat a představují bodové podobnosti v sadách dat. To je obvykle zakódováno jako tepelné jádro z matice sousedství a k- graf nejbližšího souseda.

Nakonec zavést koeficient , které lze vyladit tak, aby upravilo váhu cíle „zachovat strukturu potrubí“ oproti cíli „minimalizovat odpovídající vzdálenosti bodů“.

Po zavedení těchto definic funkce ztráty pro zarovnání potrubí lze napsat:

Řešení tohoto problému s optimalizací je ekvivalentní řešení a zobecněný problém s vlastním číslem za použití graf laplacian[3] společné matrice, G:

Interdatační korespondence

Algoritmus popsaný výše vyžaduje úplné informace o párové korespondenci mezi sadami vstupních dat; A učení pod dohledem paradigma. Tyto informace je však obvykle obtížné nebo nemožné získat v aplikacích v reálném světě. Nedávná práce rozšířila algoritmus zarovnání hlavního potrubí na částečně pod dohledem[4], bez dozoru[5], a více instancí[6]nastavení.

Jednostupňové vs. dvoustupňové zarovnání

Algoritmus popsaný výše provádí „jednokrokové“ zarovnání a vyhledává vložení pro obě datové sady současně. Podobného efektu lze dosáhnout také u „dvoustupňového“ zarovnání[7][8], po mírně upraveném postupu:

  1. Promítejte každou vstupní datovou sadu samostatně do prostoru nižší dimenze pomocí libovolné z celé řady zmenšení rozměrů algoritmy.
  2. Proveďte lineární zarovnání potrubí na vložených datech, držte první sadu dat pevně a mapujte každou další sadu dat na potrubí prvního. Výhodou tohoto přístupu je rozložení požadovaného výpočtu, což snižuje režii paměti a umožňuje paralelní implementace.

Projekce na úrovni instance vs. funkce

Zarovnání potrubí lze použít k vyhledání lineárních projekcí (na úrovni funkcí) nebo nelineárních (na úrovni instance) vložení. Zatímco verze na úrovni instance obecně produkuje přesnější zarovnání, obětuje velkou míru flexibility, protože naučené vkládání je často obtížné parametrizovat. Projekce na úrovni funkcí umožňují snadné vložení všech nových instancí do prostoru potrubí a projekce lze kombinovat a vytvářet přímé mapování mezi původními reprezentacemi dat. Tyto vlastnosti jsou zvláště důležité pro aplikace přenosu znalostí.

Aplikace

Zarovnání potrubí je vhodné pro problémy s několika korpusy, které leží na sdíleném potrubí, i když každý korpus má jinou dimenzi. Tomuto popisu odpovídá mnoho problémů ze skutečného světa, ale tradiční techniky nejsou schopny využívat výhod všech korpusů současně. Usnadňuje také vyrovnání potrubí přenos učení, ve kterém se znalosti jedné domény používají k nastartování učení v korelovaných doménách.

Mezi aplikace seřízení potrubí patří:

  • Načítání informací v různých jazycích / automatický překlad[8]
    • Reprezentací dokumentů jako vektoru počtu slov může zarovnání potrubí obnovit mapování mezi dokumenty v různých jazycích.
    • Vícejazyčnou dokumentovou korespondenci lze získat relativně snadno, zejména od vícejazyčných organizací, jako je Evropská unie.
  • Přenos učení politických a státních reprezentací pro posílení učení[8]
  • Zarovnání proteinová NMR struktur[8]
  • Urychlení učení modelu v robotice sdílením dat generovaných jinými roboty [9]

Reference

  1. ^ Ham, Ji Hun; Daniel D. Lee; Lawrence K. Saul (2003). „Učení se vícerozměrných korespondencí z nízkodimenzionálních potrubí“ (PDF). Sborník z dvacáté mezinárodní konference o strojovém učení (ICML-2003).
  2. ^ Hotelling, H (1936). „Vztahy mezi dvěma sadami variací“ (PDF). Biometrika. 28 (3–4): 321–377. doi:10.2307/2333955. JSTOR  2333955.
  3. ^ Belkin, M; P Niyogi (2003). „Laplaciánské vlastní mapy pro zmenšení rozměrů a reprezentaci dat“ (PDF). Neurální výpočet. 15 (6): 1373–1396. CiteSeerX  10.1.1.192.8814. doi:10.1162/089976603321780317. S2CID  14879317.
  4. ^ Ham, Ji Hun; Daniel D. Lee; Lawrence K. Saul (2005). "Polosupervované vyrovnání potrubí" (PDF). Sborník z výroční konference o nejistotách v umělé inteligenci.
  5. ^ Wang, Chang; Sridhar Mahadevan (2009). Zarovnání potrubí bez korespondence (PDF). 21. mezinárodní společná konference o umělé inteligenci.[trvalý mrtvý odkaz ]
  6. ^ Wang, Chang; Sridhar Mahadevan (2011). Heterogenní přizpůsobení domény pomocí vyrovnání potrubí (PDF). 22. mezinárodní společná konference o umělé inteligenci. Archivovány od originál (PDF) dne 2012-04-15. Citováno 2011-12-14.
  7. ^ Lafon, Stephane; Yosi Keller; Ronald R. Coifman (2006). „Data fusion and multicue data matching by diffusion maps“ (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci. 28 (11): 1784–1797. CiteSeerX  10.1.1.419.1814. doi:10.1109 / tpami.2006.223. PMID  17063683. S2CID  1186335.[trvalý mrtvý odkaz ]
  8. ^ A b C d Wang, Chang; Sridhar Mahadevan (2008). Zarovnání potrubí pomocí analýzy Procrustes (PDF). 25. mezinárodní konference o strojovém učení.[trvalý mrtvý odkaz ]
  9. ^ Makondo, Ndivhuwo; Benjamin Rosman; Osamu Hasegawa (2015). Přenos znalostí pro učení robotických modelů prostřednictvím analýzy místních dodavatelů. 15. mezinárodní konference IEEE-RAS o humanoidních robotech (humanoidech). doi:10.1109 / HUMANOIDY.2015.7363502.

Další čtení