Zarovnání potrubí - Manifold alignment

Zarovnání potrubí je třída strojové učení algoritmy, které vytvářejí projekce mezi sadami dat, vzhledem k tomu, že původní datové sady leží na společné potrubí. Koncept byl poprvé představen Hamem, Lee a Saulem v roce 2003,^[1] přidání omezení potrubí k obecnému problému korelace sad výškových vektorů.^[2]

Přehled

Zarovnání potrubí předpokládá, že různorodé datové sady vytvořené podobnými generujícími procesy budou sdílet podobný podklad potrubí zastoupení. Naučením projekcí z každého původního prostoru do sdíleného potrubí se získávají korespondence a znalosti z jedné domény lze přenést do jiné. Většina technik uspořádání potrubí zohledňuje pouze dvě sady dat, ale koncept se rozšiřuje na libovolně mnoho počátečních sad dat.

Zvažte případ zarovnání dvou datových sad, ${ displaystyle X}$ a ${ displaystyle Y}$ , s ${ displaystyle X_ {i} in mathbb {R} ^ {m}}$ a ${ displaystyle Y_ {i} in mathbb {R} ^ {n}}$ .

Algoritmy zarovnání potrubí se pokusí promítnout obojí ${ displaystyle X}$ a ${ displaystyle Y}$ do nového d-dimenzionální prostor tak, že projekce minimalizují vzdálenost mezi odpovídajícími body a zachovávají místní strukturu potrubí původních dat. Projekční funkce jsou označeny:

${ displaystyle phi _ {X}: , mathbb {R} ^ {m} rightarrow mathbb {R} ^ {d}}$

${ displaystyle phi _ {Y}: , mathbb {R} ^ {n} rightarrow mathbb {R} ^ {d}}$

Nechat ${ displaystyle W}$ představují binární matici korespondence mezi body v ${ displaystyle X}$ a ${ displaystyle Y}$ :

${ displaystyle W_ {i, j} = { begin {cases} 1 & if , X_ {i} leftrightarrow Y_ {j} 0 a jinak end {cases}}}$

Nechat ${ displaystyle S_ {X}}$ a ${ displaystyle S_ {Y}}$ představují bodové podobnosti v sadách dat. To je obvykle zakódováno jako tepelné jádro z matice sousedství a k- graf nejbližšího souseda.

Nakonec zavést koeficient ${ displaystyle 0 leq mu leq 1}$ , které lze vyladit tak, aby upravilo váhu cíle „zachovat strukturu potrubí“ oproti cíli „minimalizovat odpovídající vzdálenosti bodů“.

Po zavedení těchto definic funkce ztráty pro zarovnání potrubí lze napsat:

${ displaystyle arg min _ { phi _ {X}, phi _ {Y}} mu součet _ {i, j} vlevo Vert phi _ {X} vlevo (X_ {i} right) - phi _ {X} left (X_ {j} right) right Vert ^ {2} S_ {X, i, j} + mu sum _ {i, j} left Vert phi _ {Y} left (Y_ {i} right) - phi _ {Y} left (Y_ {j} right) right Vert ^ {2} S_ {Y, i, j} + left (1- mu right) sum _ {i, j} Vert phi _ {X} left (X_ {i} right) - phi _ {Y} left (Y_ {j } right) Vert ^ {2} W_ {i, j}}$

Řešení tohoto problému s optimalizací je ekvivalentní řešení a zobecněný problém s vlastním číslem za použití graf laplacian^[3] společné matrice, G:

${ displaystyle G = left [{ begin {array} {cc} mu S_ {X} & left (1- mu right) W left (1- mu right) W ^ { T} & mu S_ {Y} end {array}} right]}$

Interdatační korespondence

Algoritmus popsaný výše vyžaduje úplné informace o párové korespondenci mezi sadami vstupních dat; A učení pod dohledem paradigma. Tyto informace je však obvykle obtížné nebo nemožné získat v aplikacích v reálném světě. Nedávná práce rozšířila algoritmus zarovnání hlavního potrubí na částečně pod dohledem^[4], bez dozoru^[5], a více instancí^[6]nastavení.

Jednostupňové vs. dvoustupňové zarovnání

Algoritmus popsaný výše provádí „jednokrokové“ zarovnání a vyhledává vložení pro obě datové sady současně. Podobného efektu lze dosáhnout také u „dvoustupňového“ zarovnání^[7]^[8], po mírně upraveném postupu:

Promítejte každou vstupní datovou sadu samostatně do prostoru nižší dimenze pomocí libovolné z celé řady zmenšení rozměrů algoritmy.
Proveďte lineární zarovnání potrubí na vložených datech, držte první sadu dat pevně a mapujte každou další sadu dat na potrubí prvního. Výhodou tohoto přístupu je rozložení požadovaného výpočtu, což snižuje režii paměti a umožňuje paralelní implementace.

Projekce na úrovni instance vs. funkce

Zarovnání potrubí lze použít k vyhledání lineárních projekcí (na úrovni funkcí) nebo nelineárních (na úrovni instance) vložení. Zatímco verze na úrovni instance obecně produkuje přesnější zarovnání, obětuje velkou míru flexibility, protože naučené vkládání je často obtížné parametrizovat. Projekce na úrovni funkcí umožňují snadné vložení všech nových instancí do prostoru potrubí a projekce lze kombinovat a vytvářet přímé mapování mezi původními reprezentacemi dat. Tyto vlastnosti jsou zvláště důležité pro aplikace přenosu znalostí.

Aplikace

Zarovnání potrubí je vhodné pro problémy s několika korpusy, které leží na sdíleném potrubí, i když každý korpus má jinou dimenzi. Tomuto popisu odpovídá mnoho problémů ze skutečného světa, ale tradiční techniky nejsou schopny využívat výhod všech korpusů současně. Usnadňuje také vyrovnání potrubí přenos učení, ve kterém se znalosti jedné domény používají k nastartování učení v korelovaných doménách.

Mezi aplikace seřízení potrubí patří:

Načítání informací v různých jazycích / automatický překlad^[8]
- Reprezentací dokumentů jako vektoru počtu slov může zarovnání potrubí obnovit mapování mezi dokumenty v různých jazycích.
- Vícejazyčnou dokumentovou korespondenci lze získat relativně snadno, zejména od vícejazyčných organizací, jako je Evropská unie.
Přenos učení politických a státních reprezentací pro posílení učení^[8]
Zarovnání proteinová NMR struktur^[8]
Urychlení učení modelu v robotice sdílením dat generovaných jinými roboty ^[9]

Reference

^ Ham, Ji Hun; Daniel D. Lee; Lawrence K. Saul (2003). „Učení se vícerozměrných korespondencí z nízkodimenzionálních potrubí“ (PDF). Sborník z dvacáté mezinárodní konference o strojovém učení (ICML-2003).
^ Hotelling, H (1936). „Vztahy mezi dvěma sadami variací“ (PDF). Biometrika. 28 (3–4): 321–377. doi:10.2307/2333955. JSTOR 2333955.
^ Belkin, M; P Niyogi (2003). „Laplaciánské vlastní mapy pro zmenšení rozměrů a reprezentaci dat“ (PDF). Neurální výpočet. 15 (6): 1373–1396. CiteSeerX 10.1.1.192.8814. doi:10.1162/089976603321780317. S2CID 14879317.
^ Ham, Ji Hun; Daniel D. Lee; Lawrence K. Saul (2005). "Polosupervované vyrovnání potrubí" (PDF). Sborník z výroční konference o nejistotách v umělé inteligenci.
^ Wang, Chang; Sridhar Mahadevan (2009). Zarovnání potrubí bez korespondence (PDF). 21. mezinárodní společná konference o umělé inteligenci.^{[trvalý mrtvý odkaz ]}
^ Wang, Chang; Sridhar Mahadevan (2011). Heterogenní přizpůsobení domény pomocí vyrovnání potrubí (PDF). 22. mezinárodní společná konference o umělé inteligenci. Archivovány od originál (PDF) dne 2012-04-15. Citováno 2011-12-14.
^ Lafon, Stephane; Yosi Keller; Ronald R. Coifman (2006). „Data fusion and multicue data matching by diffusion maps“ (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci. 28 (11): 1784–1797. CiteSeerX 10.1.1.419.1814. doi:10.1109 / tpami.2006.223. PMID 17063683. S2CID 1186335.^{[trvalý mrtvý odkaz ]}
^ ^A ^b ^C ^d Wang, Chang; Sridhar Mahadevan (2008). Zarovnání potrubí pomocí analýzy Procrustes (PDF). 25. mezinárodní konference o strojovém učení.^{[trvalý mrtvý odkaz ]}
^ Makondo, Ndivhuwo; Benjamin Rosman; Osamu Hasegawa (2015). Přenos znalostí pro učení robotických modelů prostřednictvím analýzy místních dodavatelů. 15. mezinárodní konference IEEE-RAS o humanoidních robotech (humanoidech). doi:10.1109 / HUMANOIDY.2015.7363502.

Další čtení

Xiong, L .; F. Wang; C. Zhang (2007). "Polodefinované zarovnání potrubí". Sborník z 18. evropské konference o strojovém učení. CiteSeerX 10.1.1.91.7346.
Wang, Chang; Sridhar Mahadevan (2009). „Obecný rámec pro seřízení potrubí“ (PDF). AAAI Fall Symposium on Manifold Learning and its Applications.^{[trvalý mrtvý odkaz ]}
Wang, Chang; Sridhar Mahadevan (2010). „Multiscale Manifold Alignment“ (PDF). Univ. Massachusetts TR UM-CS-2010-049.
Ma, Yunqian (15. dubna 2012). Teorie a aplikace učení potrubí. Taylor & Francis Group. p. 376. ISBN 978-1-4398-7109-6.
Přehled zarovnání rozdělovače Chang Wang

[1] Ham, Ji Hun; Daniel D. Lee; Lawrence K. Saul (2003). „Učení se vícerozměrných korespondencí z nízkodimenzionálních potrubí“ (PDF). Sborník z dvacáté mezinárodní konference o strojovém učení (ICML-2003).

[2] Hotelling, H (1936). „Vztahy mezi dvěma sadami variací“ (PDF). Biometrika. 28 (3–4): 321–377. doi:10.2307/2333955. JSTOR 2333955.

[3] Belkin, M; P Niyogi (2003). „Laplaciánské vlastní mapy pro zmenšení rozměrů a reprezentaci dat“ (PDF). Neurální výpočet. 15 (6): 1373–1396. CiteSeerX 10.1.1.192.8814. doi:10.1162/089976603321780317. S2CID 14879317.

[4] Ham, Ji Hun; Daniel D. Lee; Lawrence K. Saul (2005). "Polosupervované vyrovnání potrubí" (PDF). Sborník z výroční konference o nejistotách v umělé inteligenci.

[5] Wang, Chang; Sridhar Mahadevan (2009). Zarovnání potrubí bez korespondence (PDF). 21. mezinárodní společná konference o umělé inteligenci.^{[trvalý mrtvý odkaz ]}

[6] Wang, Chang; Sridhar Mahadevan (2011). Heterogenní přizpůsobení domény pomocí vyrovnání potrubí (PDF). 22. mezinárodní společná konference o umělé inteligenci. Archivovány od originál (PDF) dne 2012-04-15. Citováno 2011-12-14.

[7] Lafon, Stephane; Yosi Keller; Ronald R. Coifman (2006). „Data fusion and multicue data matching by diffusion maps“ (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci. 28 (11): 1784–1797. CiteSeerX 10.1.1.419.1814. doi:10.1109 / tpami.2006.223. PMID 17063683. S2CID 1186335.^{[trvalý mrtvý odkaz ]}

[procrustes-8] A ^b ^C ^d Wang, Chang; Sridhar Mahadevan (2008). Zarovnání potrubí pomocí analýzy Procrustes (PDF). 25. mezinárodní konference o strojovém učení.^{[trvalý mrtvý odkaz ]}

[9] Makondo, Ndivhuwo; Benjamin Rosman; Osamu Hasegawa (2015). Přenos znalostí pro učení robotických modelů prostřednictvím analýzy místních dodavatelů. 15. mezinárodní konference IEEE-RAS o humanoidních robotech (humanoidech). doi:10.1109 / HUMANOIDY.2015.7363502.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]