Tenzorová skica - Tensor sketch
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
v statistika, strojové učení a algoritmy, a tenzorová skica je typ snížení rozměrů to je zvláště efektivní, když se použije vektory které mají tenzor struktura.[1][2] Takový náčrt lze použít k urychlení explicitního metody jádra, bilineární sdružování v neuronové sítě a je základním kamenem mnoha numerických algoritmů lineární algebry.[3]
Matematická definice
Matematicky je redukce rozměrů maticí , kde , tak, že pro jakýkoli vektor to platí
s vysokou pravděpodobností. Jinými slovy zachovává normu vektorů až do malé chyby.
Skica Tensor má další vlastnost, že pokud pro některé vektory takhle , transformace lze počítat zvlášť efektivně.
Typicky , kde je (Hadamard ) elementární produkt. Protože každý z a lze vypočítat v čase, resp a , výpočet je mnohem rychlejší než celý což by zabralo čas .
Pro tenzory vyššího řádu, jako např úspory jsou ještě působivější.
Dějiny
Termín tenzorový náčrt byl vytvořen v roce 2013[4] popisující techniku pomocí Rasmus Pagh[5] ze stejného roku. Původně to bylo chápáno pomocí rychlá Fourierova transformace dělat rychle konvoluce z počítat náčrtky Pozdější výzkumné práce jej zobecnily na mnohem větší třídu redukce rozměrů pomocí náhodných vložení Tensor.
Tensor random embeddings byly představeny v roce 2010 v příspěvku[6] o rozdílovém soukromí a byly nejprve analyzovány Rudelsonem a kol. v roce 2012 v kontextu řídkého zotavení.[7]
Avron a kol.[8]byli první, kdo studovali vkládání podprostoru vlastnosti tenzorových skic, zvláště zaměřené na aplikace do polynomiální jádra V této souvislosti je náčrt vyžadován nejen k zachování normy každého jednotlivého vektoru s určitou pravděpodobností, ale také k zachování normy všech vektorů v každém jednotlivci. lineární podprostor.Jedná se o mnohem silnější vlastnost a vyžaduje větší velikosti skic, ale umožňuje použití metod jádra velmi široce, jak je prozkoumáno v knize Davida Woodruffa.[3]
Tenzorové náhodné projekce
The produkt rozdělující obličej je definován jako tenzorové produkty řádků (navrhl V. Slyusar[9] v roce 1996[10][11][12][13][14] pro radar a digitální anténní pole přímo), nechte a být dvě matice produkt rozdělující obličej je[10][11][12][13]Důvodem, proč je tento produkt užitečný, je následující identita:
kde je elementární (Hadamard ). Protože tuto operaci lze vypočítat v lineárním čase, lze násobit na vektorech s tenzorovou strukturou mnohem rychleji než normální matice.
Konstrukce s rychlou Fourierovou transformací
Tenzorový náčrt Pham a Pagh[4] počítá, kde a jsou nezávislé počítat skicu matice a je vektor konvoluce Ukazují, že se to úžasně rovná - početní náčrt produktu tensor!
Ukazuje se, že tento vztah lze vidět z hlediska produkt rozdělující obličej tak jako
- , kde je Fourierova transformační matice.
Od té doby je ortonormální matice, nemá vliv na normu a může být ignorován. Zbývá jen to .
Na druhou stranu,
- .
Aplikace na obecné matice
Problém s původním algoritmem tenzorového náčrtu spočíval v tom, že použil počítat skicu matice, které nejsou vždy velmi dobré redukce rozměrů.
V roce 2020[15] ukázalo se, že k vytvoření tenzorového náčrtu stačí libovolná matice s dostatečně náhodnými nezávislými řádky. To umožňuje použití matic se silnějšími zárukami, jako je skutečná Gaussian Johnson Lindenstrauss matice.
Dostaneme zejména následující větu
- Zvažte matici s i.i.d. řádky , takový, že a . Nechat být nezávislý skládající se z a .
- Pak s pravděpodobností pro libovolný vektor -li
- .
Zejména pokud jsou záznamy z jsou dostaneme který odpovídá normálu Johnson Lindenstrauss věta o když je malý.
Papír[15] také ukazuje, že závislost na je nezbytné pro konstrukce využívající tenzorové randomizované projekce s Gaussian záznamů.
Variace
Rekurzivní konstrukce
Z důvodu exponenciální závislosti na v tenzorových skečích založených na produkt rozdělující obličej, byl v roce 2020 vyvinut odlišný přístup[15] který platí
Můžeme dosáhnout takového necháním
- .
U této metody použijeme pouze obecnou metodu tenzorového náčrtu na objednávku 2 tenzorů, čímž se vyhneme exponenciální závislosti počtu řádků.
To se dá dokázat[15] to kombinování takto dimenzionální snížení se pouze zvyšuje faktorem .
Rychlé stavby
The rychlá Johnson – Lindenstraussova transformace je matice redukce rozměrů
Vzhledem k tomu, matice , výpočet vektorového produktu matice bere čas Rychlá Johnson Lindenstrauss Transformace (FJLT),[16] byl představen Ailon a Chazelle v roce 2006.
Verze této metody trvákde
- je diagonální matice kde každý diagonální vstup je nezávisle.
Násobení matice-vektor lze vypočítat v čas.
- je Hadamardova matice, což umožňuje násobení matice-vektor v čase
- je vzorkovací matice což jsou všechny nuly, kromě jediné 1 v každém řádku.
Pokud je diagonální matice nahrazena maticí, která má tenzorový součin o hodnoty na úhlopříčce, místo toho, aby byly zcela nezávislé, je možné vypočítat rychle.
Pro příklad, pojďme být dva nezávislí vektory a nechat být diagonální matice s na úhlopříčce. Poté se můžeme rozdělit jak následuje:
Jinými slovy, , se rozdělí na dvě rychlé Johnson-Lindenstraussovy transformace a celková redukce vyžaduje čas spíše než jako u přímého přístupu.
Stejný přístup lze rozšířit i na výpočet produktů vyššího stupně, například
Ahle a kol.[15] ukazuje, že pokud má řádky pro libovolný vektor s pravděpodobností , přičemž umožňuje rychlé množení s mírou tenzory.
Jin a kol.[17], stejný rok, vykázal podobný výsledek pro obecnější třídu volání matic RIP, který zahrnuje podvzorkované Hadamardovy matice. Ukázaly, že tyto matice umožňují rozdělení na tenzory za předpokladu, že je počet řádků .V případě toto odpovídá předchozímu výsledku.
Tyto rychlé konstrukce lze znovu kombinovat s výše uvedeným přístupem rekurze, což dává nejrychlejší celkový tenzorový náčrt.
Načrtávání údajů
Je také možné provést takzvané tenzorové skicování tzv. „Data aware“. Namísto násobení náhodné matice na datech jsou datové body vzorkovány nezávisle s určitou pravděpodobností v závislosti na normě bodu.[18]
Aplikace
Explicitní polynomiální jádra
Metody jádra jsou populární v strojové učení protože dávají algoritmu navrženému svobodu navrhnout „prostor funkcí“, ve kterém lze měřit podobnost jejich datových bodů. Jednoduchý binární klasifikátor založený na jádře je založen na následujícím výpočtu:
kde jsou datové body, je štítek th bod (buď -1 nebo +1), a je předpověď třídy .Funkce je jádro. Typickými příklady jsou jádro funkce radiální báze, , a polynomiální jádra jako .
Při tomto použití se metoda jádra nazývá „implicitní“. Někdy je rychlejší provést „explicitní“ metodu jádra, ve které je dvojice funkcí jsou nalezeny, takové, že To umožňuje, aby výše uvedený výpočet byl vyjádřen jako
kde hodnota lze vypočítat předem.
Problém této metody spočívá v tom, že prostor funkcí může být velmi velký. To je Například pro polynomiální jádro dostaneme a , kde je tenzorový produkt a kde .Li je již velký, může být mnohem větší než počet datových bodů (), a proto je explicitní metoda neúčinná.
Myšlenka tenzorového náčrtu je, že můžeme vypočítat přibližné funkce kde může být dokonce menší než , a které stále mají tu vlastnost, že .
Tato metoda byla představena v roce 2020[15] pracovat i pro polynomy vysokého stupně a jádra funkcí radiální báze.
Násobení komprimované matice
Předpokládejme, že máme dvě velké datové sady, reprezentované jako matice a chceme najít řádky s největšími vnitřními produkty Mohli jsme počítat a jednoduše se na všechny podívejte možnosti. To by však trvalo přinejmenším času a pravděpodobně blíže k pomocí standardních technik násobení matic.
Myšlenka multiplikace komprimovaných matic je obecná identita
kde je tenzorový produkt Protože můžeme vypočítat (lineární ) přiblížení k efektivně je můžeme shrnout, abychom získali aproximaci celého produktu.
Kompaktní multilineární sdružování
Bilineární sdružování je technika přijímání dvou vstupních vektorů, z různých zdrojů a pomocí tenzorového produktu jako vstupní vrstva do neuronové sítě.
v[19] autoři uvažovali o použití tenzorového náčrtu ke snížení počtu potřebných proměnných.
V roce 2017 další příspěvek[20] vezme FFT vstupních prvků, než se spojí pomocí elementárního produktu. To opět odpovídá původnímu tenzorovému náčrtu.
Reference
- ^ „Nízký Tuckerův rozklad velkých tenzorů pomocí: Tensor Sketch“ (PDF). amath.colorado.edu. Boulder, Colorado: University of Colorado Boulder.
- ^ Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.
- ^ A b Woodruff, David P. „Skicování jako nástroj pro numerickou lineární algebru.“ Theoretical Computer Science 10.1-2 (2014): 1–157.
- ^ A b Ninh, Pham; Rasmus, Pagh (2013). Rychlá a škálovatelná polynomiální jádra prostřednictvím explicitních map funkcí. Mezinárodní konference SIGKDD o získávání znalostí a dolování dat. Sdružení pro výpočetní techniku. doi:10.1145/2487575.2487591.
- ^ Rasmus, Pagh (2013). Msgstr "Násobení komprimované matice". Transakce ACM na základě teorie výpočtu, srpen 2013 Článek č .: 9. Sdružení pro výpočetní techniku. doi:10.1145/2493252.2493254.
- ^ Kasiviswanathan, Shiva Prasad a kol. „Cena soukromého uvolnění kontingenčních tabulek a spektra náhodných matic s korelovanými řádky.“ Sborník čtyřicátého druhého sympózia ACM o teorii práce s počítačem. 2010.
- ^ Rudelson, Mark a Shuheng Zhou. "Rekonstrukce z anizotropních náhodných měření." Konference o teorii učení. 2012.
- ^ Avron, Haim; Nguyen, Huy; Woodruff, David (2013). "Vložení podprostoru pro polynomiální jádro". NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems. Sdružení pro výpočetní techniku. doi:10.1145/2493252.2493254.
- ^ Anna Esteve, Eva Boj & Josep Fortiana (2009): Interaction Terms in Distance-Based Regression, Communications in Statistics - Theory and Methods, 38:19, S. 3501 [1]
- ^ A b Slyusar, V. I. (27. prosince 1996). „Konečné produkty v maticích v radarových aplikacích“ (PDF). Radioelektronika a komunikační systémy. - 1998, roč. 41; Číslo 3: 50–53.
- ^ A b Slyusar, V. I. (1997-05-20). „Analytický model digitálního anténního pole na základě produktů dělících matice (PDF). Proc. ICATT-97, Kyiv: 108–109.
- ^ A b Slyusar, V. I. (1997-09-15). "Nové operace maticového produktu pro aplikace radarů" (PDF). Proc. Přímé a inverzní problémy teorie elektromagnetických a akustických vln (DIPED-97), Lviv.: 73–74.
- ^ A b Slyusar, V. I. (13. března 1998). "Rodina produktů tváře matic a její vlastnosti" (PDF). Kybernetika a systémová analýza C / C Kibernetiky I Sistemnyi Analiz. - 1999. 35 (3): 379–384. doi:10.1007 / BF02733426.
- ^ Slyusar, V. I. (2003). "Zobecněné produkty tváře matic v modelech digitálních anténních polí s neidentickými kanály" (PDF). Radioelektronika a komunikační systémy. 46 (10): 9–17.
- ^ A b C d E F Ahle, Thomas; Kapralov, Michael; Knudsen, Jakob; Pagh, Rasmus; Velingker, Ameya; Woodruff, David; Zandieh, Amir (2020). Nezapomenutelné skicování vysoce polynomiálních jader. ACM-SIAM Symposium on Discrete Algorithms. Sdružení pro výpočetní techniku. doi:10.1137/1.9781611975994.9.
- ^ Ailon, Nir; Chazelle, Bernard (2006). „Přibližný nejbližší soused a rychlá transformace Johnson – Lindenstrauss“. Proceedings of the 38th Annual ACM Symposium on Theory of Computing. New York: ACM Press. str. 557–563. doi:10.1145/1132516.1132597. ISBN 1-59593-134-1. PAN 2277181.
- ^ Jin, Ruhui, Tamara G. Kolda a Rachel Ward. „Rychlejší Johnson – Lindenstrauss se transformuje prostřednictvím produktů Kronecker.“ arXiv předtisk arXiv: 1909.04801 (2019).
- ^ Wang, Yining; Tung, Hsiao-Yu; Smola, Alexander; Anandkumar, Anima. Rychlý a zaručený rozklad tenzoru pomocí skicování. Pokroky v systémech zpracování neurálních informací 28 (NIPS 2015).
- ^ Gao, Yang a kol. „Kompaktní bilineární sdružování.“ Sborník z konference IEEE o počítačovém vidění a rozpoznávání vzorů. 2016.
- ^ Algashaam, Faisal M. a kol. „Multispektrální periokulární klasifikace s multimodálním kompaktním vícelineárním sdílením.“ IEEE Access 5 (2017): 14572–14578.
Další čtení
- Ahle, Thomas; Knudsen, Jakob (03.09.2019). „Téměř optimální náčrt tenzoru“. Researchgate. Citováno 2020-07-11.
- Slyusar, V. I. (27. prosince 1996). „Konečné produkty v maticích v radarových aplikacích“ (PDF). Radioelektronika a komunikační systémy. - 1998, roč. 41; Číslo 3: 50–53.
- Slyusar, V. I. (1997-05-20). „Analytický model digitálního anténního pole na základě produktů dělících matice (PDF). Proc. ICATT-97, Kyiv: 108–109.
- Slyusar, V. I. (1997-09-15). "Nové operace maticového produktu pro aplikace radarů" (PDF). Proc. Přímé a inverzní problémy teorie elektromagnetických a akustických vln (DIPED-97), Lviv.: 73–74.
- Slyusar, V. I. (13. března 1998). "Rodina produktů tváře matic a její vlastnosti" (PDF). Kybernetika a systémová analýza C / C Kibernetiky I Sistemnyi Analiz. - 1999. 35 (3): 379–384. doi:10.1007 / BF02733426.