Nervové tangentní jádro - Neural tangent kernel
Ve studii o umělé neuronové sítě (PŘÍLOHY), neurální tangenta jádro (NTK) je a jádro který popisuje vývoj hluboké umělé neuronové sítě během jejich výcviku klesání. Umožňuje studovat ANNs pomocí teoretických nástrojů z Metody jádra.
U nejběžnějších architektur neuronových sítí se NTK stává konstantní v limitu velké šířky vrstvy. To umožňuje jednoduché uzavřená forma prohlášení o předpovědích neuronových sítí, dynamice tréninku, generalizaci a ztrátových plochách. Například zaručuje, že dostatečně široké ANN se sbíhají k a globální minimum při tréninku k minimalizaci empirické ztráty. NTK sítí velké šířky také souvisí s několika dalšími velké šířkové limity neuronových sítí.
NTK zavedla v roce 2018 společnost Arthur Jacot, Franck Gabriel a Clément Hongler.[1] To bylo také implicitní v nějaké současné práci.[2][3][4]
Definice
Skalární výstupní případ
An Umělá neuronová síť (ANN) se skalárním výstupem spočívá v rodině funkcí parametrizován vektorem parametrů .
Neural Tangent Kernel (NTK) je jádro definován
Vektorový výstupní případ
ANN s vektorovým výstupem velikosti spočívá v rodině funkcí parametrizován vektorem parametrů .
V tomto případě Neural Tangent Kernel je matice s hodnotou jádra, s hodnotami v prostoru matice, definované
Derivace
Při optimalizaci parametrů ANN minimalizovat empirickou ztrátu klesání, NTK řídí dynamiku výstupní funkce ANN po celou dobu školení.
Skalární výstupní případ
Pro datová sada se skalárními štítky a a funkce ztráty , související empirická ztráta, definovaná na funkcích , darováno
Během tréninku sleduje výstupní funkce ANN evoluční diferenciální rovnici danou z hlediska NTK:
Tato rovnice ukazuje, jak NTK řídí dynamiku v prostoru funkcí během tréninku.
Vektorový výstupní případ
Pro datová sada s vektorové štítky a a funkce ztráty , odpovídající empirická ztráta funkcí je definováno
Výklad
NTK představuje vliv ztrátového gradientu s ohledem na příklad o vývoji výstupu ANN přes krok sestupného přechodu: ve skalárním případě to zní
Limit velké šířky
Nedávná teoretická a empirická práce v Deep Learning ukázala, že výkon ANN se přísně zlepšuje, jak se jejich šířky vrstev zvětšují.[5][6] Pro různé ANN architektury, NTK poskytuje přesný vhled do tréninku v tomto režimu s velkou šířkou.[1][7][8][9][10][11]
Široké plně propojené ANN mají deterministický NTK, který zůstává konstantní po celou dobu tréninku
Zvažte ANN s plně připojen vrstvy šířek , aby , kde je složení afinní transformace s bodovou aplikací a nelinearita , kde parametrizuje mapy . Parametry jsou inicializovány náhodně, v nezávislé identicky distribuované způsob.
Měřítko NTK s rostoucí šířkou je ovlivněno přesnou parametrizací a inicializací parametrů. To motivuje k takzvané NTK parametrizaci . Tato parametrizace zajišťuje, že pokud jsou parametry jsou inicializovány jako standardní normální proměnné, NTK má konečný netriviální limit. V limitu velké šířky NTK konverguje na deterministický (nenáhodný) limit , která v čase zůstává konstantní.
NTK je výslovně dán , kde je dána množinou rekurzivních rovnic:
kde označuje jádro definované ve smyslu Gaussovo očekávání:
V tomto vzorci jádra jsou takzvaná aktivační jádra[12][13][14] ANN.
Široké plně propojené sítě mají během tréninku lineární parametry
NTK popisuje vývoj neuronových sítí pod gradientním sestupem ve funkčním prostoru. Z tohoto pohledu je duální chápání toho, jak se neuronové sítě vyvíjejí v prostoru parametrů, protože NTK je definována z hlediska gradientu výstupů ANN s ohledem na její parametry. V limitu nekonečné šířky je spojení mezi těmito dvěma perspektivami obzvláště zajímavé. NTK zbývající konstantní během tréninku na velkých šířkách se vyskytuje společně s tím, že ANN je během tréninku dobře popsána Taylorovou expanzí prvního řádu kolem jeho parametrů při inicializaci:[9]
Jiné architektury
NTK lze studovat pro různé ANN architektury[10], zejména Konvoluční neuronové sítě (CNN)[15], Rekurentní neuronové sítě (RNN), Transformátorové neuronové sítě.[16] V takovém nastavení limit velké šířky odpovídá tomu, že se nechá růst počet parametrů, přičemž se udrží počet vrstev fixní: pro CNN, to znamená nechat růst počtu kanálů.
Aplikace
Konvergence na globální minimum
Pro konvexní ztráta funkční s globální minimum, pokud NTK zůstane pozitivní-definitivní během tréninku ztráta ANN konverguje k tomuto minimu jako . Tato vlastnost pozitivní definitivity byla prokázána v řadě případů a přinesla první důkazy o tom, že ANN s velkou šířkou konvergují během tréninku ke globálním minimům.[1][7][17]
Metody jádra
NTK poskytuje důkladné spojení mezi odvozením prováděným ANN s nekonečnou šířkou a provedením metody jádra: když je ztrátová funkce ztráta nejmenších čtverců, odvození provedené ANN je v očekávání rovné regrese jádra hřebene (s nulovým hřebenem) vzhledem k NTK . To naznačuje, že výkon velkých ANN v parametrizaci NTK lze replikovat metodami jádra pro vhodně zvolená jádra.[1][10]
Softwarové knihovny
Neurální tečny je zdarma a open-source Krajta knihovna používaná pro výpočet a odvozování s nekonečnou šířkou NTK a Gaussův proces neurální sítě (NNGP) odpovídající různým běžným architekturám ANN.[18]
Reference
- ^ A b C d Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Grauman, K. (eds.), „Neural Tangent Kernel: Convergence and Generalization in Neural Networks“ (PDF), Pokroky v systémech zpracování neurálních informací 31, Curran Associates, Inc., str. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, vyvoláno 2019-11-27
- ^ Li, Yuanzhi; Liang, Yingyu (2018). "Učení se nadparametrizované neuronové sítě pomocí stochastického gradientního sestupu na strukturovaná data". Pokroky v systémech zpracování neurálních informací.
- ^ Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018). "Konvergenční teorie pro hluboké učení prostřednictvím overparameterisation". Mezinárodní konference o strojovém učení.
- ^ Du, Simon S; Zhai, Xiyu; Poczos, Barnabáš; Aarti, Singh (2019). "Gradientní sestup prokazatelně optimalizuje nadparametrické neuronové sítě". Mezinárodní konference o vzdělávacích reprezentacích.
- ^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Citlivost a zobecnění v neuronových sítích: empirická studie“. arXiv:1802.08760. Bibcode:2018arXiv180208760N. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (04.11.2016). „Analýza modelů hlubokých neuronových sítí pro praktické aplikace“. arXiv:1605.07678. Bibcode:2016arXiv160507678C. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ A b Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (09.11.2018). „Teorie konvergence pro hluboké učení pomocí nadměrné parametrizace“. Mezinárodní konference o strojovém učení: 242–252. arXiv:1811.03962.
- ^ Du, Simon; Lee, Jason; Li, Haochuan; Wang, Liwei; Zhai, Xiyu (2019-05-24). "Gradient Descent najde globální minima hlubokých neuronových sítí". Mezinárodní konference o strojovém učení: 1675–1685. arXiv:1811.03804.
- ^ A b Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S .; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2018-02-15). „Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent“. arXiv:1902.06720. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ A b C Arora, Sanjeev; Du, Simon S; Hu, Wei; Li, Zhiyuan; Salakhutdinov, Russ R; Wang, Ruosong (2019), „Přesný výpočet s nekonečně širokou neurální sítí“, NeurIPS: 8139–8148, arXiv:1904.11955
- ^ Huang, Jiaoyang; Yau, Horng-Tzer (2019-09-17). "Dynamika hlubokých neuronových sítí a hierarchie neurálních tečen". arXiv:1909.08156.
- ^ Cho, Youngmin; Saul, Lawrence K. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J. D .; Williams, C. K. I. (eds.), "Metody jádra pro hluboké učení" (PDF), Pokroky v systémech zpracování neurálních informací 22„Curran Associates, Inc., str. 342–350, vyvoláno 2019-11-27
- ^ Daniely, Amit; Frostig, Roy; Singer, Yoram (2016), Lee, D. D .; Sugiyama, M .; Luxburg, U. V .; Guyon, I. (eds.), „Směrem k hlubšímu porozumění neuronovým sítím: síla inicializace a duální pohled na expresivitu“ (PDF), Pokroky v systémech zpracování neurálních informací 29„Curran Associates, Inc., str. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, vyvoláno 2019-11-27
- ^ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Deep Neural Networks as Gaussian Processes“. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Yang, Greg (2019-02-13). „Škálování limitů širokých neuronových sítí se sdílením hmotnosti: chování Gaussova procesu, nezávislost přechodu a odvození jádra neurčité tangenty“. arXiv:1902.04760 [cs.NE ].
- ^ Hron, Jiří; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). „Nekonečná pozornost: NNGP a NTK pro sítě s hlubokou pozorností“. Mezinárodní konference o strojovém učení. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
- ^ Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018-10-29). "O míře konvergence výcviku rekurentních neuronových sítí". NeurIPS. arXiv:1810.12065.
- ^ Novak, Roman; Xiao, Lechao; Hron, Jiří; Lee, Jaehoon; Alemi, Alexander A .; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), „Neural Tangents: Fast and Easy Infinite Neural Networks in Python“, Mezinárodní konference o vzdělávacích reprezentacích (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N