Nervové tangentní jádro - Neural tangent kernel

Ve studii o umělé neuronové sítě (PŘÍLOHY), neurální tangenta jádro (NTK) je a jádro který popisuje vývoj hluboké umělé neuronové sítě během jejich výcviku klesání. Umožňuje studovat ANNs pomocí teoretických nástrojů z Metody jádra.

U nejběžnějších architektur neuronových sítí se NTK stává konstantní v limitu velké šířky vrstvy. To umožňuje jednoduché uzavřená forma prohlášení o předpovědích neuronových sítí, dynamice tréninku, generalizaci a ztrátových plochách. Například zaručuje, že dostatečně široké ANN se sbíhají k a globální minimum při tréninku k minimalizaci empirické ztráty. NTK sítí velké šířky také souvisí s několika dalšími velké šířkové limity neuronových sítí.

NTK zavedla v roce 2018 společnost Arthur Jacot, Franck Gabriel a Clément Hongler.[1] To bylo také implicitní v nějaké současné práci.[2][3][4]

Definice

Skalární výstupní případ

An Umělá neuronová síť (ANN) se skalárním výstupem spočívá v rodině funkcí parametrizován vektorem parametrů .

Neural Tangent Kernel (NTK) je jádro definován

V jazyce metody jádra, NTK je jádro spojené s mapa funkcí .

Vektorový výstupní případ

ANN s vektorovým výstupem velikosti spočívá v rodině funkcí parametrizován vektorem parametrů .

V tomto případě Neural Tangent Kernel je matice s hodnotou jádra, s hodnotami v prostoru matice, definované

Derivace

Při optimalizaci parametrů ANN minimalizovat empirickou ztrátu klesání, NTK řídí dynamiku výstupní funkce ANN po celou dobu školení.

Skalární výstupní případ

Pro datová sada se skalárními štítky a a funkce ztráty , související empirická ztráta, definovaná na funkcích , darováno

Při výcviku ANN je vyškolen, aby vyhovoval datové sadě (tj. minimalizoval ) pomocí sestupu gradientu kontinuálního času parametry se vyvíjejí skrz obyčejná diferenciální rovnice:

Během tréninku sleduje výstupní funkce ANN evoluční diferenciální rovnici danou z hlediska NTK:

Tato rovnice ukazuje, jak NTK řídí dynamiku v prostoru funkcí během tréninku.

Vektorový výstupní případ

Pro datová sada s vektorové štítky a a funkce ztráty , odpovídající empirická ztráta funkcí je definováno

Školení prostřednictvím sestupného gradientu kontinuálního času se získá následující vývoj ve funkčním prostoru řízený NTK:

Výklad

NTK představuje vliv ztrátového gradientu s ohledem na příklad o vývoji výstupu ANN přes krok sestupného přechodu: ve skalárním případě to zní

Zejména každý datový bod ovlivňuje vývoj výstupu pro každého po celou dobu školení způsobem zachyceným NTK .

Limit velké šířky

Nedávná teoretická a empirická práce v Deep Learning ukázala, že výkon ANN se přísně zlepšuje, jak se jejich šířky vrstev zvětšují.[5][6] Pro různé ANN architektury, NTK poskytuje přesný vhled do tréninku v tomto režimu s velkou šířkou.[1][7][8][9][10][11]

Široké plně propojené ANN mají deterministický NTK, který zůstává konstantní po celou dobu tréninku

Zvažte ANN s plně připojen vrstvy šířek , aby , kde je složení afinní transformace s bodovou aplikací a nelinearita , kde parametrizuje mapy . Parametry jsou inicializovány náhodně, v nezávislé identicky distribuované způsob.

Měřítko NTK s rostoucí šířkou je ovlivněno přesnou parametrizací a inicializací parametrů. To motivuje k takzvané NTK parametrizaci . Tato parametrizace zajišťuje, že pokud jsou parametry jsou inicializovány jako standardní normální proměnné, NTK má konečný netriviální limit. V limitu velké šířky NTK konverguje na deterministický (nenáhodný) limit , která v čase zůstává konstantní.

NTK je výslovně dán , kde je dána množinou rekurzivních rovnic:

kde označuje jádro definované ve smyslu Gaussovo očekávání:

V tomto vzorci jádra jsou takzvaná aktivační jádra[12][13][14] ANN.

Široké plně propojené sítě mají během tréninku lineární parametry

NTK popisuje vývoj neuronových sítí pod gradientním sestupem ve funkčním prostoru. Z tohoto pohledu je duální chápání toho, jak se neuronové sítě vyvíjejí v prostoru parametrů, protože NTK je definována z hlediska gradientu výstupů ANN s ohledem na její parametry. V limitu nekonečné šířky je spojení mezi těmito dvěma perspektivami obzvláště zajímavé. NTK zbývající konstantní během tréninku na velkých šířkách se vyskytuje společně s tím, že ANN je během tréninku dobře popsána Taylorovou expanzí prvního řádu kolem jeho parametrů při inicializaci:[9]

Jiné architektury

NTK lze studovat pro různé ANN architektury[10], zejména Konvoluční neuronové sítě (CNN)[15], Rekurentní neuronové sítě (RNN), Transformátorové neuronové sítě.[16] V takovém nastavení limit velké šířky odpovídá tomu, že se nechá růst počet parametrů, přičemž se udrží počet vrstev fixní: pro CNN, to znamená nechat růst počtu kanálů.

Aplikace

Konvergence na globální minimum

Pro konvexní ztráta funkční s globální minimum, pokud NTK zůstane pozitivní-definitivní během tréninku ztráta ANN konverguje k tomuto minimu jako . Tato vlastnost pozitivní definitivity byla prokázána v řadě případů a přinesla první důkazy o tom, že ANN s velkou šířkou konvergují během tréninku ke globálním minimům.[1][7][17]

Metody jádra

NTK poskytuje důkladné spojení mezi odvozením prováděným ANN s nekonečnou šířkou a provedením metody jádra: když je ztrátová funkce ztráta nejmenších čtverců, odvození provedené ANN je v očekávání rovné regrese jádra hřebene (s nulovým hřebenem) vzhledem k NTK . To naznačuje, že výkon velkých ANN v parametrizaci NTK lze replikovat metodami jádra pro vhodně zvolená jádra.[1][10]

Softwarové knihovny

Neurální tečny je zdarma a open-source Krajta knihovna používaná pro výpočet a odvozování s nekonečnou šířkou NTK a Gaussův proces neurální sítě (NNGP) odpovídající různým běžným architekturám ANN.[18]

Reference

  1. ^ A b C d Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Grauman, K. (eds.), „Neural Tangent Kernel: Convergence and Generalization in Neural Networks“ (PDF), Pokroky v systémech zpracování neurálních informací 31, Curran Associates, Inc., str. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, vyvoláno 2019-11-27
  2. ^ Li, Yuanzhi; Liang, Yingyu (2018). "Učení se nadparametrizované neuronové sítě pomocí stochastického gradientního sestupu na strukturovaná data". Pokroky v systémech zpracování neurálních informací.
  3. ^ Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018). "Konvergenční teorie pro hluboké učení prostřednictvím overparameterisation". Mezinárodní konference o strojovém učení.
  4. ^ Du, Simon S; Zhai, Xiyu; Poczos, Barnabáš; Aarti, Singh (2019). "Gradientní sestup prokazatelně optimalizuje nadparametrické neuronové sítě". Mezinárodní konference o vzdělávacích reprezentacích.
  5. ^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Citlivost a zobecnění v neuronových sítích: empirická studie“. arXiv:1802.08760. Bibcode:2018arXiv180208760N. Citovat deník vyžaduje | deník = (Pomoc)
  6. ^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (04.11.2016). „Analýza modelů hlubokých neuronových sítí pro praktické aplikace“. arXiv:1605.07678. Bibcode:2016arXiv160507678C. Citovat deník vyžaduje | deník = (Pomoc)
  7. ^ A b Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (09.11.2018). „Teorie konvergence pro hluboké učení pomocí nadměrné parametrizace“. Mezinárodní konference o strojovém učení: 242–252. arXiv:1811.03962.
  8. ^ Du, Simon; Lee, Jason; Li, Haochuan; Wang, Liwei; Zhai, Xiyu (2019-05-24). "Gradient Descent najde globální minima hlubokých neuronových sítí". Mezinárodní konference o strojovém učení: 1675–1685. arXiv:1811.03804.
  9. ^ A b Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S .; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2018-02-15). „Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent“. arXiv:1902.06720. Citovat deník vyžaduje | deník = (Pomoc)
  10. ^ A b C Arora, Sanjeev; Du, Simon S; Hu, Wei; Li, Zhiyuan; Salakhutdinov, Russ R; Wang, Ruosong (2019), „Přesný výpočet s nekonečně širokou neurální sítí“, NeurIPS: 8139–8148, arXiv:1904.11955
  11. ^ Huang, Jiaoyang; Yau, Horng-Tzer (2019-09-17). "Dynamika hlubokých neuronových sítí a hierarchie neurálních tečen". arXiv:1909.08156.
  12. ^ Cho, Youngmin; Saul, Lawrence K. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J. D .; Williams, C. K. I. (eds.), "Metody jádra pro hluboké učení" (PDF), Pokroky v systémech zpracování neurálních informací 22„Curran Associates, Inc., str. 342–350, vyvoláno 2019-11-27
  13. ^ Daniely, Amit; Frostig, Roy; Singer, Yoram (2016), Lee, D. D .; Sugiyama, M .; Luxburg, U. V .; Guyon, I. (eds.), „Směrem k hlubšímu porozumění neuronovým sítím: síla inicializace a duální pohled na expresivitu“ (PDF), Pokroky v systémech zpracování neurálních informací 29„Curran Associates, Inc., str. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, vyvoláno 2019-11-27
  14. ^ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Deep Neural Networks as Gaussian Processes“. Citovat deník vyžaduje | deník = (Pomoc)
  15. ^ Yang, Greg (2019-02-13). „Škálování limitů širokých neuronových sítí se sdílením hmotnosti: chování Gaussova procesu, nezávislost přechodu a odvození jádra neurčité tangenty“. arXiv:1902.04760 [cs.NE ].
  16. ^ Hron, Jiří; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). „Nekonečná pozornost: NNGP a NTK pro sítě s hlubokou pozorností“. Mezinárodní konference o strojovém učení. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
  17. ^ Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018-10-29). "O míře konvergence výcviku rekurentních neuronových sítí". NeurIPS. arXiv:1810.12065.
  18. ^ Novak, Roman; Xiao, Lechao; Hron, Jiří; Lee, Jaehoon; Alemi, Alexander A .; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), „Neural Tangents: Fast and Easy Infinite Neural Networks in Python“, Mezinárodní konference o vzdělávacích reprezentacích (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N