Nervové tangentní jádro - Neural tangent kernel

Ve studii o umělé neuronové sítě (PŘÍLOHY), neurální tangenta jádro (NTK) je a jádro který popisuje vývoj hluboké umělé neuronové sítě během jejich výcviku klesání. Umožňuje studovat ANNs pomocí teoretických nástrojů z Metody jádra.

U nejběžnějších architektur neuronových sítí se NTK stává konstantní v limitu velké šířky vrstvy. To umožňuje jednoduché uzavřená forma prohlášení o předpovědích neuronových sítí, dynamice tréninku, generalizaci a ztrátových plochách. Například zaručuje, že dostatečně široké ANN se sbíhají k a globální minimum při tréninku k minimalizaci empirické ztráty. NTK sítí velké šířky také souvisí s několika dalšími velké šířkové limity neuronových sítí.

NTK zavedla v roce 2018 společnost Arthur Jacot, Franck Gabriel a Clément Hongler.^[1] To bylo také implicitní v nějaké současné práci.^[2]^[3]^[4]

Definice

Skalární výstupní případ

An Umělá neuronová síť (ANN) se skalárním výstupem spočívá v rodině funkcí ${ displaystyle f left ( cdot, theta right): mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ parametrizován vektorem parametrů ${ displaystyle theta in mathbb {R} ^ {P}}$ .

Neural Tangent Kernel (NTK) je jádro ${ displaystyle Theta: mathbb {R} ^ {n _ { mathrm {in}}} times mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ definován

{ displaystyle Theta left (x, y; theta right) = sum _ {p = 1} ^ {P} částečný _ { theta _ {p}} f left (x; theta right) částečné _ { theta _ {p}} f left (y; theta right).}

V jazyce metody jádra, NTK

{ displaystyle Theta}

je jádro spojené s mapa funkcí

{ displaystyle left (x mapsto částečné _ { theta _ {p}} f left (x; theta right) right) _ {p = 1, ldots, P}}

.

Vektorový výstupní případ

ANN s vektorovým výstupem velikosti ${ displaystyle n _ { mathrm {out}}}$ spočívá v rodině funkcí ${ displaystyle f left ( cdot; theta right): mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R} ^ {n _ { mathrm {out}}} }$ parametrizován vektorem parametrů ${ displaystyle theta in mathbb {R} ^ {P}}$ .

V tomto případě Neural Tangent Kernel ${ displaystyle Theta: mathbb {R} ^ {n _ { mathrm {in}}} times mathbb {R} ^ {n _ { mathrm {in}}} do { mathcal {M}} _ {n _ { mathrm {out}}} left ( mathbb {R} right)}$ je matice s hodnotou jádra, s hodnotami v prostoru ${ displaystyle n _ { mathrm {out}} krát n _ { mathrm {out}}}$ matice, definované

{ displaystyle Theta _ {k, l} vlevo (x, y; theta vpravo) = součet _ {p = 1} ^ {P} částečné _ { theta _ {p}} f_ {k } left (x; theta right) částečné _ { theta _ {p}} f_ {l} left (y; theta right).}

Derivace

Při optimalizaci parametrů ${ displaystyle theta in mathbb {R} ^ {P}}$ ANN minimalizovat empirickou ztrátu klesání, NTK řídí dynamiku výstupní funkce ANN ${ displaystyle f _ { theta}}$ po celou dobu školení.

Skalární výstupní případ

Pro datová sada ${ displaystyle left (x_ {i} right) _ {i = 1, ldots, n} podmnožina mathbb {R} ^ {n _ { mathrm {in}}}}$ se skalárními štítky ${ displaystyle left (z_ {i} right) _ {i = 1, ldots, n} podmnožina mathbb {R}}$ a a funkce ztráty ${ displaystyle c: mathbb {R} krát mathbb {R} do mathbb {R}}$ , související empirická ztráta, definovaná na funkcích ${ displaystyle f: mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ , darováno

{ displaystyle { mathcal {C}} levý (f pravý) = součet _ {i = 1} ^ {n} c levý (f levý (x_ {i} pravý), z_ {i} že jo).}

Při výcviku ANN

{ displaystyle f left ( cdot; theta right): mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}

je vyškolen, aby vyhovoval datové sadě (tj. minimalizoval

{ displaystyle { mathcal {C}}}

) pomocí sestupu gradientu kontinuálního času parametry

{ displaystyle left ( theta left (t right) right) _ {t geq 0}}

se vyvíjejí skrz obyčejná diferenciální rovnice:

{ displaystyle částečné _ {t} theta levé (t pravé) = - nabla { mathcal {C}} levé (f levé ( cdot; theta pravé) pravé).}

Během tréninku sleduje výstupní funkce ANN evoluční diferenciální rovnici danou z hlediska NTK:

{ displaystyle částečné _ {t} f levé (x; theta levé (t pravé) pravé) = - součet _ {i = 1} ^ {n} theta levé (x, x_ { i}; theta right) částečné _ {w} c left (w, z_ {i} right) { Big |} _ {w = f left (x_ {i}; theta left ( t right) right)}.}

Tato rovnice ukazuje, jak NTK řídí dynamiku ${ Displaystyle f left ( cdot; theta left (t right) right)}$ v prostoru funkcí ${ displaystyle mathbb {R} ^ {n _ { mathrm {in}}} do mathbb {R}}$ během tréninku.

Vektorový výstupní případ

Pro datová sada ${ displaystyle left (x_ {i} right) _ {i = 1, ldots, n} podmnožina mathbb {R} ^ {n _ { mathrm {in}}}}$ s vektorové štítky ${ displaystyle left (z_ {i} right) _ {i = 1, ldots, n} podmnožina mathbb {R} ^ {n _ { mathrm {out}}}}$ a a funkce ztráty ${ displaystyle c: mathbb {R} ^ {n _ { mathrm {out}}} times mathbb {R} ^ {n _ { mathrm {out}}} to mathbb {R}}$ , odpovídající empirická ztráta funkcí ${ displaystyle f: mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R} ^ {n _ { mathrm {out}}}}$ je definováno

{ displaystyle { mathcal {C}} levý (f pravý) = součet _ {i = 1} ^ {n} c levý (f levý (x_ {i} pravý), z_ {i} že jo).}

Školení

{ displaystyle f _ { theta vlevo (t vpravo)}}

prostřednictvím sestupného gradientu kontinuálního času se získá následující vývoj ve funkčním prostoru řízený NTK:

{ displaystyle částečný _ {t} f_ {k} levý (x; theta levý (t pravý) pravý) = - součet _ {i = 1} ^ {n} součet _ {l = 1} ^ {n _ { mathrm {out}}} Theta _ {k, l} left (x, x_ {i}; theta right) částečné _ {w_ {l}} c left ( left (w_ {1}, ldots, w_ {n _ { mathrm {out}}} right), z_ {i} right) { Big |} _ {w = f left (x_ {i}; theta left (t right) right)}.}

Výklad

NTK ${ displaystyle Theta left (x, x_ {i}; theta right)}$ představuje vliv ztrátového gradientu ${ displaystyle částečné _ {w} c levé (w, z_ {i} pravé) { velké |} _ {w = f levé (x_ {i}; theta pravé)}}$ s ohledem na příklad ${ displaystyle i}$ o vývoji výstupu ANN ${ displaystyle f left (x; theta right)}$ přes krok sestupného přechodu: ve skalárním případě to zní

{ Displaystyle f left (x; theta left (t + epsilon right) right) -f left (x; theta left (t right) right) přibližně epsilon součet _ { i = 1} ^ {n} Theta left (x, x_ {i}; theta left (t right) right) partial _ {w} c left (w, z_ {i} right ) { big |} _ {w = f left (x_ {i}; theta right)}.}

Zejména každý datový bod

{ displaystyle x_ {i}}

ovlivňuje vývoj výstupu

{ displaystyle f left (x; theta right)}

pro každého

{ displaystyle x}

po celou dobu školení způsobem zachyceným NTK

{ displaystyle Theta vlevo (x, x_ {i}; theta vpravo)}

.

Limit velké šířky

Nedávná teoretická a empirická práce v Deep Learning ukázala, že výkon ANN se přísně zlepšuje, jak se jejich šířky vrstev zvětšují.^[5]^[6] Pro různé ANN architektury, NTK poskytuje přesný vhled do tréninku v tomto režimu s velkou šířkou.^[1]^[7]^[8]^[9]^[10]^[11]

Široké plně propojené ANN mají deterministický NTK, který zůstává konstantní po celou dobu tréninku

Zvažte ANN s plně připojen vrstvy ${ displaystyle ell = 0, ldots, L}$ šířek ${ displaystyle n_ {0} = n _ { mathrm {in}}, n_ {1}, ldots, n_ {L} = n _ { mathrm {out}}}$ , aby ${ displaystyle f left ( cdot; theta right) = R_ {L-1} circ cdots circ R_ {0}}$ , kde ${ displaystyle R _ { ell} = sigma circ A _ { ell}}$ je složení afinní transformace ${ displaystyle A_ {i}}$ s bodovou aplikací a nelinearita ${ displaystyle sigma: mathbb {R} do mathbb {R}}$ , kde ${ displaystyle theta}$ parametrizuje mapy ${ displaystyle A_ {0}, ldots, A_ {L-1}}$ . Parametry ${ displaystyle theta in mathbb {R} ^ {P}}$ jsou inicializovány náhodně, v nezávislé identicky distribuované způsob.

Měřítko NTK s rostoucí šířkou je ovlivněno přesnou parametrizací ${ displaystyle A_ {i}}$ a inicializací parametrů. To motivuje k takzvané NTK parametrizaci ${ displaystyle A _ { ell} left (x right) = { frac {1} { sqrt {n _ { ell}}}} W ^ { left ( ell right)} x + b ^ { left ( ell right)}}$ . Tato parametrizace zajišťuje, že pokud jsou parametry ${ displaystyle theta in mathbb {R} ^ {P}}$ jsou inicializovány jako standardní normální proměnné, NTK má konečný netriviální limit. V limitu velké šířky NTK konverguje na deterministický (nenáhodný) limit ${ displaystyle Theta _ { infty}}$ , která v čase zůstává konstantní.

NTK ${ displaystyle Theta _ { infty}}$ je výslovně dán ${ displaystyle Theta _ { infty} = Theta ^ { vlevo (L vpravo)}}$ , kde ${ displaystyle Theta ^ { vlevo (L vpravo)}}$ je dána množinou rekurzivních rovnic:

{ displaystyle { begin {aligned} Theta ^ { left (1 right)} left (x, y right) & = Sigma ^ { left (1 right)} left (x, y right), Sigma ^ { left (1 right)} left (x, y right) & = { frac {1} {n _ { mathrm {in}}}} x ^ {T } y + 1, Theta ^ { left ( ell +1 right)} left (x, y right) & = Theta ^ { left ( ell right)} left (x , y right) { dot { Sigma}} ^ { left ( ell +1 right)} left (x, y right) + Sigma ^ { left ( ell +1 right) } left (x, y right), Sigma ^ { left ( ell +1 right)} left (x, y right) & = L _ { Sigma ^ { left ( ell right)}} ^ { sigma} left (x, y right), { dot { Sigma}} ^ { left ( ell +1 right)} left (x, y right) & = L _ { Sigma ^ { left ( ell right)}} ^ { dot { sigma}}, end {aligned}}}

kde ${ displaystyle L_ {K} ^ {f}}$ označuje jádro definované ve smyslu Gaussovo očekávání:

{ displaystyle L_ {K} ^ {f} left (x, y right) = mathbb {E} _ { left (X, Y right) sim { mathcal {N}} left (0 , { begin {pmatrix} K left (x, x right) & K left (x, y right) K left (y, x right) & K left (y, y right) konec {pmatrix}} right)} left [f left (X right) f left (Y right) right].}

V tomto vzorci jádra ${ displaystyle Sigma ^ { left ( ell right)}}$ jsou takzvaná aktivační jádra^[12]^[13]^[14] ANN.

Široké plně propojené sítě mají během tréninku lineární parametry

NTK popisuje vývoj neuronových sítí pod gradientním sestupem ve funkčním prostoru. Z tohoto pohledu je duální chápání toho, jak se neuronové sítě vyvíjejí v prostoru parametrů, protože NTK je definována z hlediska gradientu výstupů ANN s ohledem na její parametry. V limitu nekonečné šířky je spojení mezi těmito dvěma perspektivami obzvláště zajímavé. NTK zbývající konstantní během tréninku na velkých šířkách se vyskytuje společně s tím, že ANN je během tréninku dobře popsána Taylorovou expanzí prvního řádu kolem jeho parametrů při inicializaci:^[9]

{ Displaystyle f left (x; theta (t) right) = f left (x; theta (0) right) + nabla _ { theta} f left (x; theta (0 ) right) left ( theta (t) - theta (0) right) + { mathcal {O}} left ( min left (n_ {1} dots n_ {L-1} vpravo) ^ {- { frac {1} {2}}} vpravo).}

Jiné architektury

NTK lze studovat pro různé ANN architektury^[10], zejména Konvoluční neuronové sítě (CNN)^[15], Rekurentní neuronové sítě (RNN), Transformátorové neuronové sítě.^[16] V takovém nastavení limit velké šířky odpovídá tomu, že se nechá růst počet parametrů, přičemž se udrží počet vrstev fixní: pro CNN, to znamená nechat růst počtu kanálů.

Aplikace

Konvergence na globální minimum

Pro konvexní ztráta funkční ${ displaystyle { mathcal {C}}}$ s globální minimum, pokud NTK zůstane pozitivní-definitivní během tréninku ztráta ANN ${ displaystyle { mathcal {C}} vlevo (f levý ( cdot; theta levý (t pravý) pravý) pravý)}$ konverguje k tomuto minimu jako ${ displaystyle t to infty}$ . Tato vlastnost pozitivní definitivity byla prokázána v řadě případů a přinesla první důkazy o tom, že ANN s velkou šířkou konvergují během tréninku ke globálním minimům.^[1]^[7]^[17]

Metody jádra

NTK poskytuje důkladné spojení mezi odvozením prováděným ANN s nekonečnou šířkou a provedením metody jádra: když je ztrátová funkce ztráta nejmenších čtverců, odvození provedené ANN je v očekávání rovné regrese jádra hřebene (s nulovým hřebenem) vzhledem k NTK ${ displaystyle Theta _ { infty}}$ . To naznačuje, že výkon velkých ANN v parametrizaci NTK lze replikovat metodami jádra pro vhodně zvolená jádra.^[1]^[10]

Softwarové knihovny

Neurální tečny je zdarma a open-source Krajta knihovna používaná pro výpočet a odvozování s nekonečnou šířkou NTK a Gaussův proces neurální sítě (NNGP) odpovídající různým běžným architekturám ANN.^[18]

Reference

^ ^A ^b ^C ^d Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Grauman, K. (eds.), „Neural Tangent Kernel: Convergence and Generalization in Neural Networks“ (PDF), Pokroky v systémech zpracování neurálních informací 31, Curran Associates, Inc., str. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, vyvoláno 2019-11-27
^ Li, Yuanzhi; Liang, Yingyu (2018). "Učení se nadparametrizované neuronové sítě pomocí stochastického gradientního sestupu na strukturovaná data". Pokroky v systémech zpracování neurálních informací.
^ Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018). "Konvergenční teorie pro hluboké učení prostřednictvím overparameterisation". Mezinárodní konference o strojovém učení.
^ Du, Simon S; Zhai, Xiyu; Poczos, Barnabáš; Aarti, Singh (2019). "Gradientní sestup prokazatelně optimalizuje nadparametrické neuronové sítě". Mezinárodní konference o vzdělávacích reprezentacích.
^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Citlivost a zobecnění v neuronových sítích: empirická studie“. arXiv:1802.08760. Bibcode:2018arXiv180208760N. Citovat deník vyžaduje | deník = (Pomoc)
^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (04.11.2016). „Analýza modelů hlubokých neuronových sítí pro praktické aplikace“. arXiv:1605.07678. Bibcode:2016arXiv160507678C. Citovat deník vyžaduje | deník = (Pomoc)
^ ^A ^b Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (09.11.2018). „Teorie konvergence pro hluboké učení pomocí nadměrné parametrizace“. Mezinárodní konference o strojovém učení: 242–252. arXiv:1811.03962.
^ Du, Simon; Lee, Jason; Li, Haochuan; Wang, Liwei; Zhai, Xiyu (2019-05-24). "Gradient Descent najde globální minima hlubokých neuronových sítí". Mezinárodní konference o strojovém učení: 1675–1685. arXiv:1811.03804.
^ ^A ^b Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S .; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2018-02-15). „Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent“. arXiv:1902.06720. Citovat deník vyžaduje | deník = (Pomoc)
^ ^A ^b ^C Arora, Sanjeev; Du, Simon S; Hu, Wei; Li, Zhiyuan; Salakhutdinov, Russ R; Wang, Ruosong (2019), „Přesný výpočet s nekonečně širokou neurální sítí“, NeurIPS: 8139–8148, arXiv:1904.11955
^ Huang, Jiaoyang; Yau, Horng-Tzer (2019-09-17). "Dynamika hlubokých neuronových sítí a hierarchie neurálních tečen". arXiv:1909.08156.
^ Cho, Youngmin; Saul, Lawrence K. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J. D .; Williams, C. K. I. (eds.), "Metody jádra pro hluboké učení" (PDF), Pokroky v systémech zpracování neurálních informací 22„Curran Associates, Inc., str. 342–350, vyvoláno 2019-11-27
^ Daniely, Amit; Frostig, Roy; Singer, Yoram (2016), Lee, D. D .; Sugiyama, M .; Luxburg, U. V .; Guyon, I. (eds.), „Směrem k hlubšímu porozumění neuronovým sítím: síla inicializace a duální pohled na expresivitu“ (PDF), Pokroky v systémech zpracování neurálních informací 29„Curran Associates, Inc., str. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, vyvoláno 2019-11-27
^ Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Deep Neural Networks as Gaussian Processes“. Citovat deník vyžaduje | deník = (Pomoc)
^ Yang, Greg (2019-02-13). „Škálování limitů širokých neuronových sítí se sdílením hmotnosti: chování Gaussova procesu, nezávislost přechodu a odvození jádra neurčité tangenty“. arXiv:1902.04760 [cs.NE ].
^ Hron, Jiří; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). „Nekonečná pozornost: NNGP a NTK pro sítě s hlubokou pozorností“. Mezinárodní konference o strojovém učení. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
^ Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018-10-29). "O míře konvergence výcviku rekurentních neuronových sítí". NeurIPS. arXiv:1810.12065.
^ Novak, Roman; Xiao, Lechao; Hron, Jiří; Lee, Jaehoon; Alemi, Alexander A .; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), „Neural Tangents: Fast and Easy Infinite Neural Networks in Python“, Mezinárodní konference o vzdělávacích reprezentacích (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N

[:0-1] A ^b ^C ^d Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Grauman, K. (eds.), „Neural Tangent Kernel: Convergence and Generalization in Neural Networks“ (PDF), Pokroky v systémech zpracování neurálních informací 31, Curran Associates, Inc., str. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, vyvoláno 2019-11-27

[2] Li, Yuanzhi; Liang, Yingyu (2018). "Učení se nadparametrizované neuronové sítě pomocí stochastického gradientního sestupu na strukturovaná data". Pokroky v systémech zpracování neurálních informací.

[3] Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018). "Konvergenční teorie pro hluboké učení prostřednictvím overparameterisation". Mezinárodní konference o strojovém učení.

[4] Du, Simon S; Zhai, Xiyu; Poczos, Barnabáš; Aarti, Singh (2019). "Gradientní sestup prokazatelně optimalizuje nadparametrické neuronové sítě". Mezinárodní konference o vzdělávacích reprezentacích.

[5] Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Citlivost a zobecnění v neuronových sítích: empirická studie“. arXiv:1802.08760. Bibcode:2018arXiv180208760N. Citovat deník vyžaduje | deník = (Pomoc)

[6] Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (04.11.2016). „Analýza modelů hlubokých neuronových sítí pro praktické aplikace“. arXiv:1605.07678. Bibcode:2016arXiv160507678C. Citovat deník vyžaduje | deník = (Pomoc)

[:2-7] A ^b Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (09.11.2018). „Teorie konvergence pro hluboké učení pomocí nadměrné parametrizace“. Mezinárodní konference o strojovém učení: 242–252. arXiv:1811.03962.

[:5-8] Du, Simon; Lee, Jason; Li, Haochuan; Wang, Liwei; Zhai, Xiyu (2019-05-24). "Gradient Descent najde globální minima hlubokých neuronových sítí". Mezinárodní konference o strojovém učení: 1675–1685. arXiv:1811.03804.

[Lee-9] A ^b Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S .; Bahri, Yasaman; Novak, Roman; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2018-02-15). „Wide Neural Networks of Any Depth Evolve as Linear Models Under Gradient Descent“. arXiv:1902.06720. Citovat deník vyžaduje | deník = (Pomoc)

[:1-10] A ^b ^C Arora, Sanjeev; Du, Simon S; Hu, Wei; Li, Zhiyuan; Salakhutdinov, Russ R; Wang, Ruosong (2019), „Přesný výpočet s nekonečně širokou neurální sítí“, NeurIPS: 8139–8148, arXiv:1904.11955

[11] Huang, Jiaoyang; Yau, Horng-Tzer (2019-09-17). "Dynamika hlubokých neuronových sítí a hierarchie neurálních tečen". arXiv:1909.08156.

[12] Cho, Youngmin; Saul, Lawrence K. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J. D .; Williams, C. K. I. (eds.), "Metody jádra pro hluboké učení" (PDF), Pokroky v systémech zpracování neurálních informací 22„Curran Associates, Inc., str. 342–350, vyvoláno 2019-11-27

[13] Daniely, Amit; Frostig, Roy; Singer, Yoram (2016), Lee, D. D .; Sugiyama, M .; Luxburg, U. V .; Guyon, I. (eds.), „Směrem k hlubšímu porozumění neuronovým sítím: síla inicializace a duální pohled na expresivitu“ (PDF), Pokroky v systémech zpracování neurálních informací 29„Curran Associates, Inc., str. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, vyvoláno 2019-11-27

[14] Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Deep Neural Networks as Gaussian Processes“. Citovat deník vyžaduje | deník = (Pomoc)

[15] Yang, Greg (2019-02-13). „Škálování limitů širokých neuronových sítí se sdílením hmotnosti: chování Gaussova procesu, nezávislost přechodu a odvození jádra neurčité tangenty“. arXiv:1902.04760 [cs.NE ].

[16] Hron, Jiří; Bahri, Yasaman; Sohl-Dickstein, Jascha; Novak, Roman (2020-06-18). „Nekonečná pozornost: NNGP a NTK pro sítě s hlubokou pozorností“. Mezinárodní konference o strojovém učení. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.

[:3-17] Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao (2018-10-29). "O míře konvergence výcviku rekurentních neuronových sítí". NeurIPS. arXiv:1810.12065.

[18] Novak, Roman; Xiao, Lechao; Hron, Jiří; Lee, Jaehoon; Alemi, Alexander A .; Sohl-Dickstein, Jascha; Schoenholz, Samuel S. (2019-12-05), „Neural Tangents: Fast and Easy Infinite Neural Networks in Python“, Mezinárodní konference o vzdělávacích reprezentacích (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]