Velké šířkové limity neuronových sítí - Large width limits of neural networks
Chování neurální sítě se zjednodušuje, protože se nekonečně rozšiřuje. Vlevo, odjet: a Bayesovská neurální síť se dvěma skrytými vrstvami, transformující trojrozměrný vstup (dole) na dvourozměrný výstup (horní). Že jo: výstup funkce hustoty pravděpodobnosti indukované náhodnými váhami sítě. Video: jak se šířka sítě zvětšuje, distribuce výstupu se zjednodušuje a nakonec konverguje k a Gaussův proces neurální sítě v limitu nekonečné šířky.
Umělé neuronové sítě jsou třídou modelů používaných v strojové učení a inspirováno biologické neurální sítě. Jsou klíčovou součástí moderního hluboké učení algoritmy. Výpočet v umělých neuronových sítích je obvykle organizován do sekvenčních vrstev umělé neurony. Počet neuronů ve vrstvě se nazývá šířka vrstvy. Teoretická analýza umělých neuronových sítí někdy zvažuje limitující případ, kdy se šířka vrstvy zvětší nebo zmenší. Tento limit umožňuje jednoduché analytické výroky o předpovědích neuronových sítí, dynamice tréninku, generalizaci a ztrátových plochách. Tato široká vrstva limit je také praktický zájem, protože neuronové sítě s konečnou šířkou často fungují přísně lépe, jak se zvětšuje šířka vrstvy.[1][2][3][4][5][6]
Teoretické přístupy založené na velkém limitu šířky
- The Gaussův proces neuronové sítě (NNGP) odpovídá limitu nekonečné šířky Bayesovských neuronových sítí a distribuci po funkcích realizovaných nebajesovskými neuronovými sítěmi po náhodné inicializaci.[Citace je zapotřebí ]
- Stejné základní výpočty, které se používají k odvození jádra NNGP, se také používají v hluboké šíření informací charakterizovat šíření informací o gradientech a vstupech prostřednictvím hluboké sítě.[7] Tato charakterizace se používá k předpovědi toho, jak trénovatelnost modelu závisí na hyperparametrech architektury a inicializace.
- The Neural Tangent Kernel popisuje vývoj předpovědí neuronových sítí během tréninku sestupu gradientem. V limitu nekonečné šířky se NTK obvykle stává konstantní, což často umožňuje výrazy uzavřené formy pro funkci vypočítanou širokou neurální sítí během tréninku sestupu gradientu. Dynamika tréninku se v podstatě linearizuje.[8]
- Studium neuronových sítí s nekonečnou šířkou s odlišným počátečním měřítkem váhy a vhodně vysokými rychlostmi učení vede ke kvalitativně odlišné nelineární tréninkové dynamice, než jaké popisuje pevné neurální tangensové jádro.[9][10]
- Dynamika katapultu popisuje dynamiku tréninku neuronové sítě v případě, že se logity rozcházejí do nekonečna, když je šířka vrstvy přenesena do nekonečna, a popisuje kvalitativní vlastnosti rané tréninkové dynamiky.[11]
Reference
- ^ Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A .; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018-02-15). „Citlivost a zobecnění v neuronových sítích: empirická studie“. Mezinárodní konference o vzdělávacích reprezentacích. arXiv:1802.08760. Bibcode:2018arXiv180208760N.
- ^ Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (04.11.2016). „Analýza modelů hlubokých neuronových sítí pro praktické aplikace“. arXiv:1605.07678. Bibcode:2016arXiv160507678C. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). „Bayesovské hluboké konvoluční sítě s mnoha kanály jsou gaussovské procesy“. Mezinárodní konference o vzdělávacích reprezentacích. arXiv:1810.05148. Bibcode:2018arXiv181005148N.
- ^ Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). "Směrem k pochopení role nadparametrizace při generalizaci neuronových sítí". Mezinárodní konference o vzdělávacích reprezentacích. arXiv:1805.12076. Bibcode:2018arXiv180512076N.
- ^ Lawrence, Steve; Giles, C. Lee; Tsoi, Ah Chung (1996). „Jaká neuronová síť poskytuje optimální zobecnění? Konvergenční vlastnosti zpětného šíření“. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Bartlett, P.L. (1998). „Ukázková složitost klasifikace vzorů s neuronovými sítěmi: velikost vah je důležitější než velikost sítě.“. Transakce IEEE na teorii informací. 44 (2): 525–536. doi:10.1109/18.661502. ISSN 1557-9654.
- ^ Schoenholz, Samuel S .; Gilmer, Justin; Ganguli, Surya; Sohl-Dickstein, Jascha (2016). "Hluboké šíření informací". Mezinárodní konference o vzdělávacích reprezentacích. arXiv:1611.01232.
- ^ Jacot, Arthur; Gabriel, Franck; Hongler, Clement (2018). "Neural tangenta kernel: Konvergence a generalizace v neuronových sítích". Pokroky v systémech zpracování neurálních informací. arXiv:1806.07572.
- ^ Mei, Song Montanari, Andrea Nguyen, Phan-Minh (2018-04-18). Střední zorné pole krajiny dvouvrstvých neuronových sítí. OCLC 1106295873.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Nguyen, Phan-Minh; Pham, Huy Tuan (2020). „Rigorózní rámec pro střední mez pole vícevrstvých neuronových sítí“. arXiv:2001.11443 [cs.LG ].
- ^ Lewkowycz, Aitor; Bahri, Yasaman; Dyer, Ethan; Sohl-Dickstein, Jascha; Gur-Ari, Guy (2020). "Fáze velké míry učení hlubokého učení: mechanismus katapultu". arXiv:2003.02218 [stat.ML ].