Univerzální věta o aproximaci - Universal approximation theorem
V matematický teorie umělé neuronové sítě, věty o univerzální aproximaci jsou výsledky[1] které zakládají hustota algoritmicky generované třídy funkcí v daném funkčním prostoru zájmu. Tyto výsledky se obvykle týkají schopností aproximace dopředná architektura na prostoru spojitých funkcí mezi dvěma Euklidovské prostory, a aproximace je s ohledem na kompaktní konvergence topologie. Existuje však také celá řada výsledků mezi neeuklidovskými prostory[2] a další běžně používané architektury a obecněji algoritmicky generované sady funkcí, například konvoluční neuronová síť (CNN) architektura,[3][4] radiální základní funkce,[5] nebo neuronové sítě se specifickými vlastnostmi.[6] Největší věty o aproximaci lze analyzovat do dvou tříd. První kvantifikuje aproximační schopnosti neuronových sítí s libovolným počtem umělých neuronů („libovolná šířka"případ) a druhý se zaměřuje na případ s libovolným počtem skrytých vrstev, z nichž každá obsahuje omezený počet umělých neuronů ("libovolná hloubka" případ).
Věty o univerzální aproximaci naznačují, že neuronové sítě mohou zastupovat široká škála zajímavých funkcí, pokud jsou dány odpovídající váhy. Na druhou stranu obvykle neposkytují konstrukci pro váhy, ale pouze uvádějí, že taková konstrukce je možná.
Dějiny
Jedna z prvních verzí libovolná šířka případ byl prokázán George Cybenko v roce 1989 pro sigmoid aktivační funkce.[7] Kurt Hornik ukázal v roce 1991[8] že to není konkrétní volba aktivační funkce, ale spíše samotná vícevrstvá dopředná architektura, která dává neurálním sítím potenciál být univerzálními aproximátory. Moshe Leshno et al v roce 1993[9] a později Allan Pinkus v roce 1999[10] ukázal, že univerzální aproximační vlastnost[11], je ekvivalentní s nepolynomiální aktivační funkcí.
The libovolná hloubka případ byl také studován řadou autorů, například Zhou Lu et al v roce 2017,[12] Boris Hanin a Mark Sellke v roce 2018,[13] a Patrick Kidger a Terry Lyons v roce 2020.[14] Výsledná minimální šířka na vrstvu byla vylepšena [15].
Existuje několik rozšíření věty, například diskontinuální aktivační funkce[9], nekompaktní domény[14], certifikovatelné sítě[16] a alternativní síťové architektury a topologie[14][17]. Úplnou charakteristiku vlastnosti univerzální aproximace na obecných funkčních prostorech uvádí A. Kratsios v [11].
Libovolná šířka případu
Klasická forma věty o univerzální aproximaci pro libovolnou šířku a omezenou hloubku je následující.[7][8][18][19] Rozšiřuje se[10] klasické výsledky George Cybenko a Kurt Hornik.
Věta o univerzální aproximaci: Opravte spojitou funkci (aktivační funkce) a kladná celá čísla . Funkce není polynom, pokud a jen pokud, pro všechny kontinuální funkce (cílová funkce), každý kompaktní podmnožina z a všechny existuje spojitá funkce (výstup vrstvy) se znázorněním
kde jsou skládací afinní mapy a označuje složení po jednotlivých složkách, takže je aproximace vázána
platí pro všechny libovolně malá (vzdálenost od na může být nekonečně malý).
Věta říká, že výsledek první vrstvy dokáže přiblížit jakoukoli dobře vychovanou funkci . Takovou dobře vychovanou funkci lze také aproximovat sítí větší hloubky pomocí stejné konstrukce pro první vrstvu a aproximací funkce identity s pozdějšími vrstvami.
Libovolný případ hloubky
„Duální“ verze věty berou v úvahu sítě omezené šířky a libovolné hloubky. Varianta věty o univerzální aproximaci byla pro případ libovolné hloubky prokázána Zhou Lu et al. v roce 2017.[12] Ukázali, že sítě šířky n + 4 s ReLU aktivační funkce mohou být přibližně jakékoli Lebesgue integrovatelná funkce na n-dimenzionální vstupní prostor s ohledem na vzdálenost pokud je povoleno růst hloubky sítě. Ukázalo se také, že zde byla omezená expresivní síla, pokud byla šířka menší nebo stejná n. Všechno Lebesgue integrovatelné funkce s výjimkou sady nulových měr nelze aproximovat pomocí ReLU sítě šířky n. Ve stejném papíru[12] ukázalo se, že ReLU sítě o šířce n + 1 byly dostatečné k přiblížení kteréhokoli kontinuální funkce n-dimenzionální vstupní proměnné.[20] Následující upřesnění určuje optimální minimální šířku, pro kterou je takové přiblížení možné a je způsobeno [21]
Věta o univerzální aproximaci (Vzdálenost L1, aktivace ReLU, libovolná hloubka, minimální šířka). Pro všechny Bochner-Lebesgue p-integrovatelný funkce a jakékoli , existuje a plně připojen ReLU síť přesně na šířku , uspokojující
- .
- Kromě toho existuje funkce a nějaký , pro které neexistuje č plně připojen ReLU síť o šířce menší než splnění výše uvedené aproximační hranice.
Společně ústřední výsledky [14] a ze dne [2] poskytují následující obecnou větu o univerzální aproximaci pro sítě s omezenou šířkou mezi obecnými vstupními a výstupními prostory.
Věta o univerzální aproximaci (ne-afinní aktivace, libovolná hloubka, Neeuklidovský ). být kompaktní topologický prostor, být metrický prostor, být kontinuální a injektivní mapa funkcí a nechte být průběžnou mapou odečtu s a sekce, s hustým obrazem s (případně prázdnou) hranou s límcem. Nechat být jakýkoliafinní kontinuální funkce, která je průběžně diferencovatelné alespoň v jednom bodě, s nenulovou hodnotou derivát v tom bodě. Nechat označit prostor dopředných neuronových sítí s vstupní neurony, výstupní neurony a libovolný počet skrytých vrstev neurony, takže každý skrytý neuron má aktivační funkci a každý výstupní neuron má identita jako jeho aktivační funkce se vstupní vrstvou a výstupní vrstva . Pak dal jakýkoli a jakékoli , tady existuje takhle
Jinými slovy, je hustý v s ohledem na jednotnou vzdálenost.
Byly stanoveny určité nezbytné podmínky pro omezenou šířku, případ libovolné hloubky, ale mezi známými dostatečnými a nezbytnými podmínkami stále existuje mezera.[12][13][22]
Viz také
- Kolmogorov – Arnoldova věta o reprezentaci
- Reprezentativní věta
- Žádná věta o obědě zdarma
- Věta Stone-Weierstrass
- Fourierova řada
Reference
- ^ Balázs Csanád Csáji (2001) Aproximace pomocí umělých neuronových sítí; Přírodovědecká fakulta; Univerzita Eötvöse Loránda, Maďarsko
- ^ A b Kratsios, Anastasis; Bilokopytov, Eugene (2020). Neeuklidovská univerzální aproximace (PDF). Pokroky v systémech zpracování neurálních informací 33. Curran Associates, Inc.
- ^ Zhou, Ding-Xuan (2020) Univerzita hlubokých konvolučních neuronových sítí; Aplikovaná a výpočetní harmonická analýza 48.2 (2020): 787-794.
- ^ A. Heinecke, J. Ho a W. Hwang (2020); Zdokonalení a univerzální aproximace prostřednictvím řídce propojených konverzních sítí ReLU; IEEE Signal Processing Letters, sv. 27, str. 1175-1179.
- ^ Park, Jooyoung a Irwin W. Sandberg (1991); Univerzální aproximace využívající sítě s radiální funkcí; Neurální výpočet 3,2, 246-257.
- ^ Yarotsky, Dmitry (2018); Univerzální aproximace invariantních map neuronovými sítěmi.
- ^ A b Cybenko, G. (1989) "Aproximace sigmoidální funkce superpozicemi", Matematika řízení, signálů a systémů, 2(4), 303–314. doi:10.1007 / BF02551274
- ^ A b Kurt Hornik (1991) "[1] ", Neuronové sítě, 4(2), 251–257. doi:10.1016 / 0893-6080 (91) 90009-T
- ^ A b Leshno, Moshe; Lin, Vladimir Ya .; Pinkus, Allan; Schocken, Shimon (leden 1993). Msgstr "Vícevrstvé dopředné sítě s nepolynomiální aktivační funkcí mohou aproximovat jakoukoli funkci". Neuronové sítě. 6 (6): 861–867. doi:10.1016 / S0893-6080 (05) 80131-5. S2CID 206089312.
- ^ A b Pinkus, Allan (leden 1999). "Aproximační teorie modelu MLP v neuronových sítích". Acta Numerica. 8: 143–195. doi:10.1017 / S0962492900002919.
- ^ A b Kratsios, Anastasis (7. srpna 2020). "Univerzální aproximační majetek". Annals of Mathematics and Artificial Intelligence. doi:10.1007 / s10472-020-09723-1.
- ^ A b C d Lu, Zhou; Pu, Homgming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei. „Expresivní síla neuronových sítí: pohled ze šířky“. Pokroky v systémech zpracování neurálních informací 30. Curran Associates, Inc .: 6231–6239.
- ^ A b Hanin, Boris; Sellke, Mark (březen 2019). „Přibližování spojitých funkcí sítěmi ReLU s minimální šířkou“. Matematika. MDPI.
- ^ A b C d Kidger, Patrick; Lyons, Terry (červenec 2020). Univerzální aproximace s hlubokými úzkými sítěmi. Konference o teorii učení. arXiv:1905.08539.
- ^ Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (říjen 2020). Minimální šířka pro univerzální aproximaci. Konference o teorii učení. arXiv:1905.08539.
- ^ Baader, Maximilian; Mirman, Matthew; Vechev, Martin (2020). Univerzální aproximace s certifikovanými sítěmi. ICLR.
- ^ Lin, Hongzhou; Jegelka, Stefanie (2018). ResNet se skrytými vrstvami jednoho neuronu je univerzální aproximátor. Pokroky v systémech zpracování neurálních informací 30. Curran Associates, Inc., str. 6169–6178.
- ^ Haykin, Simon (1998). Neuronové sítě: komplexní základ, Díl 2, Prentice Hall. ISBN 0-13-273350-1.
- ^ Hassoun, M. (1995) Základy umělých neuronových sítí MIT Stiskněte, str. 48
- ^ Hanin, B. (2018). Aproximace spojitých funkcí sítěmi ReLU s minimální šířkou. arXiv předtisk arXiv: 1710.11278.
- ^ Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (2020-09-28). „Minimální šířka pro univerzální aproximaci“. ICLR.CS1 maint: více jmen: seznam autorů (odkaz)
- ^ Johnson, Jesse (2019). Hluboké, hubené neurální sítě nejsou univerzálními aproximátory. Mezinárodní konference o vzdělávacích reprezentacích.