Usměrňovač (neuronové sítě) - Rectifier (neural networks)
V kontextu umělé neuronové sítě, usměrňovač je aktivační funkce definována jako pozitivní část svého argumentu:
kde X je vstup do neuronu. Toto se také nazývá a funkce rampy a je analogický k půlvlnová náprava v elektrotechnice.
Tento aktivační funkce byl poprvé představen dynamické síti Hahnloserem a kol. v roce 2000[pochybný ] se silným biologický motivace a matematická zdůvodnění.[1][2] Poprvé bylo prokázáno v roce 2011, aby bylo možné lépe trénovat hlubší sítě,[3] ve srovnání s široce používanými aktivačními funkcemi před rokem 2011, např logistický sigmoid (který je inspirován teorie pravděpodobnosti; vidět logistická regrese ) a jeho praktičtější[4] protějšek, hyperbolická tečna. Usměrňovač je od roku 2017[Aktualizace], nejpopulárnější aktivační funkce pro hluboké neuronové sítě.[5]
Jednotka využívající usměrňovač se také nazývá a usměrněná lineární jednotka (ReLU).[6]
Rektifikované lineární jednotky nacházejí uplatnění v počítačové vidění[3] a rozpoznávání řeči[7][8] použitím hluboké neurální sítě a výpočetní neurověda.[9][10][11]
Výhody
- Biologická věrohodnost: Jednostranný, ve srovnání s antisymetrie z tanh.[nenásledují ]
- Řídká aktivace: Například v náhodně inicializované síti je aktivováno pouze asi 50% skrytých jednotek (mají nenulový výstup).
- Lepší šíření gradientu: Méně mizející přechod problémy ve srovnání s sigmoidálními aktivačními funkcemi, které saturují v obou směrech.[3]
- Efektivní výpočet: Pouze srovnání, sčítání a násobení.
- Měřítko invariantní: .
Opravné aktivační funkce byly použity k oddělení specifické excitace a nespecifické inhibice v pyramidě neurální abstrakce, která byla trénována supervizovaným způsobem, aby se naučila několik úkolů počítačového vidění.[12] V roce 2011,[3] Ukázalo se, že použití usměrňovače jako nelinearity umožňuje hluboký trénink pod dohledem neuronové sítě bez nutnosti bez dozoru předškolení. Rektifikované lineární jednotky ve srovnání s sigmoidní funkce nebo podobné aktivační funkce, umožňují rychlejší a efektivnější trénování hlubokých neurálních architektur na velkých a složitých datových sadách.
Potenciální problémy
- Nediferencovatelné na nule; je však diferencovatelný kdekoli jinde a hodnotu derivace na nule lze libovolně zvolit jako 0 nebo 1.
- Není na střed.
- Bez omezení.
- Problém umírajícího ReLU: Neurony ReLU lze někdy tlačit do stavů, ve kterých se stanou neaktivními v podstatě pro všechny vstupy. V tomto stavu nepronikají neurony zpět žádné přechody, a tak se neuron zasekne v trvale neaktivním stavu a „zemře“. Toto je forma mizející přechodový problém. V některých případech může velké množství neuronů v síti uváznout v mrtvých stavech, což účinně snižuje kapacitu modelu. Tento problém obvykle nastává, když je nastavena příliš vysoká rychlost učení. Může to být zmírněno použitím děravých ReLU, které přiřazují malý pozitivní sklon X <0, ale výkon je snížen.
Varianty
Gaussova chyba lineární jednotka (GELU)
GELU je plynulá aproximace usměrňovače. Má non-monotónní „bouli“, když x <0, a slouží jako výchozí aktivace pro modely jako BERT.[13]
,
kde Φ (x) je kumulativní distribuční funkce normy normální distribuce.
SiLU
SiLU (sigmoidní lineární jednotka) je další plynulá aproximace poprvé představená v článku GELU.[13]
Softplus
Hladkou aproximací usměrňovače je analytická funkce
který se nazývá softplus[14][3] nebo SmoothReLU funkce.[15] Pro velké záporné to je asi takže těsně nad 0, zatímco pro velké klady o takže právě výše .
Parametr ostrosti mohou být zahrnuty:
Derivátem softplusu je logistická funkce. Počínaje parametrickou verzí,
Logistické sigmoidní funkce je plynulá aproximace derivace usměrňovače, Funkce Heaviside step.
Multivariační zobecnění softplusu s jednou proměnnou je LogSumExp s prvním argumentem nastaveným na nulu:
Funkce LogSumExp je
a jeho gradient je softmax; softmax s prvním argumentem nastaveným na nulu je vícerozměrné zobecnění logistické funkce. LogSumExp i softmax se používají ve strojovém učení.
Děravá ReLU
Děravé ReLU umožňují malý pozitivní gradient, když jednotka není aktivní.[8]
Parametrická ReLU
Parametrické ReLU (PReLUs) posouvají tuto myšlenku dále tím, že činí koeficient úniku do parametru, který se učí spolu s dalšími parametry neurální sítě.[16]
Všimněte si, že pro ≤ 1 je to ekvivalent k
a má tedy vztah k sítím „maxout“.[16]
ELU
Exponenciální lineární jednotky se snaží přiblížit střední aktivaci nule, což zrychluje učení. Ukázalo se, že ELU mohou získat vyšší přesnost klasifikace než ReLU.[17]
kde je hyperparametr být naladěn a je omezení.
Viz také
Reference
- ^ Hahnloser, R .; Sarpeshkar, R .; Mahowald, M. A .; Douglas, R. J .; Seung, H. S. (2000). „Digitální výběr a analogové zesílení koexistují v křemíkovém obvodu inspirovaném kůrou“. Příroda. 405 (6789): 947–951. Bibcode:2000Natur.405..947H. doi:10.1038/35016072. PMID 10879535. S2CID 4399014.
- ^ Hahnloser, R .; Seung, H. S. (2001). Povolené a zakázané sady v symetrických prahových lineárních sítích. NIPS 2001.
- ^ A b C d E Xavier Glorot, Antoine Bordes a Yoshua Bengio (2011). Hluboce řídké neuronové sítě (PDF). AISTATS.
Funkce aktivace usměrňovače a softplusu. Druhý je hladkou verzí prvního.
CS1 maint: používá parametr autoři (odkaz) - ^ Yann LeCun, Leon Bottou, Genevieve B. Orr a Klaus-Robert Müller (1998). „Efektivní BackProp“ (PDF). V G. Orr; K. Müller (eds.). Neuronové sítě: triky obchodu. Springer.CS1 maint: používá parametr autoři (odkaz)
- ^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16. října 2017). Msgstr "Hledání aktivačních funkcí". arXiv:1710.05941 [cs.NE ].
- ^ Vinod Nair a Geoffrey Hinton (2010). Rektifikované lineární jednotky zlepšují omezené Boltzmannovy stroje (PDF). ICML.CS1 maint: používá parametr autoři (odkaz)
- ^ László Tóth (2013). Rozpoznání telefonu s neuronovými sítěmi Deep Sparse Rectifier (PDF). ICASSP.CS1 maint: používá parametr autoři (odkaz)
- ^ A b Andrew L. Maas, Awni Y. Hannun, Andrew Y. Ng (2014). Usměrňovače nelinearity zlepšují akustické modely neuronových sítí.
- ^ Hansel, D .; van Vreeswijk, C. (2002). "Jak hluk přispívá k kontrastní invariantnosti ladění orientace ve zrakové kůře kočky". J. Neurosci. 22 (12): 5118–5128. doi:10.1523 / JNEUROSCI.22-12-05118.2002. PMC 6757721. PMID 12077207.
- ^ Kadmon, Jonathan; Sompolinsky, Haim (2015-11-19). "Přechod do chaosu v náhodných neuronových sítích". Fyzická kontrola X. 5 (4): 041030. arXiv:1508.06486. Bibcode:2015PhRvX ... 5d1030K. doi:10.1103 / PhysRevX.5.041030. S2CID 7813832.
- ^ Engelken, Rainer; Vlk, Fred; Abbott, L. F. (3. června 2020). "Lyapunovova spektra chaotických rekurentních neuronových sítí". arXiv:2006.02427 [nlin.CD ].
- ^ Behnke, Sven (2003). Hierarchické neurální sítě pro interpretaci obrazu. Přednášky z informatiky. 2766. Springer. doi:10.1007 / b11963. ISBN 978-3-540-40722-5. S2CID 1304548.
- ^ A b Hendrycks, Dan; Gimpel, Kevin (2016). "Gaussovské chybové lineární jednotky (GELU)". arXiv:1606.08415 [cs.LG ].
- ^ Dugas, Charles; Bengio, Yoshua; Bélisle, François; Nadeau, Claude; Garcia, René (01.01.2000). „Začlenění funkčních znalostí druhého řádu pro lepší stanovení cen opcí“ (PDF). Sborník příspěvků ze 13. mezinárodní konference o systémech zpracování neurálních informací (NIPS'00). MIT Press: 451–457.
Protože sigmoid h má pozitivní první derivaci, její primitiv, který nazýváme softplus, je konvexní.
- ^ "Přední vrstva Smooth Rectifier Linear Unit (SmoothReLU)". Příručka pro vývojáře knihovny Intel Data Analytics Acceleration Library. 2017. Citováno 2018-12-04.
- ^ A b On, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2015). „Ponoříme se hluboko do usměrňovačů: překonáme výkon na lidské úrovni v obraze Síť Klasifikace". arXiv:1502.01852 [cs.CV ].
- ^ Clevert, Djork-Arné; Unterthiner, Thomas; Hochreiter, Sepp (2015). "Rychlé a přesné hluboké síťové učení pomocí exponenciálních lineárních jednotek (ELU)". arXiv:1511.07289 [cs.LG ].