Aktivační funkce - Activation function

v umělé neuronové sítě, aktivační funkce uzlu definuje výstup daného uzlu s daným vstupem nebo sadou vstupů. Standard integrovaný obvod může být viděn jako digitální síť aktivačních funkcí, které mohou být v závislosti na vstupu „ON“ (1) nebo „OFF“ (0). Je to podobné jako chování lineární perceptron v neuronové sítě. Avšak pouze nelineární aktivační funkce umožňují takovým sítím vypočítat netriviální problémy s použitím pouze malého počtu uzlů a tyto aktivační funkce se nazývají nelinearity.[1]
Funkce
Nejběžnější aktivační funkce lze rozdělit do tří kategorií: hřebenové funkce, radiální funkce a funkce skládání.
Funkce aktivace hřebene
Ridge funkce jsou jednorozměrné funkce působící na lineární kombinaci vstupních proměnných. Mezi často používané příklady patří:
- Lineární aktivace: ,
- ReLU aktivace: ,
- Heaviside aktivace: ,
- Logistické aktivace: .
v biologicky inspirované neuronové sítě, aktivační funkce je obvykle abstrakce představující rychlost akční potenciál palba v cele.[2] Ve své nejjednodušší podobě je tato funkce binární —To je, buď neuron střílí nebo ne. Funkce vypadá , kde je Funkce kroku Heaviside.
Řada pozitivních sklon lze použít k vyjádření zvýšení rychlosti střelby, ke kterému dochází při zvyšování vstupního proudu. Taková funkce by měla formu .
Protože biologické neurony nemohou snížit rychlost střelby pod nulu, usměrněné lineární používají se aktivační funkce: . Zavádějí nelinearitu na nule, kterou lze použít pro rozhodování.[3]

Neurony také nemohou motivovat rychleji než určitou rychlostí sigmoid aktivační funkce, jejichž doménou je konečný interval.
Funkce radiální aktivace
Speciální třída aktivačních funkcí známá jako radiální základní funkce (RBF) se používají v Sítě RBF, které jsou extrémně účinné jako aproximátory univerzálních funkcí. Tyto aktivační funkce mohou mít mnoho podob, ale obvykle se nacházejí jako jedna z následujících funkcí:
- Gaussian:
- Multiquadratics:
- Inverzní multiquadratics:
- Polyharmonické splajny
kde je vektor představující funkci centrum a a jsou parametry ovlivňující šíření poloměru.
Byla navržena výpočetně efektivní radiální základní funkce,[4] nazývá se RBF jádro založené na Square-law (SQ-RBF ), který eliminuje exponenciální člen, jak se nachází v Gaussian RBF.
- SQ-RBF:
Skládací aktivační funkce
Skládací aktivační funkce jsou široce používány v sdružování vrstev v konvoluční neuronové sítě a ve výstupních vrstvách sítí klasifikace více tříd. Tyto aktivace provádějí agregaci přes vstupy, například převzetí znamenat, minimální nebo maximum. V klasifikaci více tříd je softmax často se používá aktivace.
Porovnání aktivačních funkcí
Existuje mnoho aktivačních funkcí. Seminář Hinton et al. Z roku 2012 o automatickém rozpoznávání řeči používá funkci aktivace logistické sigmoidy.[5] Seminář 2012 AlexNet architektura počítačového vidění využívá aktivační funkci ReLU, stejně jako klíčová architektura počítačového vidění 2015 ResNet. Klíčový model zpracování jazyka 2018 BERT používá hladkou verzi ReLU, GELU.[6]
Kromě empirického výkonu mají aktivační funkce také různé matematické vlastnosti:
- Nelineární
- Když je aktivační funkce nelineární, lze prokázat dvouvrstvou neuronovou síť jako univerzální aproximátor funkcí.[7] Toto je známé jako Věta o univerzální aproximaci. Funkce aktivace identity tuto vlastnost nesplňuje. Když více vrstev používá funkci aktivace identity, celá síť je ekvivalentní modelu s jednou vrstvou.
- Rozsah
- Když je rozsah aktivační funkce konečný, mají tréninkové metody založené na gradientu tendenci být stabilnější, protože prezentace vzorů významně ovlivňují pouze omezené váhy. Když je rozsah nekonečný, trénink je obecně efektivnější, protože prezentace vzorů významně ovlivňují většinu váh. V druhém případě menší míry učení jsou obvykle nutné.[Citace je zapotřebí ]
- Neustále diferencovatelné
- Tato vlastnost je žádoucí (ReLU není průběžně diferencovatelný a má problémy s optimalizací na základě přechodu, ale stále je to možné) pro povolení metod optimalizace na základě přechodu. Funkce aktivace binárního kroku není diferencovatelná na 0 a rozlišuje se na 0 pro všechny ostatní hodnoty, takže metody založené na přechodu s ní nemohou dělat žádný pokrok.[8]
- Monotóní
- Když je aktivační funkce monotónní, je zaručeno, že povrch chyby spojený s jednovrstvým modelem bude konvexní.[9]
- Hladké funkce s monotónním derivátem
- Ukázalo se, že v některých případech lépe generalizují.
- Přibližuje identitu blízko původu
- Pokud mají aktivační funkce tuto vlastnost, neurální síť se efektivně naučí, když jsou její váhy inicializovány malými náhodnými hodnotami. Pokud aktivační funkce nepřibližuje identitu blízko počátku, je třeba při inicializaci vah věnovat zvláštní pozornost.[10] V tabulce níže jsou aktivační funkce kde a a je spojitý na 0 jsou označeny jako mající tuto vlastnost.
Tyto vlastnosti nemají rozhodující vliv na výkon, ani nejsou jedinými matematickými vlastnostmi, které mohou být užitečné. Například striktně pozitivní rozsah softplusu je vhodný pro předpovídání odchylek v variační autoenkodéry.
Následující tabulka porovnává vlastnosti několika aktivačních funkcí, které jsou funkcemi jedné složit X z předchozí vrstvy nebo vrstev:
název | Spiknutí | Funkce, | Derivát z , | Rozsah | Pořadí kontinuity | Monotónní | Monotónní derivát | Přibližuje identitu blízko původu |
---|---|---|---|---|---|---|---|---|
Identita | ![]() | Ano | Ano | Ano | ||||
Binární krok | ![]() | Ano | Ne | Ne | ||||
Logistické, sigmoidní nebo měkké krok | ![]() | [1] | Ano | Ne | Ne | |||
tanh | ![]() | Ano | Ne | Ano | ||||
Usměrněná lineární jednotka (ReLU)[11] | ![]() | Ano | Ano | Ne | ||||
Gaussova chyba lineární jednotka (GELU)[6] | ![]() | Ne | Ne | Ne | ||||
Softplus[12] | ![]() | Ano | Ano | Ne | ||||
Exponenciální lineární jednotka (ELU)[13] | ![]() |
| Iff | Iff | Iff | |||
Škálovaná exponenciální lineární jednotka (SELU)[14] |
| Ano | Ne | Ne | ||||
Děravá usměrněná lineární jednotka (Děravá ReLU)[15] | ![]() | Ano | Ano | Ne | ||||
Parametrová usměrněná lineární jednotka (PReLU)[16] | ![]() |
| [2] | Iff | Ano | Iff | ||
ElliotSig,[17][18] softsign[19][20] | ![]() | Ano | Ne | Ano | ||||
Čtvercová nelinearita (SQNL)[21] | ![]() | Ano | Ne | Ano | ||||
Usměrněná lineární aktivační jednotka ve tvaru S (SReLU)[22] |
| Ne | Ne | Ne | ||||
Ohnutá identita | ![]() | Ano | Ano | Ano | ||||
Sigmoidní lineární jednotka (SiLU,[6] SiL,[23] nebo Swish-1[24]) | ![]() | Ne | Ne | Pro | ||||
Gaussian | ![]() | Ne | Ne | Ne | ||||
SQ-RBF | ![]() |