Typ umělé neuronové sítě, která používá radiální základní funkce jako aktivační funkce
V oblasti matematické modelování, a síť radiálních základních funkcí je umělá neuronová síť který používá radiální základní funkce tak jako aktivační funkce. Výstupem sítě je a lineární kombinace radiálních základních funkcí vstupů a neuronových parametrů. Sítě s radiální bází mají mnoho využití, včetně aproximace funkce, predikce časových řad, klasifikace a systém řízení. Poprvé byly formulovány v článku z roku 1988 Broomheadem a Lowem, oběma výzkumníky z Královské signály a založení radaru.[1][2][3]
Síťová architektura
Obrázek 1: Architektura radiální základní funkční sítě. Vstupní vektor

se používá jako vstup do všech radiálních základních funkcí, z nichž každá má jiné parametry. Výstup sítě je lineární kombinací výstupů z radiálních základních funkcí.
Sítě radiální základní funkce (RBF) mají obvykle tři vrstvy: vstupní vrstvu, skrytou vrstvu s nelineární aktivační funkcí RBF a lineární výstupní vrstvu. Vstup lze modelovat jako vektor reálných čísel
. Výstupem sítě je pak skalární funkce vstupního vektoru,
, a je dán

kde
je počet neuronů ve skryté vrstvě,
je středový vektor pro neuron
, a
je hmotnost neuronu
v neuronu s lineárním výstupem. Funkce, které závisí pouze na vzdálenosti od středového vektoru, jsou kolem tohoto vektoru radiálně symetrické, a proto je název funkce radiální báze. V základní formě jsou všechny vstupy spojeny s každým skrytým neuronem. The norma se obvykle považuje za Euklidovská vzdálenost (Ačkoliv Mahalanobisova vzdálenost Zdá se, že s rozpoznáváním vzorků funguje lépe[4][5][redakční ]) a funkce radiální báze se běžně považuje za Gaussian
.
Gaussovské základní funkce jsou lokální pro středový vektor v tom smyslu

tj. změna parametrů jednoho neuronu má pouze malý účinek na vstupní hodnoty, které jsou daleko od středu tohoto neuronu.
Vzhledem k určitým mírným podmínkám na tvaru aktivační funkce jsou sítě RBF univerzální aproximátory na kompaktní podmnožina
.[6] To znamená, že síť RBF s dostatkem skrytých neuronů může s libovolnou přesností aproximovat jakoukoli spojitou funkci na uzavřené, ohraničené množině.
Parametry
,
, a
jsou určeny způsobem, který optimalizuje přizpůsobení mezi
a data.
Obrázek 2: Dvě nenormalizované radiální základní funkce v jedné vstupní dimenzi. Centra základních funkcí jsou umístěna na

a

.
Normalizováno
Obrázek 3: Dvě normalizované radiální základní funkce v jedné vstupní dimenzi (
sigmoidy ). Centra základních funkcí jsou umístěna na

a

.
Obrázek 4: Tři normalizované radiální základní funkce v jedné vstupní dimenzi. Další základní funkce má střed na

Obrázek 5: Čtyři normalizované radiální základní funkce v jedné vstupní dimenzi. Čtvrtá základní funkce má střed na

. Všimněte si, že první základní funkce (tmavě modrá) byla lokalizována.
Normalizovaná architektura
Kromě výše uvedeného nenormalizovaný architektura, sítě RBF mohou být normalizováno. V tomto případě je mapování

kde

je známá jako „normalizovaná radiální základní funkce“.
Teoretická motivace k normalizaci
Tato architektura má teoretické zdůvodnění v případě stochastického toku dat. Předpokládejme a stochastické jádro aproximace hustoty pravděpodobnosti spoje

kde závaží
a
jsou příklady z dat a požadujeme normalizaci jader

a
.
Hustoty pravděpodobnosti ve vstupním a výstupním prostoru jsou

a
Očekávání y daného vstupu
je

kde

je podmíněná pravděpodobnost daného y
Podmíněná pravděpodobnost souvisí se společnou pravděpodobností prostřednictvím Bayesova věta

který přináší
.
To se stává

když se provádí integrace.
Lokální lineární modely
Někdy je vhodné rozšířit architekturu tak, aby zahrnovala lokální lineární modely. V takovém případě se architektury stanou, na první objednávku,

a

v nenormalizovaných a normalizovaných případech. Tady
jsou váhy, které se mají určit. Rovněž jsou možné lineární výrazy vyššího řádu.
Tento výsledek lze zapsat

kde
![e_{{ij}}={ egin{cases}a_{i},&{mbox{if }}iin [1,N]_{{ij}},&{mbox{if }}iin [N+1,2N]end{cases}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e69e7a0b20246396ad4ecf0619932d3818cb14fb)
a
![v_{{ij}}{ ig (}{mathbf {x}}-{mathbf {c}}_{i}{ ig )} {stackrel {{mathrm {def}}}{=}} { egin{cases}delta _{{ij}}ho { ig (}leftVert {mathbf {x}}-{mathbf {c}}_{i}ightVert { ig )},&{mbox{if }}iin [1,N]left(x_{{ij}}-c_{{ij}}ight)ho { ig (}leftVert {mathbf {x}}-{mathbf {c}}_{i}ightVert { ig )},&{mbox{if }}iin [N+1,2N]end{cases}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e6194ed23e27bf63b899a072ce2803f31fba1f84)
v nenormalizovaném případě a
![v_{{ij}}{ ig (}{mathbf {x}}-{mathbf {c}}_{i}{ ig )} {stackrel {{mathrm {def}}}{=}} { egin{cases}delta _{{ij}}u{ ig (}leftVert {mathbf {x}}-{mathbf {c}}_{i}ightVert { ig )},&{mbox{if }}iin [1,N]left(x_{{ij}}-c_{{ij}}ight)u{ ig (}leftVert {mathbf {x}}-{mathbf {c}}_{i}ightVert { ig )},&{mbox{if }}iin [N+1,2N]end{cases}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0f7d20e63f94b312d972d1c925a999de68c68735)
v normalizovaném případě.
Tady
je Funkce Kronecker delta definováno jako