Matematika umělých neuronových sítí - Mathematics of artificial neural networks

Umělá neuronová síť (ANN) kombinuje biologické principy s pokročilými statistikami k řešení problémů v doménách, jako je rozpoznávání vzorů a hraní her. ANN přijímají základní model analogů neuronů navzájem spojených různými způsoby.

Struktura

Neuron

Neuron se štítkem ${ displaystyle j}$ přijímání vstupu ${ displaystyle p_ {j} (t)}$ z předchůdců neuronů se skládá z následujících složek:^[1]

an aktivace ${ displaystyle a_ {j} (t)}$ , stav neuronu, v závislosti na diskrétním časovém parametru,
volitelný práh ${ displaystyle theta _ {j}}$ , která zůstane pevná, pokud nebude změněna učením
an aktivační funkce ${ displaystyle f}$ který počítá novou aktivaci v daném čase ${ displaystyle t + 1}$ z ${ displaystyle a_ {j} (t)}$ , ${ displaystyle theta _ {j}}$ a čistý vstup ${ displaystyle p_ {j} (t)}$ vzniknout vztahu

{ displaystyle a_ {j} (t + 1) = f (a_ {j} (t), p_ {j} (t), theta _ {j}),}

a výstupní funkce ${ displaystyle f _ { text {out}}}$ výpočet výstupu z aktivace

{ displaystyle o_ {j} (t) = f _ { text {out}} (a_ {j} (t)).}

Výstupní funkce je často jednoduše funkce identity.

An vstupní neuron nemá předchůdce, ale slouží jako vstupní rozhraní pro celou síť. Podobně výstupní neuron nemá nástupce a slouží tedy jako výstupní rozhraní celé sítě.

Propagační funkce

The propagační funkce počítá vstup ${ displaystyle p_ {j} (t)}$ k neuronu ${ displaystyle j}$ z výstupů ${ displaystyle o_ {i} (t)}$ a obvykle má formu^[2]

{ displaystyle p_ {j} (t) = součet _ {i} o_ {i} (t) w_ {ij}.}

Zaujatost

Lze přidat zkreslený výraz, který změní formu na následující:^[3]

{ displaystyle p_ {j} (t) = součet _ {i} o_ {i} (t) w_ {ij} + w_ {0j},}

kde

{ displaystyle w_ {0j}}

je zaujatost.

Neuronové sítě jako funkce

Na modely neuronové sítě lze pohlížet jako na definování funkce, která bere vstup (pozorování) a vytváří výstup (rozhodnutí).

${ displaystyle textstyle f: X rightarrow Y}$ nebo distribuce přes ${ displaystyle textstyle X}$ nebo oboje ${ displaystyle textstyle X}$ a ${ displaystyle textový styl Y}$ . Někdy jsou modely úzce spojeny s určitým pravidlem učení. Běžným používáním výrazu „model ANN“ je ve skutečnosti definice a třída takových funkcí (kde se členové třídy získávají proměnlivými parametry, váhami připojení nebo specifiky architektury, jako je počet neuronů, počet vrstev nebo jejich konektivita).

Matematicky síťová funkce neuronu ${ displaystyle textstyle f (x)}$ je definována jako složení dalších funkcí ${ displaystyle textstyle g_ {i} (x)}$ , které lze dále rozložit na jiné funkce. To lze pohodlně představit jako síťovou strukturu se šipkami znázorňujícími závislosti mezi funkcemi. Široce používaným typem složení je nelineární vážený součet, kde ${ displaystyle textstyle f (x) = K vlevo ( součet _ {i} w_ {i} g_ {i} (x) vpravo)}$ , kde ${ displaystyle textstyle K}$ (běžně označované jako aktivační funkce^[4]) je nějaká předdefinovaná funkce, například hyperbolická tečna, sigmoidní funkce, funkce softmax nebo funkce usměrňovače. Důležitou charakteristikou aktivační funkce je, že poskytuje plynulý přechod při změně vstupních hodnot, tj. Malá změna ve vstupu způsobí malou změnu ve výstupu. Následující odkazuje na kolekci funkcí ${ displaystyle textový styl g_ {i}}$ jako vektor ${ displaystyle textstyle g = (g_ {1}, g_ {2}, ldots, g_ {n})}$ .

Graf závislosti ANN

Tento obrázek znázorňuje takový rozklad ${ displaystyle textstyle f}$ , se závislostmi mezi proměnnými označenými šipkami. Lze je interpretovat dvěma způsoby.

První pohled je funkční: vstup ${ displaystyle textstyle x}$ se transformuje do trojrozměrného vektoru ${ displaystyle textstyle h}$ , který je poté transformován do 2-dimenzionálního vektoru ${ displaystyle textový styl}$ , který je nakonec transformován do ${ displaystyle textstyle f}$ . S tímto pohledem se nejčastěji setkáváme v kontextu optimalizace.

Druhým pohledem je pravděpodobnostní pohled: náhodná proměnná ${ displaystyle textstyle F = f (G)}$ závisí na náhodné proměnné ${ displaystyle textstyle G = g (H)}$ , na čem záleží ${ displaystyle textstyle H = h (X)}$ , což závisí na náhodné proměnné ${ displaystyle textstyle X}$ . S tímto pohledem se nejčastěji setkáváme v kontextu grafické modely.

Tyto dva pohledy jsou do značné míry rovnocenné. V obou případech jsou pro tuto konkrétní architekturu komponenty jednotlivých vrstev nezávislé na sobě (např. Komponenty ${ displaystyle textový styl}$ jsou na sobě navzájem nezávislé vzhledem k jejich vstupu ${ displaystyle textový styl}$ ). To přirozeně umožňuje určitý stupeň paralelismu při implementaci.

Dvě samostatná zobrazení opakujícího se grafu závislosti ANN

Sítě jako ta předchozí se běžně nazývají dopředu, protože jejich graf je a směrovaný acyklický graf. Sítě s cykly se běžně nazývají opakující se. Takové sítě jsou běžně zobrazovány způsobem znázorněným v horní části obrázku, kde ${ displaystyle textstyle f}$ je zobrazen jako závislý na sobě. Předpokládaná časová závislost však není zobrazena.

Zpětná propagace

Algoritmy školení backpropagation spadají do tří kategorií:

nejstrmější sestup (s proměnnou míra učení a hybnost, odolná zpětná propagace );
kvazi-Newton (Broyden – Fletcher – Goldfarb – Shanno, jeden krok secant );
Levenberg – Marquardt a konjugovaný gradient (Aktualizace Fletcher – Reeves, aktualizace Polak – Ribiére, restart Powell – Beale, škálovaný gradient konjugátu).^[5]

Algoritmus

Nechat ${ displaystyle N}$ být sítí s ${ displaystyle e}$ spojení, ${ displaystyle m}$ vstupy a ${ displaystyle n}$ výstupy.

Níže, ${ displaystyle x_ {1}, x_ {2}, tečky}$ označuje vektory v ${ displaystyle mathbb {R} ^ {m}}$ , ${ displaystyle y_ {1}, y_ {2}, tečky}$ vektory v ${ displaystyle mathbb {R} ^ {n}}$ , a ${ displaystyle w_ {0}, w_ {1}, w_ {2}, ldots}$ vektory v ${ displaystyle mathbb {R} ^ {e}}$ . Tito se nazývají vstupy, výstupy a závaží, resp.

Síť odpovídá funkci ${ displaystyle y = f_ {N} (w, x)}$ který, vzhledem k hmotnosti ${ displaystyle w}$ , mapuje vstup ${ displaystyle x}$ na výstup ${ displaystyle y}$ .

V učení pod dohledem, sekvence příklady školení ${ displaystyle (x_ {1}, y_ {1}), tečky, (x_ {p}, y_ {p})}$ vytvoří posloupnost závaží ${ displaystyle w_ {0}, w_ {1}, tečky, w_ {p}}$ počínaje nějakou počáteční hmotností ${ displaystyle w_ {0}}$ , obvykle vybrány náhodně.

Tyto váhy se počítají postupně: první výpočet ${ displaystyle w_ {i}}$ pouze pomocí ${ displaystyle (x_ {i}, y_ {i}, w_ {i-1})}$ pro ${ displaystyle i = 1, tečky, p}$ . Výstup algoritmu je pak ${ displaystyle w_ {p}}$ , dává novou funkci ${ displaystyle x mapsto f_ {N} (w_ {p}, x)}$ . Výpočet je v každém kroku stejný, tedy pouze v případě ${ displaystyle i = 1}$ je popsán.

${ displaystyle w_ {1}}$ se počítá z ${ displaystyle (x_ {1}, y_ {1}, w_ {0})}$ zvážením proměnné hmotnosti ${ displaystyle w}$ a přihlašování klesání k funkci ${ displaystyle w mapsto E (f_ {N} (w, x_ {1}), y_ {1})}$ najít místní minimum od ${ displaystyle w = w_ {0}}$ .

To dělá ${ displaystyle w_ {1}}$ minimalizující hmotnost zjištěná sestupným spádem.

Učení pseudokódu

K implementaci výše uvedeného algoritmu jsou vyžadovány explicitní vzorce pro přechod funkce ${ displaystyle w mapsto E (f_ {N} (w, x), y)}$ kde je funkce ${ displaystyle E (y, y ') = | y-y' | ^ {2}}$ .

Algoritmus učení lze rozdělit do dvou fází: šíření a aktualizace hmotnosti.

Propagace

Propagace zahrnuje následující kroky:

Šíření vpřed po síti za účelem generování výstupních hodnot
Výpočet nákladů (chybový termín)
Šíření výstupních aktivací zpět přes síť pomocí cíle tréninkových vzorů ke generování delt (rozdíl mezi cílovými a skutečnými hodnotami výstupu) všech výstupních a skrytých neuronů.

Aktualizace hmotnosti

Pro každou váhu:

Vynásobte hmotnostní deltu výstupu a aktivaci vstupu, abyste našli gradient hmotnosti.
Odečtěte poměr (procento) gradientu hmotnosti od hmotnosti.

The míra učení je poměr (procento), který ovlivňuje rychlost a kvalitu učení. Čím větší je poměr, tím rychleji se neuron trénuje, ale čím nižší je poměr, tím přesnější je trénink. Znaménko gradientu váhy označuje, zda se chyba mění přímo s váhou nebo naopak. Proto musí být váha aktualizována v opačném směru a „sestupovat“ po přechodu.

Učení se opakuje (na nových dávkách), dokud síť nebude fungovat adekvátně.

Pseudo kód

Pseudo kód pro stochastický gradient algoritmus pro trénování třívrstvé sítě (jedna skrytá vrstva):

inicializovat váhy sítě (často malé náhodné hodnoty)dělat    pro každého příklad tréninku s názvem např dělat        předpověď = neuronový čistý výstup(síť, ex) // vpřed        aktuální = učitelský výstup(ex) výpočetní chyba (predikce - skutečná) na výstupních jednotkách vypočítat  ${ displaystyle Delta w_ {h}}$  pro všechny váhy od skryté vrstvy po výstupní vrstvu  // zpětný průchod        vypočítat  ${ displaystyle Delta w_ {i}}$  pro všechny váhy od vstupní vrstvy po skrytou vrstvu   // zpětný průchod pokračoval        aktualizovat váhy sítě // vstupní vrstva není upravena odhadem chybydokud chybovost se stává přijatelně nízkouvrátit se síť

Řádky označené „zpětný průchod“ lze implementovat pomocí algoritmu zpětného šíření, který vypočítává gradient chyby sítě, pokud jde o upravitelné váhy sítě.^[6]

Reference

^ Zell, Andreas (2003). „kapitola 5.2“. Simulační neuronář Netze [Simulace neuronových sítí] (v němčině) (1. vydání). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.
^ Zell, Andreas (2003). „kapitola 5.2“. Simulační neuronář Netze [Simulace neuronových sítí] (v němčině) (1. vydání). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.
^ DAWSON, CHRISTIAN W (1998). „Přístup umělé neuronové sítě k modelování odtoku srážek“. Hydrologické vědy Journal. 43 (1): 47–66. doi:10.1080/02626669809492102.
^ „Slovník strojového učení“. www.cse.unsw.edu.au. Archivovány od originál dne 26. 8. 2018. Citováno 2019-08-18.
^ M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic & S.Rajan (červenec 2010). Srovnání algoritmů výcviku neuronových sítí s předáváním pro oscilometrický odhad krevního tlaku. 4. Int. Workshop Soft Computing Applications. Arad, Rumunsko: IEEE.
^ Werbos, Paul J. (1994). Kořeny backpropagation. Od objednaných derivátů po neuronové sítě a politické prognózy. New York, NY: John Wiley & Sons, Inc.

[Zell1994ch5.2-1] Zell, Andreas (2003). „kapitola 5.2“. Simulační neuronář Netze [Simulace neuronových sítí] (v němčině) (1. vydání). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.

[Zell1994ch5.22-2] Zell, Andreas (2003). „kapitola 5.2“. Simulační neuronář Netze [Simulace neuronových sítí] (v němčině) (1. vydání). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.

[DAWSON1998-3] DAWSON, CHRISTIAN W (1998). „Přístup umělé neuronové sítě k modelování odtoku srážek“. Hydrologické vědy Journal. 43 (1): 47–66. doi:10.1080/02626669809492102.

[4] „Slovník strojového učení“. www.cse.unsw.edu.au. Archivovány od originál dne 26. 8. 2018. Citováno 2019-08-18.

[5] M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic & S.Rajan (červenec 2010). Srovnání algoritmů výcviku neuronových sítí s předáváním pro oscilometrický odhad krevního tlaku. 4. Int. Workshop Soft Computing Applications. Arad, Rumunsko: IEEE.

[6] Werbos, Paul J. (1994). Kořeny backpropagation. Od objednaných derivátů po neuronové sítě a politické prognózy. New York, NY: John Wiley & Sons, Inc.

[1]

[2]

[3]

[4]

[5]

[6]