Dálniční síť - Highway network

v strojové učení, a dálniční síť je přístup k optimalizaci sítí a zvýšení jejich hloubky. Dálniční sítě používají naučené hradlovací mechanismy k regulaci toku informací, inspirované Dlouhá krátkodobá paměť (LSTM) rekurentní neuronové sítě. Vratové mechanismy umožňují neuronovým sítím mít cesty pro informace, které mají následovat napříč různými vrstvami („informační dálnice“).[1][2]

Dálniční sítě byly použity jako součást označení textové sekvence a rozpoznávání řeči úkoly.[3][4]


Modelka

Model má kromě brány také dvě brány H (ŽH, X) brána: transformační brána T (ŽT, X) a nosnou bránu C (ŽC, X). Tyto dvě poslední brány jsou nelineární přenosové funkce (podle konvence Sigmoidní funkce ). The H (ŽH, X) může být jakákoli požadovaná přenosová funkce.

Nosná brána je definována jako C (ŽC, x) = 1 - T (žT, X). Zatímco transformační brána je pouze brána s funkcí přenosu sigmoidu.


Struktura

Struktura skryté vrstvy se řídí rovnicí:


Výhodou dálniční sítě oproti běžným hlubokým neuronovým sítím je to, že částečně řeší nebo brání Mizející problém s přechodem, což vede k snazší optimalizaci neuronových sítí.


Reference

  1. ^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2. května 2015). "Dálniční sítě". arXiv:1505.00387 [cs.LG ].
  2. ^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). „Training Very Deep Networks“. Pokroky v systémech zpracování neurálních informací 28. Curran Associates, Inc .: 2377–2385.
  3. ^ Liu, Liyuan; Shang, Jingbo; Xu, Frank F .; Ren, Xiang; Gui, Huan; Peng, Jian; Han, Jiawei (12. září 2017). "Posílení sekvenčního značení pomocí modelu neurálního jazykového modelu podle úlohy". arXiv:1709.04109 [cs.CL ].
  4. ^ Kurata, Gakuto; Ramabhadran, Bhuvana; Saon, George; Sethy, Abhinav (19. září 2017). "Jazykové modelování pomocí dálnice LSTM". arXiv:1709.06436 [cs.CL ].