Dálniční síť - Highway network
v strojové učení, a dálniční síť je přístup k optimalizaci sítí a zvýšení jejich hloubky. Dálniční sítě používají naučené hradlovací mechanismy k regulaci toku informací, inspirované Dlouhá krátkodobá paměť (LSTM) rekurentní neuronové sítě. Vratové mechanismy umožňují neuronovým sítím mít cesty pro informace, které mají následovat napříč různými vrstvami („informační dálnice“).[1][2]
Dálniční sítě byly použity jako součást označení textové sekvence a rozpoznávání řeči úkoly.[3][4]
Modelka
Model má kromě brány také dvě brány H (ŽH, X) brána: transformační brána T (ŽT, X) a nosnou bránu C (ŽC, X). Tyto dvě poslední brány jsou nelineární přenosové funkce (podle konvence Sigmoidní funkce ). The H (ŽH, X) může být jakákoli požadovaná přenosová funkce.
Nosná brána je definována jako C (ŽC, x) = 1 - T (žT, X). Zatímco transformační brána je pouze brána s funkcí přenosu sigmoidu.
Struktura
Struktura skryté vrstvy se řídí rovnicí:
Výhodou dálniční sítě oproti běžným hlubokým neuronovým sítím je to, že částečně řeší nebo brání Mizející problém s přechodem, což vede k snazší optimalizaci neuronových sítí.
Reference
- ^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2. května 2015). "Dálniční sítě". arXiv:1505.00387 [cs.LG ].
- ^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Juergen (2015). „Training Very Deep Networks“. Pokroky v systémech zpracování neurálních informací 28. Curran Associates, Inc .: 2377–2385.
- ^ Liu, Liyuan; Shang, Jingbo; Xu, Frank F .; Ren, Xiang; Gui, Huan; Peng, Jian; Han, Jiawei (12. září 2017). "Posílení sekvenčního značení pomocí modelu neurálního jazykového modelu podle úlohy". arXiv:1709.04109 [cs.CL ].
- ^ Kurata, Gakuto; Ramabhadran, Bhuvana; Saon, George; Sethy, Abhinav (19. září 2017). "Jazykové modelování pomocí dálnice LSTM". arXiv:1709.06436 [cs.CL ].
![]() | Tento umělá inteligence související článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |