Diferencovatelný neurální počítač - Differentiable neural computer

v umělá inteligence, a diferencovatelný neurální počítač (DNC) je rozšířená paměť nervová síť architektura (MANN), která se při své implementaci obvykle (nikoli z definice) opakuje. Model byl publikován v roce 2016 autorem Alex Graves et al. z DeepMind.[1]
Aplikace
DNC nepřímo bere inspiraci Von-Neumannova architektura, takže je pravděpodobné, že překoná konvenční architektury v úlohách, které jsou v zásadě algoritmické a které se nelze naučit nalezením hranice rozhodnutí.
Doposud bylo prokázáno, že DNC zvládají pouze relativně jednoduché úkoly, které lze vyřešit pomocí konvenčního programování. DNC ale nemusí být naprogramovány pro každý problém, ale místo toho mohou být vyškoleni. Toto rozpětí pozornosti umožňuje uživateli krmit komplex datové struktury jako grafy postupně a vyvolat je pro pozdější použití. Dále se mohou naučit aspekty symbolické uvažování a aplikovat to na pracovní paměť. Vědci, kteří metodu publikovali, vidí příslib, že DNC mohou být vyškoleni k provádění složitých a strukturovaných úkolů[1][2] a řešit aplikace s velkými daty, které vyžadují nějaký druh uvažování, jako je generování video komentářů nebo analýza sémantického textu.[3][4]
DNC lze trénovat v navigaci rychlá přeprava systémy a použít tuto síť na jiný systém. Neuronová síť bez paměti by se obvykle musela o každém tranzitním systému učit od nuly. Na úlohách procházení grafů a zpracování sekvencí pomocí učení pod dohledem, DNC fungovaly lépe než alternativy jako dlouhodobá krátkodobá paměť nebo neurální turingův stroj.[5] S posilování učení přístup k problému blokové hádanky inspirovaný SHRDLU DNC byl proškolen prostřednictvím osnov a naučil se dělat plán. Bylo to lepší než tradiční rekurentní neuronová síť.[5]
Architektura

Sítě DNC byly zavedeny jako rozšíření Neurální Turingův stroj (NTM), s přidáním mechanismů pozornosti paměti, které řídí, kde je paměť uložena, a časové pozornosti, která zaznamenává pořadí událostí. Tato struktura umožňuje, aby DNC byly robustnější a abstraktnější než NTM a stále prováděly úkoly, které mají dlouhodobější závislosti než někteří předchůdci, jako je Long Short Term Memory (LSTM ). Paměť, která je jednoduše maticí, lze přidělovat dynamicky a přistupovat na neurčito. DNC je rozlišitelný end-to-end (každá dílčí složka modelu je diferencovatelná, proto také celý model). To umožňuje jejich efektivní optimalizaci pomocí klesání.[3][6][7]
Model DNC je podobný modelu Von Neumannova architektura a kvůli změně velikosti paměti to je Turing dokončen.[8]
Tradiční DNC
![]() | Tato sekce možná matoucí nebo nejasné čtenářům. Zejména seznam rovnic (bez např vyčerpávající asociace s úplným diagramem DNC) není pro mnoho čtenářů tohoto článku strávitelným popisem.Října 2017) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
DNC, jak bylo původně zveřejněno[1]
Nezávislé proměnné | |
Vstupní vektor | |
Cílový vektor | |
Ovladač | |
Vstupní matice řadiče | |
Hluboký (vrstvený) LSTM | |
Vektor vstupní brány | |
Vektor výstupní brány | |
Zapomeňte na bránu vektor | |
Státní brána vektor, | |
Skrytá brána vektor, | |
DNC výstupní vektor | |
Čtecí a zapisovací hlavy | |
Parametry rozhraní | |
Číst hlavy | |
Přečtěte si klíče | |
Přečtěte si silné stránky | |
Volné brány | |
Režimy čtení, | |
Napište hlavu | |
Klíč pro zápis | |
Napište sílu | |
Vymazat vektor | |
Napište vektor | |
Alokační brána | |
Napište bránu | |
Paměť | |
Paměťová matice, Matice jedniček | |
Vektor využití | |
Prioritní vážení, | |
Matice dočasných odkazů, | |
Napište vážení | |
Přečtěte si vážení | |
Číst vektory | |
Adresování podle obsahu, Vyhledávací klíč , síla klíče | |
Indexy , řazeny vzestupně podle použití | |
Alokační vážení | |
Napište váhu obsahu | |
Přečtěte si vážení obsahu | |
Dopředné vážení | |
Zpětné vážení | |
Vektor uchovávání paměti | |
Definice | |
Váhová matice, zkreslení vektoru | |
Matice nul, matice jedniček, matice identity | |
Elementární násobení | |
Kosinová podobnost | |
Sigmoidní funkce | |
Funkce Oneplus | |
pro j = 1, …, K.. | Funkce Softmax |
Rozšíření
Vylepšení zahrnují adresování řídké paměti, což snižuje časovou a prostorovou složitost tisíckrát. Toho lze dosáhnout použitím algoritmu přibližného nejbližšího souseda, například Hašování citlivé na lokalitu nebo náhodně k-d strom jako Rychlá knihovna pro přibližné nejbližší sousedy z UBC.[9] Přidání adaptivního výpočetního času (ACT) odděluje výpočetní čas od datového času, což využívá skutečnosti, že délka problému a obtížnost problému nejsou vždy stejné.[10] Cvičení využívající syntetické přechody funguje podstatně lépe než Zpětná propagace v čase (BPTT).[11] Robustnost lze zlepšit použitím normalizace vrstev a vynechání vynechání jako regularizace.[12]
Reference
- ^ A b C Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (12. 10. 2016). „Hybridní výpočet pomocí neuronové sítě s dynamickou externí pamětí“. Příroda. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038 / nature20101. ISSN 1476-4687. PMID 27732574.
- ^ "Diferencovatelné neurální počítače | DeepMind". DeepMind. Citováno 2016-10-19.
- ^ A b Burgess, Matt. „AI DeepMind se naučila jezdit v londýnském metru pomocí lidského rozumu a paměti“. WIRED UK. Citováno 2016-10-19.
- ^ Jaeger, Herbert (12. 10. 2016). „Umělá inteligence: Hluboké neurální uvažování“. Příroda. 538 (7626): 467–468. Bibcode:2016Natur.538..467J. doi:10.1038 / příroda19777. ISSN 1476-4687. PMID 27732576.
- ^ A b James, Mike. „Diferencovatelná neuronová síť DeepMind myslí hluboce“. www.i-programmer.info. Citováno 2016-10-20.
- ^ „DeepMind AI se„ učí “navigovat London Tube“. PCMAG. Citováno 2016-10-19.
- ^ Mannes, John. „Diferencovatelný neurální počítač DeepMind vám pomůže navigovat v metru s jeho pamětí“. TechCrunch. Citováno 2016-10-19.
- ^ „RNN Symposium 2016: Alex Graves - Differitable Neural Computer“.
- ^ Jack W Rae; Jonathan J Hunt; Harley, Tim; Danihelka, Ivo; Senior, Andrew; Wayne, Greg; Graves, Alex; Timothy P Lillicrap (2016). "Škálování neuronových sítí rozšířených o paměť s řídkým čtením a zápisem". arXiv:1610.09027 [cs.LG ].
- ^ Graves, Alex (2016). "Adaptivní výpočetní doba pro opakující se neuronové sítě". arXiv:1603.08983 [cs.NE ].
- ^ Jaderberg, Max; Wojciech Marian Czarnecki; Osindero, Simon; Vinyals, Oriol; Graves, Alex; Silver, David; Kavukcuoglu, Koray (2016). "Oddělené neurální rozhraní pomocí syntetických přechodů". arXiv:1608.05343 [cs.LG ].
- ^ Franke, Jörg; Niehues, Jan; Waibel, Alex (2018). "Robustní a škálovatelný diferencovatelný neurální počítač pro zodpovězení otázek". arXiv:1807.02658 [cs.CL ].