Historie umělých neuronových sítí - History of artificial neural networks - Wikipedia

The historie umělých neuronových sítí (ANN) začal s Warren McCulloch a Walter Pitts[1] (1943), který vytvořil výpočetní model pro neuronové sítě založený na algoritmy volala prahová logika. Tento model připravil půdu pro rozdělení výzkumu na dva přístupy. Jeden přístup se zaměřil na biologické procesy, zatímco druhý se zaměřil na aplikaci neuronových sítí na umělá inteligence. Tato práce vedla k práci na nervových sítích a jejich vazbě na konečné automaty.[2]

Hebbovské učení

Na konci 40. let D. O. Hebb[3] vytvořil hypotézu učení založenou na mechanismu nervová plasticita který se stal známým jako Hebbovské učení. Hebbovské učení je neřízené učení. Toto se vyvinulo do modelů pro dlouhodobé potenciace. Vědci začali tyto myšlenky aplikovat na výpočetní modely v roce 1948 s Turingovy stroje typu B.. Farley a Clarku[4] (1954) nejprve použili k simulaci hebbovské sítě výpočetní stroje, poté nazývané „kalkulačky“. Další výpočetní stroje neuronové sítě byly vytvořeny uživatelem Rochester, Holland, Habit and Duda (1956).[5] Rosenblatt[6] (1958) vytvořili perceptron, algoritmus pro rozpoznávání vzorů. S matematickou notací popsal Rosenblatt obvody, které nebyly v základním perceptronu, například exclusive-or obvod, který v té době nemohly zpracovat neuronové sítě.[7] V roce 1959 navrhl biologický model Nositelé Nobelovy ceny Hubel a Wiesel byl založen na jejich objevu dvou typů buněk v primární zraková kůra: jednoduché buňky a složité buňky.[8] První funkční sítě s mnoha vrstvami publikoval Ivakhnenko a Lapa v roce 1965 jako Skupinová metoda zpracování dat.[9][10][11]

Výzkum poté stagnoval strojové učení výzkum od Minsky a Papert (1969),[12] který objevil dva klíčové problémy s výpočetními stroji, které zpracovávaly neuronové sítě. První bylo, že základní perceptrony nebyly schopny zpracovat výlučný nebo obvod. Druhým bylo, že počítače neměly dostatek výpočetního výkonu, aby mohly efektivně zvládat práci vyžadovanou velkými neuronovými sítěmi. Výzkum neuronových sítí zpomalil, dokud počítače nedosáhly mnohem vyššího výpočetního výkonu. Hodně z umělá inteligence se zaměřil na vysoké (symbolické) modely zpracované pomocí explicitního algoritmy, charakterizovaný například expertní systémy se znalostmi ztělesněnými v pokud-pak pravidla, až do konce 80. let se výzkum rozšířil na nízkou úroveň (subsymbolický) strojové učení, charakterizované znalostmi obsaženými v parametrech a kognitivní model.[Citace je zapotřebí ]

Zpětná propagace

Klíčovým spouštěčem obnoveného zájmu o neuronové sítě a učení bylo Werbos (1975) zpětná propagace algoritmus umožňující praktický výcvik vícevrstvých sítí. Zpětné šíření distribuovalo chybový člen zpět mezi vrstvy úpravou vah v každém uzlu.[7]

V polovině 80. let paralelní distribuované zpracování se stal populárním pod tímto jménem konekcionismus. Rumelhart a McClelland (1986) popsali použití konekcionismu k simulaci neurálních procesů.[13]

Podporujte vektorové stroje a jednodušší metody, jako je lineární klasifikátory postupně předjížděly neuronové sítě. Neuronové sítě však transformovaly domény, jako je predikce proteinových struktur.[14][15]

V roce 1992 max. sdružování byl představen na pomoc s nejmenším posunem invariance a tolerance k deformaci na pomoc při Rozpoznávání 3D objektů.[16][17][18] V roce 2010 proběhlo školení Backpropagation max. sdružování byl zrychlen GPU a ukázalo se, že funguje lépe než jiné varianty sdružování.[19]

The mizející přechodový problém ovlivňuje mnohovrstevné dopředné sítě který využíval backpropagation a také rekurentní neuronové sítě (RNN).[20][21] Jak se chyby šíří z vrstvy na vrstvu, zmenšují se exponenciálně s počtem vrstev, což brání vyladění vah neuronů, které je na těchto chybách založeno, zejména ovlivňuje hluboké sítě.

K překonání tohoto problému Schmidhuber přijala víceúrovňovou hierarchii sítí (1992), která byla předem vyškolena po jedné úrovni neřízené učení a doladěn zpětná propagace.[22] Behnke (2003) se spoléhal pouze na znaménko gradientu (Rprop )[23] o problémech, jako je rekonstrukce obrazu a lokalizace obličeje.

Hinton et al. (2006) navrhli naučit se reprezentaci na vysoké úrovni pomocí postupných vrstev binárních nebo reálných hodnot latentní proměnné s omezený Boltzmannův stroj[24] modelovat každou vrstvu. Jakmile se naučíte dostatečně mnoho vrstev, můžete použít hlubokou architekturu jako generativní model reprodukcí dat při vzorkování modelu („předek“) z aktivací funkcí nejvyšší úrovně.[25][26] V roce 2012, Ng a Děkan vytvořil síť, která se naučila rozpoznávat koncepty na vyšší úrovni, jako jsou kočky, pouze sledováním neznačených snímků pořízených z Youtube videa.[27]

Dřívější výzvy ve výcviku hlubokých neuronových sítí byly úspěšně řešeny metodami, jako je bezobslužný předcvik, zatímco dostupný výpočetní výkon se zvýšil pomocí GPU a distribuované výpočty. Neuronové sítě byly nasazeny ve velkém měřítku, zejména při problémech s rozpoznáváním obrazu a zraku. Toto se stalo známým jako „hluboké učení ".[Citace je zapotřebí ]

Hardwarové designy

Vývoj kov – oxid – polovodič (MOS) velmi rozsáhlá integrace (VLSI) ve formě doplňkové MOS (CMOS) technologie umožnila vývoj praktických umělých neuronových sítí v 80. letech.[28]

Výpočtová zařízení byla vytvořena v CMOS, jak pro biofyzikální simulaci, tak pro neuromorfní výpočty. Nanodevices[29] pro velmi velké měřítko hlavní komponenty analýzy a konvoluce mohou vytvořit novou třídu neurálních výpočtů, protože jsou v zásadě analogový spíše než digitální (i když první implementace mohou používat digitální zařízení).[30] Ciresan a kolegové (2010)[31] ve Schmidhuberově skupině se ukázalo, že i přes problém s mizejícím gradientem umožňují GPU backpropagation pro mnohovrstevné dopředné neuronové sítě.

Soutěže

V letech 2009 až 2012 rekurentní neuronové sítě a hluboké dopředné neuronové sítě vyvinuté v roce 2006 Schmidhuber Výzkumná skupina vyhrála v roce 2006 osm mezinárodních soutěží rozpoznávání vzorů a strojové učení.[32][33] Například obousměrný a vícerozměrný dlouhodobá krátkodobá paměť (LSTM)[34][35][36][37] z Graves et al. v roce 2009 vyhrál tři soutěže v oblasti rozpoznávání rukopisu Mezinárodní konference o analýze a uznávání dokumentů (ICDAR), bez jakékoli předchozí znalosti tří jazyků, které je třeba se naučit.[36][35]

Ciresan a kolegové zvítězili rozpoznávání vzorů soutěže, včetně soutěže IJCNN 2011 o rozpoznávání dopravních značek,[38] výzva ISBI 2012 Segmentace neuronových struktur ve svazcích elektronové mikroskopie[39] a další. Jejich neuronové sítě byly prvními rozpoznávači vzorů k dosažení lidského konkurenčního / nadlidského výkonu[40] na srovnávacích kritériích, jako je rozpoznávání dopravních značek (IJCNN 2012) nebo Problém s ručně psanými číslicemi MNIST.

Vědci prokázali (2010), že hluboké neurální sítě se střetávaly s a skrytý Markovův model s kontextově závislými stavy, které definují výstupní vrstvu neurální sítě, mohou drasticky snížit chyby v úlohách rozpoznávání řeči ve velké slovní zásobě, jako je hlasové vyhledávání.[Citace je zapotřebí ]

Implementace založené na GPU[41] tohoto přístupu vyhrál mnoho soutěží o rozpoznávání vzorů, včetně soutěže IJCNN 2011 o rozpoznávání dopravních značek,[38] výzva ISBI 2012 Segmentace neuronových struktur v EM stacks challenge,[39] the Soutěž ImageNet[42] a další.

Hluboké, vysoce nelineární neurální architektury podobné neocognitron[43] a „standardní architektura vidění“,[44] inspirovaný jednoduchý a složité buňky, byli Hintonem předškoleni metodami bez dozoru.[45][25] Tým z jeho laboratoře vyhrál soutěž z roku 2012 sponzorovanou společností Merck navrhnout software, který pomůže najít molekuly, které by mohly identifikovat nové léky.[46]

Konvoluční neuronové sítě

Od roku 2011nejmodernější sítě dopředného učení s hlubokým učením se střídaly mezi konvolučními vrstvami a vrstvami max-poolingu,[41][47] zakončeno několika plně nebo řídce spojenými vrstvami následovanými vrstvou konečné klasifikace. Učení se obvykle provádí bez předškolení bez dozoru. Konvoluční vrstva obsahuje filtry, které jsou spojené se vstupem. Každý filtr je ekvivalentní váhovému vektoru, který je třeba procvičit.

Takové metody hlubokého učení pod dohledem byly prvními, které v určitých praktických aplikacích dosáhly konkurenceschopnosti člověka.[40]

ANNs byli schopni zaručit invarianci posunu, aby se vypořádali s malými a velkými přírodními objekty ve velkých přeplněných scénách, pouze když invariance přesahovala posun, ke všem konceptům naučeným ANN, jako je umístění, typ (štítek třídy objektu), měřítko, osvětlení a další . To bylo realizováno ve vývojových sítích (DN)[48] jehož provedení jsou Where-What Networks, WWN-1 (2008)[49] prostřednictvím WWN-7 (2013).[50]

Reference

  1. ^ McCulloch, Warren; Walter Pitts (1943). "Logický kalkul nápadů, které jsou v nervové činnosti". Bulletin of Mathematical Biofhysics. 5 (4): 115–133. doi:10.1007 / BF02478259.
  2. ^ Kleene, S.C. (1956). „Reprezentace událostí v nervových sítích a konečných automatech“. Annals of Mathematics Studies (34). Princeton University Press. s. 3–41. Citováno 2017-06-17.
  3. ^ Hebb, Donald (1949). Organizace chování. New York: Wiley. ISBN  978-1-135-63190-1.
  4. ^ Farley, B.G .; W.A. Clark (1954). "Simulace samoorganizujících se systémů digitálním počítačem". Transakce IRE na teorii informací. 4 (4): 76–84. doi:10.1109 / TIT.1954.1057468.
  5. ^ Rochester, N .; J.H. Holandsko; L.H. Habit; W.L. Duda (1956). "Testy na teorii buněčné montáže akce mozku pomocí velkého digitálního počítače". Transakce IRE na teorii informací. 2 (3): 80–93. doi:10.1109 / TIT.1956.1056810.
  6. ^ Rosenblatt, F. (1958). „The Perceptron: Pravděpodobnostní model pro ukládání a organizaci informací v mozku“. Psychologický přehled. 65 (6): 386–408. CiteSeerX  10.1.1.588.3775. doi:10.1037 / h0042519. PMID  13602029.
  7. ^ A b Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.
  8. ^ David H. Hubel a Torsten N. Wiesel (2005). Mozek a vizuální vnímání: příběh 25leté spolupráce. Oxford University Press USA. str. 106. ISBN  978-0-19-517618-6.
  9. ^ Schmidhuber, J. (2015). "Hluboké učení v neuronových sítích: přehled". Neuronové sítě. 61: 85–117. arXiv:1404.7828. doi:10.1016 / j.neunet.2014.09.003. PMID  25462637. S2CID  11715509.
  10. ^ Ivakhnenko, A. G. (1973). Kybernetická predikční zařízení. CCM Information Corporation.
  11. ^ Ivakhnenko, A. G .; Grigorevič Lapa, Valentin (1967). Kybernetika a předpovědní techniky. Americká Elsevier Pub. Co.
  12. ^ Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Stiskněte. ISBN  978-0-262-63022-1.
  13. ^ Rumelhart, D.E .; McClelland, James (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. ISBN  978-0-262-63110-5.
  14. ^ Qian, N .; Sejnowski, T.J. (1988). „Predikce sekundární struktury globulárních proteinů pomocí modelů neuronových sítí“ (PDF). Journal of Molecular Biology. 202 (4): 865–884. doi:10.1016/0022-2836(88)90564-5. PMID  3172241. Qian1988.
  15. ^ Rost, B .; Sander, C. (1993). „Predikce sekundární struktury proteinu s přesností vyšší než 70%“ (PDF). Journal of Molecular Biology. 232 (2): 584–599. doi:10.1006 / jmbi.1993.1413. PMID  8345525. Rost1993.
  16. ^ J. Weng, N. Ahuja a T. S. Huang, "Cresceptron: samoorganizující se neurální síť, která se adaptivně rozrůstá," Proc. Mezinárodní společná konference o neuronových sítích, Baltimore, Maryland, svazek I, str. 576–581, červen 1992.
  17. ^ J. Weng, N. Ahuja a T. S. Huang, "Učení rozpoznávání a segmentace 3D objektů z 2D obrázků," Proc. 4. mezinárodní konf. Počítačové vidění, Berlín, Německo, s. 121–128, květen 1993.
  18. ^ J. Weng, N. Ahuja a T. S. Huang, "Rozpoznávání a segmentace učení pomocí Cresceptronu," International Journal of Computer Vision, sv. 25, č. 2, s. 105–139, listopad 1997.
  19. ^ Dominik Scherer, Andreas C. Müller a Sven Behnke: "Vyhodnocení operací sdružování v konvolučních architekturách pro rozpoznávání objektů," Na 20. mezinárodní konferenci Umělé neuronové sítě (ICANN), str. 92–101, 2010. doi:10.1007/978-3-642-15825-4_10.
  20. ^ S. Hochreiter. “Untersuchungen zu dynamischen neuronalen Netzen," Diplomová práce. Institut f. Informatik, Technische Univ. Mnichov. Poradce: J. Schmidhuber, 1991.
  21. ^ Hochreiter, S .; et al. (15. ledna 2001). „Přechod v opakujících se sítích: obtížnost osvojení si dlouhodobých závislostí“. In Kolen, John F .; Kremer, Stefan C. (eds.). Polní průvodce dynamickými rekurentními sítěmi. John Wiley & Sons. ISBN  978-0-7803-5369-5.
  22. ^ J. Schmidhuber., „Učení komplexu, rozšířené sekvence využívající princip komprese historie,“ Neurální výpočet, 4, s. 234–242, 1992.
  23. ^ Sven Behnke (2003). Hierarchické neurální sítě pro interpretaci obrazu (PDF). Přednášky z informatiky. 2766. Springer.
  24. ^ Smolensky, P. (1986). „Zpracování informací v dynamických systémech: Základy teorie harmonie.“. V D. E. Rumelhart; J. L. McClelland; PDP Research Group (eds.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 1. str.194–281. ISBN  9780262680530.
  25. ^ A b Hinton, G. E.; Osindero, S .; Teh, Y. (2006). „Algoritmus rychlého učení pro sítě s hlubokým přesvědčením“ (PDF). Neurální výpočet. 18 (7): 1527–1554. CiteSeerX  10.1.1.76.1541. doi:10.1162 / neco.2006.18.7.1527. PMID  16764513. S2CID  2309950.
  26. ^ Hinton, G. (2009). „Hluboké sítě víry“. Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ ... 4.5947H. doi:10,4249 / scholarpedia.5947.
  27. ^ Ng, Andrew; Dean, Jeff (2012). „Vytváření funkcí na vysoké úrovni pomocí rozsáhlého učení bez dozoru“. arXiv:1112.6209 [cs.LG ].
  28. ^ Medovina, řezbář A.; Ismail, Mohammed (8. května 1989). Analogová implementace VLSI neurálních systémů (PDF). Mezinárodní série Kluwer ve strojírenství a informatice. 80. Norwell, MA: Kluwer Academic Publishers. doi:10.1007/978-1-4613-1639-8. ISBN  978-1-4613-1639-8.
  29. ^ Yang, J. J .; Pickett, M. D .; Li, X. M .; Ohlberg, D. A. A .; Stewart, D. R .; Williams, R. S. (2008). "Memristivní spínací mechanismus pro nanodevice kov / oxid / kov". Nat. Nanotechnol. 3 (7): 429–433. doi:10.1038 / nnano.2008.160. PMID  18654568.
  30. ^ Strukov, D. B .; Snider, G. S .; Stewart, D. R .; Williams, R. S. (2008). Msgstr "Byl nalezen chybějící memristor". Příroda. 453 (7191): 80–83. Bibcode:2008Natur.453 ... 80S. doi:10.1038 / nature06932. PMID  18451858. S2CID  4367148.
  31. ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21. 09. 2010). "Hluboké, velké, jednoduché neuronové sítě pro ručně psané rozpoznávání číslic". Neurální výpočet. 22 (12): 3207–3220. arXiv:1003.0358. doi:10.1162 / neco_a_00052. ISSN  0899-7667. PMID  20858131. S2CID  1918673.
  32. ^ 2012 Kurzweil AI Interview Archivováno 31. 8. 2018 na Wayback Machine s Jürgen Schmidhuber na osmi soutěžích vyhraných jeho týmem Deep Learning 2009–2012
  33. ^ „Jak bioinspirované hluboké učení stále vyhrává soutěže | KurzweilAI“. www.kurzweilai.net. Archivovány od originál dne 2018-08-31. Citováno 2017-06-16.
  34. ^ Graves, Alex; a Schmidhuber, Jürgen; Offline rozpoznávání rukopisu s vícerozměrnými opakujícími se neuronovými sítěmi, v Bengiu, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I .; a Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7. – 10. Prosince 2009, Vancouver, BC, Foundation Neural Information Processing Systems (NIPS), 2009, s. 545–552.
  35. ^ A b Graves, A .; Liwicki, M .; Fernandez, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (2009). „Nový systém pro spojování pro vylepšené neomezené rozpoznávání rukopisu“ (PDF). Transakce IEEE na analýze vzorů a strojové inteligenci. 31 (5): 855–868. CiteSeerX  10.1.1.139.4502. doi:10.1109 / tpami.2008.137. PMID  19299860. S2CID  14635907.
  36. ^ A b Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris editor-K. I .; Culotta, Aron (eds.). „Offline rozpoznávání rukopisu s vícerozměrnými opakujícími se neuronovými sítěmi“. Neural Information Processing Systems (NIPS) Foundation. Curran Associates, Inc: 545–552.
  37. ^ Graves, A .; Liwicki, M .; Fernández, S .; Bertolami, R .; Bunke, H .; Schmidhuber, J. (květen 2009). "Nový systém pro spojování pro neomezené rozpoznávání rukopisu". Transakce IEEE na analýze vzorů a strojové inteligenci. 31 (5): 855–868. CiteSeerX  10.1.1.139.4502. doi:10.1109 / tpami.2008.137. ISSN  0162-8828. PMID  19299860. S2CID  14635907.
  38. ^ A b Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (srpen 2012). "Vícesloupcová hluboká neuronová síť pro klasifikaci dopravních značek". Neuronové sítě. Vybrané příspěvky z IJCNN 2011. 32: 333–338. CiteSeerX  10.1.1.226.8219. doi:10.1016 / j.neunet.2012.02.023. PMID  22386783.
  39. ^ A b Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M .; Schmidhuber, Juergen (2012). Pereira, F .; Burges, C. J. C .; Bottou, L .; Weinberger, K. Q. (eds.). Pokroky v systémech zpracování neurálních informací 25 (PDF). Curran Associates, Inc., str. 2843–2851.
  40. ^ A b Ciresan, Dan; Meier, U .; Schmidhuber, J. (červen 2012). Vícesloupcové hluboké neuronové sítě pro klasifikaci obrazu. 2012 IEEE Conference on Computer Vision and Pattern Recognition. 3642–3649. arXiv:1202.2745. Bibcode:2012arXiv1202.2745C. CiteSeerX  10.1.1.300.3283. doi:10.1109 / cvpr.2012.6248110. ISBN  978-1-4673-1228-8. S2CID  2161592.
  41. ^ A b Ciresan, D. C .; Meier, U .; Masci, J .; Gambardella, L. M .; Schmidhuber, J. (2011). „Flexibilní, vysoce výkonné konvoluční neurální sítě pro klasifikaci obrazu“ (PDF). Mezinárodní společná konference o umělé inteligenci. doi:10.5591 / 978-1-57735-516-8 / ijcai11-210.
  42. ^ Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). „ImageNet Classification with Deep Convolutional Neural Networks“ (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada.
  43. ^ Fukushima, K. (1980). „Neocognitron: Samoorganizující se model neuronové sítě pro mechanismus rozpoznávání vzorů neovlivněný posunem polohy“. Biologická kybernetika. 36 (4): 93–202. doi:10.1007 / BF00344251. PMID  7370364. S2CID  206775608.
  44. ^ Riesenhuber, M; Poggio, T (1999). Msgstr "Hierarchické modely rozpoznávání objektů v kůře". Přírodní neurovědy. 2 (11): 1019–1025. doi:10.1038/14819. PMID  10526343. S2CID  8920227.
  45. ^ Hinton, Geoffrey (2009-05-31). „Hluboké sítě víry“. Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ ... 4.5947H. doi:10,4249 / scholarpedia.5947. ISSN  1941-6016.
  46. ^ Markoff, John (23. listopadu 2012). „Vědci vidí příslib v programech hlubokého učení“. New York Times.
  47. ^ Martines, H .; Bengio, Y .; Yannakakis, G. N. (2013). „Učení hlubokých fyziologických modelů afektů“. IEEE Computational Intelligence Magazine (Vložený rukopis). 8 (2): 20–33. doi:10,1109 / mci.2013.2247823. S2CID  8088093.
  48. ^ J. Weng, “Proč jsme prošli „Neuronové sítě nevypadají dobře“?," Přírodní inteligence: časopis INNS, sv. 1, č. 1, s. 13–22, 2011.
  49. ^ Z. Ji, J. Weng a D. Prochorov, "Síť kde-co 1: Kde a co si navzájem pomáhají prostřednictvím připojení shora dolů," Proc. 7. mezinárodní konference o rozvoji a učení (ICDL'08), Monterey, CA, 9. – 12. Srpna, s. 1–6, 2008.
  50. ^ X. Wu, G. Guo a J. Weng, "Autonomní vývoj uzavřený lebkou: WWN-7 Práce s váhami," Proc. Mezinárodní konference o mozku, 27. - 28. července, East Lansing, Michigan, s. 1–9, 2013.

externí odkazy