MuZero - MuZero
MuZero je počítačový program vyvinutý uživatelem umělá inteligence výzkumná společnost DeepMind ovládat hry, aniž by věděli cokoli o jejich pravidlech.[1][2][3] Jeho první vydání v roce 2019 zahrnovalo měřítka jeho výkonu v jít, šachy, shogi a standardní sada Atari hry. The algoritmus používá podobný přístup jako AlphaZero Srovnával výkon AlphaZero v šachu a šógi, zlepšil svůj výkon v Jít (vytvoření nového světového rekordu) a zdokonalení současného stavu v ovládání sady 57 her Atari (Arcade Learning Environment), vizuálně složité domény.
MuZero byl trénován pomocí sebe-hry a hry proti AlphaZero, bez přístupu k pravidlům, otevírání knih nebo koncových stolů. Vyškolený algoritmus používal stejné konvoluční a reziduální algoritmy jako AlphaZero, ale s vyhledávacím stromem o 20% méně výpočtových kroků na uzel.[4]
Dějiny
19. listopadu 2019 vydal tým DeepMind a předtisk Představujeme MuZero.
Odvození od AlphaZero
MuZero (MZ) je kombinací vysoce výkonného plánování AlphaZero (AZ) algoritmus s přístupy k učení bez vyztužování bez modelu. Kombinace umožňuje efektivnější trénink v klasických plánovacích režimech, jako je Go, a zároveň zvládá domény s mnohem komplexnějšími vstupy v každé fázi, jako jsou vizuální videohry.
MuZero byl odvozen přímo z kódu AZ a sdílí svá pravidla pro nastavení vyhledávání hyperparametry. Rozdíly mezi přístupy zahrnují:[5]
- Proces plánování AZ využívá simulátor (který zná pravidla hry a musí být výslovně naprogramován člověkem) a neurální síť (která předpovídá politiku a hodnotu budoucí pozice). Dokonalá znalost pravidel hry se používá při modelování přechodů stavu ve stromu vyhledávání, akcí dostupných v každém uzlu a ukončení větve stromu. MZ nemá přístup k dokonalé sadě pravidel a nahrazuje ji naučenými neuronovými sítěmi, které se používají pro výše uvedené modelování.
- AZ má pro hru jediný model (od stavu desky po předpovědi); MZ má samostatné modely pro zastoupení aktuálního stavu (ze stavu desky do jejího vnitřního vložení), dynamika států (jak akce mění reprezentace států představenstva) a předpověď politiky a hodnoty budoucí pozice (vzhledem k zastoupení státu).
- Skrytý model MZ může být složitý a může se ukázat, že v něm dokáže ukládat mezipaměť; zkoumání podrobností skrytého modelu v úspěšně trénované instanci MZ je cestou pro budoucí zkoumání.
- MZ neočekává hru pro dva hráče, kde vítězové vezmou vše. Funguje se standardními scénáři posilování a učení, včetně prostředí s jedním agentem s průběžnými průběžnými odměnami, případně libovolného rozsahu as časovým diskontováním. AZ byl navržen výhradně pro hry pro dva hráče, které lze vyhrát, vylosovat nebo prohrát.
Srovnání s R2D2
Předchozí nejmodernější technikou, jak se naučit hrát sadu her Atari, byla R2D2, Recurrent Replay Distributed DQN.[6]
MuZero předčil průměrný i střední výkon R2D2 v celé sadě her, i když v každé hře to nebylo lepší.
Školení a výsledky
MuZero použil 16 třetí generace jednotky zpracování tenzoru [TPU] pro trénink a na 1 000 TPU pro selfplay (pro deskové hry, s 800 simulacemi na krok) a 8 TPU pro trénink a 32 TPU pro selfplay (pro hry Atari, s 50 simulacemi na krok).
AlphaZero používalo 64 TPU první generace pro trénink a 5 000 TPU druhé generace pro vlastní hraní. Vzhledem k tomu, že se vylepšil design TPU (čipy třetí generace jsou dvakrát tak výkonné samostatně než čipy druhé generace, s dalším pokrokem v oblasti šířky pásma a síťových připojení mezi čipy v lusku), jedná se o poměrně srovnatelné tréninkové sestavy.
R2D2 byl trénován po dobu 5 dnů prostřednictvím 2M tréninkových kroků.
Předběžné výsledky
MuZero srovnával výkon AlphaZero v šachu a Shogi po zhruba 1 milionu tréninkových kroků. Odpovídal výkonu AZ v Go po 500 tisících tréninkových krocích a překonal jej o 1 milion kroků. Po 500 tisících tréninkových krocích odpovídal střednímu a střednímu výkonu R2D2 v herní sadě Atari a překonal jej o 1 milion kroků; i když nikdy nepracovalo dobře na 6 hrách v sadě.[5]
MuZero bylo považováno za významný pokrok oproti AlphaZero,[7] a zobecnitelný krok vpřed v technikách učení bez dozoru.[8][9] Práce byla považována za postupující pochopení toho, jak skládat systémy z menších komponent, což je vývoj na úrovni systémů více než čistý vývoj strojového učení.[10]
Zatímco vývojový tým vydal pouze pseudokód, Werner Duvaud na základě toho vytvořil implementaci open source.[11]
MuZero byl použit jako referenční implementace v jiné práci, například jako způsob generování chování založeného na modelu.[12]
Viz také
Reference
- ^ Kroutí, Kyle. „DeepMind's MuZero se učí, jak vyhrát v Atari, šachu, shogi a Go“. VentureBeat. Citováno 22. července 2020.
- ^ Friedel, Frederic. „MuZero zjistí šachy, pravidla a vše ostatní“. ChessBase GmbH. Citováno 22. července 2020.
- ^ Rodriguez, Ježíši. „DeepMind odhaluje MuZera, nového agenta, který zvládl šachy, šógi, atari a bez znalosti pravidel“. KDnuggets. Citováno 22. července 2020.
- ^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2019-11-19). „Zvládnutí Atari, Go, Chess a Shogi plánováním s naučeným modelem“. arXiv:1911.08265 [cs.LG ].
- ^ A b Stříbro, Davide; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5. prosince 2017). „Zvládnutí šachu a šógi hraním sebe sama s algoritmem učení se všeobecnou výzvou“. arXiv:1712.01815 [cs.AI ].
- ^ Kapturowski, Steven; Ostrovski, Georg; Quan, John; Munos, Remi; Dabney, Will. OPAKUJÍCÍ SE ZNOVU ZKUŠENOSTÍ V DISTRIBUOVANÉM VÝZKUMU POSÍLENÍ. ICLR 2019 - prostřednictvím Open Review.
- ^ Zkrátit, Connore (2020-01-18). „Vývoj AlphaGo na MuZero“. Střední. Citováno 2020-06-07.
- ^ „[AN # 75]: Řešení Atari and Go s naučenými herními modely a myšlenkami od zaměstnance MIRI - LessWrong 2.0“. www.lesswrong.com. Citováno 2020-06-07.
- ^ Wu, červen „Posílení učení, partner společnosti Deep Learning“. Forbes. Citováno 2020-07-15.
- ^ „Machine Learning & Robotics: My (biased) 2019 State of the Field“. cachestocaches.com. Citováno 2020-07-15.
- ^ Duvaud, Werner (2020-07-15), werner-duvaud / generál muzero, vyvoláno 2020-07-15
- ^ van Seijen, Harm; Nekoei, Hadi; Racah, Evan; Chandar, Sarath (06.07.2020). „LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning“. arXiv:2007.03158 [cs.stat ].
externí odkazy
- Počáteční Předtisk MuZero.
- Open source implementace