MuZero - MuZero

MuZero je počítačový program vyvinutý uživatelem umělá inteligence výzkumná společnost DeepMind ovládat hry, aniž by věděli cokoli o jejich pravidlech.^[1]^[2]^[3] Jeho první vydání v roce 2019 zahrnovalo měřítka jeho výkonu v jít, šachy, shogi a standardní sada Atari hry. The algoritmus používá podobný přístup jako AlphaZero Srovnával výkon AlphaZero v šachu a šógi, zlepšil svůj výkon v Jít (vytvoření nového světového rekordu) a zdokonalení současného stavu v ovládání sady 57 her Atari (Arcade Learning Environment), vizuálně složité domény.

MuZero byl trénován pomocí sebe-hry a hry proti AlphaZero, bez přístupu k pravidlům, otevírání knih nebo koncových stolů. Vyškolený algoritmus používal stejné konvoluční a reziduální algoritmy jako AlphaZero, ale s vyhledávacím stromem o 20% méně výpočtových kroků na uzel.^[4]

Dějiny

19. listopadu 2019 vydal tým DeepMind a předtisk Představujeme MuZero.

Odvození od AlphaZero

MuZero (MZ) je kombinací vysoce výkonného plánování AlphaZero (AZ) algoritmus s přístupy k učení bez vyztužování bez modelu. Kombinace umožňuje efektivnější trénink v klasických plánovacích režimech, jako je Go, a zároveň zvládá domény s mnohem komplexnějšími vstupy v každé fázi, jako jsou vizuální videohry.

MuZero byl odvozen přímo z kódu AZ a sdílí svá pravidla pro nastavení vyhledávání hyperparametry. Rozdíly mezi přístupy zahrnují:^[5]

Proces plánování AZ využívá simulátor (který zná pravidla hry a musí být výslovně naprogramován člověkem) a neurální síť (která předpovídá politiku a hodnotu budoucí pozice). Dokonalá znalost pravidel hry se používá při modelování přechodů stavu ve stromu vyhledávání, akcí dostupných v každém uzlu a ukončení větve stromu. MZ nemá přístup k dokonalé sadě pravidel a nahrazuje ji naučenými neuronovými sítěmi, které se používají pro výše uvedené modelování.
AZ má pro hru jediný model (od stavu desky po předpovědi); MZ má samostatné modely pro zastoupení aktuálního stavu (ze stavu desky do jejího vnitřního vložení), dynamika států (jak akce mění reprezentace států představenstva) a předpověď politiky a hodnoty budoucí pozice (vzhledem k zastoupení státu).
Skrytý model MZ může být složitý a může se ukázat, že v něm dokáže ukládat mezipaměť; zkoumání podrobností skrytého modelu v úspěšně trénované instanci MZ je cestou pro budoucí zkoumání.
MZ neočekává hru pro dva hráče, kde vítězové vezmou vše. Funguje se standardními scénáři posilování a učení, včetně prostředí s jedním agentem s průběžnými průběžnými odměnami, případně libovolného rozsahu as časovým diskontováním. AZ byl navržen výhradně pro hry pro dva hráče, které lze vyhrát, vylosovat nebo prohrát.

Srovnání s R2D2

Předchozí nejmodernější technikou, jak se naučit hrát sadu her Atari, byla R2D2, Recurrent Replay Distributed DQN.^[6]

MuZero předčil průměrný i střední výkon R2D2 v celé sadě her, i když v každé hře to nebylo lepší.

Školení a výsledky

MuZero použil 16 třetí generace jednotky zpracování tenzoru [TPU] pro trénink a na 1 000 TPU pro selfplay (pro deskové hry, s 800 simulacemi na krok) a 8 TPU pro trénink a 32 TPU pro selfplay (pro hry Atari, s 50 simulacemi na krok).

AlphaZero používalo 64 TPU první generace pro trénink a 5 000 TPU druhé generace pro vlastní hraní. Vzhledem k tomu, že se vylepšil design TPU (čipy třetí generace jsou dvakrát tak výkonné samostatně než čipy druhé generace, s dalším pokrokem v oblasti šířky pásma a síťových připojení mezi čipy v lusku), jedná se o poměrně srovnatelné tréninkové sestavy.

R2D2 byl trénován po dobu 5 dnů prostřednictvím 2M tréninkových kroků.

Předběžné výsledky

MuZero srovnával výkon AlphaZero v šachu a Shogi po zhruba 1 milionu tréninkových kroků. Odpovídal výkonu AZ v Go po 500 tisících tréninkových krocích a překonal jej o 1 milion kroků. Po 500 tisících tréninkových krocích odpovídal střednímu a střednímu výkonu R2D2 v herní sadě Atari a překonal jej o 1 milion kroků; i když nikdy nepracovalo dobře na 6 hrách v sadě.^[5]

Reakce a související práce

MuZero bylo považováno za významný pokrok oproti AlphaZero,^[7] a zobecnitelný krok vpřed v technikách učení bez dozoru.^[8]^[9] Práce byla považována za postupující pochopení toho, jak skládat systémy z menších komponent, což je vývoj na úrovni systémů více než čistý vývoj strojového učení.^[10]

Zatímco vývojový tým vydal pouze pseudokód, Werner Duvaud na základě toho vytvořil implementaci open source.^[11]

MuZero byl použit jako referenční implementace v jiné práci, například jako způsob generování chování založeného na modelu.^[12]

Viz také

Reference

^ Kroutí, Kyle. „DeepMind's MuZero se učí, jak vyhrát v Atari, šachu, shogi a Go“. VentureBeat. Citováno 22. července 2020.
^ Friedel, Frederic. „MuZero zjistí šachy, pravidla a vše ostatní“. ChessBase GmbH. Citováno 22. července 2020.
^ Rodriguez, Ježíši. „DeepMind odhaluje MuZera, nového agenta, který zvládl šachy, šógi, atari a bez znalosti pravidel“. KDnuggets. Citováno 22. července 2020.
^ Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2019-11-19). „Zvládnutí Atari, Go, Chess a Shogi plánováním s naučeným modelem“. arXiv:1911.08265 [cs.LG ].
^ ^A ^b Stříbro, Davide; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5. prosince 2017). „Zvládnutí šachu a šógi hraním sebe sama s algoritmem učení se všeobecnou výzvou“. arXiv:1712.01815 [cs.AI ].
^ Kapturowski, Steven; Ostrovski, Georg; Quan, John; Munos, Remi; Dabney, Will. OPAKUJÍCÍ SE ZNOVU ZKUŠENOSTÍ V DISTRIBUOVANÉM VÝZKUMU POSÍLENÍ. ICLR 2019 - prostřednictvím Open Review.
^ Zkrátit, Connore (2020-01-18). „Vývoj AlphaGo na MuZero“. Střední. Citováno 2020-06-07.
^ „[AN # 75]: Řešení Atari and Go s naučenými herními modely a myšlenkami od zaměstnance MIRI - LessWrong 2.0“. www.lesswrong.com. Citováno 2020-06-07.
^ Wu, červen „Posílení učení, partner společnosti Deep Learning“. Forbes. Citováno 2020-07-15.
^ „Machine Learning & Robotics: My (biased) 2019 State of the Field“. cachestocaches.com. Citováno 2020-07-15.
^ Duvaud, Werner (2020-07-15), werner-duvaud / generál muzero, vyvoláno 2020-07-15
^ van Seijen, Harm; Nekoei, Hadi; Racah, Evan; Chandar, Sarath (06.07.2020). „LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning“. arXiv:2007.03158 [cs.stat ].

externí odkazy

Počáteční Předtisk MuZero.
Open source implementace

[1] Kroutí, Kyle. „DeepMind's MuZero se učí, jak vyhrát v Atari, šachu, shogi a Go“. VentureBeat. Citováno 22. července 2020.

[2] Friedel, Frederic. „MuZero zjistí šachy, pravidla a vše ostatní“. ChessBase GmbH. Citováno 22. července 2020.

[3] Rodriguez, Ježíši. „DeepMind odhaluje MuZera, nového agenta, který zvládl šachy, šógi, atari a bez znalosti pravidel“. KDnuggets. Citováno 22. července 2020.

[4] Schrittwieser, Julian; Antonoglou, Ioannis; Hubert, Thomas; Simonyan, Karen; Sifre, Laurent; Schmitt, Simon; Guez, Arthur; Lockhart, Edward; Hassabis, Demis; Graepel, Thore; Lillicrap, Timothy (2019-11-19). „Zvládnutí Atari, Go, Chess a Shogi plánováním s naučeným modelem“. arXiv:1911.08265 [cs.LG ].

[preprint-5] A ^b Stříbro, Davide; Hubert, Thomas; Schrittwieser, Julian; Antonoglou, Ioannis; Lai, Matthew; Guez, Arthur; Lanctot, Marc; Sifre, Laurent; Kumaran, Dharshan; Graepel, Thore; Lillicrap, Timothy; Simonyan, Karen; Hassabis, Demis (5. prosince 2017). „Zvládnutí šachu a šógi hraním sebe sama s algoritmem učení se všeobecnou výzvou“. arXiv:1712.01815 [cs.AI ].

[6] Kapturowski, Steven; Ostrovski, Georg; Quan, John; Munos, Remi; Dabney, Will. OPAKUJÍCÍ SE ZNOVU ZKUŠENOSTÍ V DISTRIBUOVANÉM VÝZKUMU POSÍLENÍ. ICLR 2019 - prostřednictvím Open Review.

[7] Zkrátit, Connore (2020-01-18). „Vývoj AlphaGo na MuZero“. Střední. Citováno 2020-06-07.

[8] „[AN # 75]: Řešení Atari and Go s naučenými herními modely a myšlenkami od zaměstnance MIRI - LessWrong 2.0“. www.lesswrong.com. Citováno 2020-06-07.

[9] Wu, červen „Posílení učení, partner společnosti Deep Learning“. Forbes. Citováno 2020-07-15.

[10] „Machine Learning & Robotics: My (biased) 2019 State of the Field“. cachestocaches.com. Citováno 2020-07-15.

[11] Duvaud, Werner (2020-07-15), werner-duvaud / generál muzero, vyvoláno 2020-07-15

[12] van Seijen, Harm; Nekoei, Hadi; Racah, Evan; Chandar, Sarath (06.07.2020). „LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in Reinforcement Learning“. arXiv:2007.03158 [cs.stat ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]