Stav – akce – odměna – stav – akce - State–action–reward–state–action
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
Stav – akce – odměna – stav – akce (SARSA) je algoritmus pro učení a Markovův rozhodovací proces politika používaná v EU posilování učení oblast strojové učení. Navrhli to Rummery a Niranjan v technické poznámce[1] s názvem „Modified Connectionist Q-Learning“ (MCQ-L). Alternativní název SARSA, který navrhl Rich Sutton, byl zmíněn pouze jako poznámka pod čarou.
Tento název jednoduše odráží skutečnost, že hlavní funkce pro aktualizaci hodnoty Q závisí na aktuálním stavu agenta "S1„, akce, kterou si agent vybere“A1", odměna "R"agent dostane za výběr této akce, stav"S2„že agent vstoupí po provedení této akce a nakonec další akce“A2„agent zvolí v novém stavu. Zkratka pro pětinásobek (st, at, rt, st + 1, at + 1) je SARSA.[2] Někteří autoři používají mírně odlišnou konvenci a píší pětinásobek (st, at, rt + 1, st + 1, at + 1), v závislosti na tom, kterému časovému kroku je odměna formálně přiřazena. Zbytek článku používá dřívější konvenci.
Algoritmus
Agent SARSA interaguje s prostředím a aktualizuje zásadu na základě provedených akcí, proto se tomu říká algoritmus učení na základě politiky. Hodnota Q pro akci stavu je aktualizována chybou upravenou pomocí míra učení alfa Hodnoty Q představují možnou odměnu získanou v dalším časovém kroku za přijetí opatření A ve stavu s, plus zlevněná budoucí odměna získaná z dalšího pozorování stavu akce.
Watkin Q-učení aktualizuje odhad funkce optimální hodnoty stavu a akce na základě maximální odměny dostupných akcí. Zatímco se SARSA učí hodnoty Q spojené s převzetím politiky, kterou sama sleduje, Watkinovo Q-učení se učí hodnoty Q spojené s převzetím optimální politiky při dodržování průzkum / vykořisťování politika.
Na SARSA mohou být použity některé optimalizace Watkinova Q-učení.[3]
Hyperparametry
Míra učení (alfa)
The míra učení určuje, do jaké míry mají nově získané informace přednost před starými informacemi. Faktor 0 způsobí, že se agent nic nenaučí, zatímco faktor 1 způsobí, že agent bude brát v úvahu pouze nejnovější informace.
Faktor slevy (gama)
Faktor slevy určuje důležitost budoucích odměn. Faktor 0 činí agenta „oportunistickým“ tím, že zohledňuje pouze aktuální odměny, zatímco faktor blížící se 1 bude usilovat o dlouhodobě vysokou odměnu. Pokud slevový faktor dosáhne nebo přesáhne 1, hodnoty se mohou lišit.
Počáteční podmínky (Q(s0, A0))
Vzhledem k tomu, že SARSA je iterační algoritmus, implicitně předpokládá počáteční podmínku, než dojde k první aktualizaci. Nízká (nekonečná) počáteční hodnota, známá také jako „optimistické počáteční podmínky“,[4] může povzbudit průzkum: bez ohledu na to, co se stane, pravidlo aktualizace způsobí, že bude mít vyšší hodnoty než jiná alternativa, čímž se zvýší pravděpodobnost jejich výběru. V roce 2013 bylo navrženo, že první odměna r lze použít k resetování počátečních podmínek. Podle této myšlenky se při první akci použije odměna k nastavení hodnoty Q. To umožňuje okamžité učení v případě pevných deterministických odměn. Tento přístup resetování počátečních podmínek (RIC) se zdá být v souladu s lidským chováním v experimentech s opakovanou binární volbou.[5]
Reference
- ^ Online Q-Learning using Connectionist Systems "Rummery & Niranjan (1994)
- ^ Učení o posílení: Úvod Richard S. Sutton a Andrew G. Barto (kapitola 6.4)
- ^ Wiering, Marco; Schmidhuber, Jürgen (01.10.1998). „Fast Online Q (λ)“ (PDF). Strojové učení. 33 (1): 105–115. doi:10.1023 / A: 1007562800292. ISSN 0885-6125. S2CID 8358530.
- ^ „2.7 Optimistické počáteční hodnoty“. Incompleteideas.net. Citováno 2018-02-28.
- ^ Shteingart, H; Neiman, T; Loewenstein, Y (květen 2013). „Role prvního dojmu v operantním učení“ (PDF). J Exp Psychol Gen. 142 (2): 476–88. doi:10.1037 / a0029550. PMID 22924882.