Bez modelu (posilovací učení) - Model-free (reinforcement learning)
tento článek potřebuje další citace pro ověření.Dubna 2019) (Zjistěte, jak a kdy odstranit tuto zprávu šablony) ( |
Část série na |
Strojové učení a dolování dat |
---|
Místa pro strojové učení |
Související články |
v posilování učení (RL), algoritmus bez modelu (na rozdíl od a na základě modelu one) je algoritmus, který nepoužívá rozdělení pravděpodobnosti přechodu (a funkce odměny) spojené s Markovův rozhodovací proces (MDP) [1], což v RL představuje problém, který má být vyřešen. Distribuce pravděpodobnosti přechodu (nebo přechodový model) a funkce odměny se často souhrnně nazývají „model“ prostředí (nebo MDP), odtud název „bez modelu“. Algoritmus RL bez modelu lze považovat za „explicitní“ pokus omyl algoritmus [1]. Příkladem algoritmu bez modelu je Q-učení.
Klíčové algoritmy učení bez vyztužení
Algoritmus | Popis | Modelka | Politika | Akční prostor | Státní prostor | Operátor |
---|---|---|---|---|---|---|
DQN | Síť Deep Q | Bez modelu | Mimo politiku | Oddělený | Kontinuální | Q-hodnota |
DDPG | Hluboký deterministický přechod politiky | Bez modelu | Mimo politiku | Kontinuální | Kontinuální | Q-hodnota |
A3C | Asynchronous Advantage Actor-Critic Algorithm | Bez modelu | On-policy | Kontinuální | Kontinuální | Výhoda |
TRPO | Důvěřujte optimalizaci zásad regionu | Bez modelu | On-policy | Kontinuální | Kontinuální | Výhoda |
PPO | Optimalizace proximální politiky | Bez modelu | On-policy | Kontinuální | Kontinuální | Výhoda |
TD3 | Twin Delayed Deep Deterministic Policy Gradient | Bez modelu | Mimo politiku | Kontinuální | Kontinuální | Q-hodnota |
VAK | Soft Actor-Critic | Bez modelu | Mimo politiku | Kontinuální | Kontinuální | Výhoda |
Reference
- ^ A b Sutton, Richard S .; Barto, Andrew G. (13. listopadu 2018). Učení o posílení: Úvod (PDF) (Druhé vydání.). Bradfordova kniha. p. 552. ISBN 0262039249. Citováno 18. února 2019.