Diferenciální dynamické programování - Differential dynamic programming
Diferenciální dynamické programování (DDP) je optimální ovládání algoritmus optimalizace trajektorie třída. Algoritmus zavedl v roce 1966 Mayne[1] a následně analyzovány ve stejnojmenné knize Jacobsona a Mayna.[2] Algoritmus používá lokálně kvadratické modely dynamických a nákladových funkcí a displeje kvadratická konvergence. Úzce souvisí s Pantojovou postupnou Newtonovou metodou.[3][4]
Konečný horizont v diskrétním čase
Dynamika
(1)
popsat vývoj státu vzhledem k ovládání od času na čas . The Celkové náklady je součet provozních nákladů a konečné náklady , vzniklé při startu ze státu a použití kontrolní sekvence dokud není dosaženo horizontu:
kde a pro jsou dány Rov. 1. Řešením optimálního regulačního problému je minimalizace řídicí sekvenceOptimalizace dráhy znamená najít pro konkrétní , spíše než pro všechny možné počáteční stavy.
Dynamické programování
Nechat být dílčí kontrolní sekvence a definovat náklady do konce jako dílčí součet nákladů z na :
Optimální náklady na cestu nebo funkce hodnoty v čase je zbývající cena vzhledem k minimalizaci řídicí sekvence:
Nastavení , princip dynamického programování snižuje minimalizaci přes celou sekvenci ovládacích prvků na posloupnost minimalizací přes jednu ovládací prvek a postupuje zpět v čase:
(2)
To je Bellmanova rovnice.
Diferenciální dynamické programování
DDP pokračuje iterativním provedením zpětného průchodu nominální trajektorie, aby se vygenerovala nová řídicí sekvence, a následným průchodem pro výpočet a vyhodnocení nové nominální trajektorie. Začínáme zpětným pasem. Li
je argumentem operátor v Rov. 2, nechť být variací tohoto množství kolem -th pár:
a rozbalte se do druhého řádu
(3)
The zde použitý zápis je variantou zápisu Morimoto, kde dolní indexy označují diferenciaci v rozložení jmenovatele.[5]Zrušení indexu z důvodu čitelnosti prvočísla označující další časový krok , koeficienty roztažnosti jsou
Poslední členy v posledních třech rovnicích označují kontrakci vektoru s tenzorem. Minimalizace kvadratické aproximace (3) s ohledem na my máme
(4)
dát termín otevřené smyčky a termín získání zpětné vazby . Připojte výsledek zpět do (3), nyní máme kvadratický model hodnoty v čase :
Rekurzivní výpočet lokálních kvadratických modelů a úpravy ovládání , z dolů , představuje zpětnou přihrávku. Jak je uvedeno výše, hodnota je inicializována pomocí . Jakmile je zpětný průchod dokončen, dopředný průchod vypočítá novou trajektorii:
Zpětné průchody a přední průchody jsou iterovány až do konvergence.
Regularizace a vyhledávání linek
Diferenciální dynamické programování je algoritmus druhého řádu Newtonova metoda. Proto podniká velké kroky k minimu a často vyžaduje regulace a / nebo line-search dosáhnout konvergence[6].[7] Regularizace v kontextu DDP znamená zajistit, aby: matice v Rov. 4 je pozitivní určitý. Řádkové vyhledávání v DDP se rovná změně měřítka úpravy řízení s otevřenou smyčkou některými .
Verze Monte Carlo
Vzorek diferenciálního dynamického programování (SaDDP) je variantou diferenciálního dynamického programování v Monte Carlu.[8][9][10] Je založen na léčbě kvadratických nákladů na diferenciální dynamické programování jako na energii a Boltzmannova distribuce. Tímto způsobem lze množství DDP porovnat se statistikami a vícerozměrné normální rozdělení. Statistiky lze přepočítat ze vzorkovaných trajektorií bez rozlišení.
Ukázkové diferenciální dynamické programování bylo rozšířeno na Path Integral Policy Improvement with Differential Dynamic Programming.[11] Tím se vytvoří spojení mezi diferenciálním dynamickým programováním a integrálním řízením cesty,[12] což je rámec stochastické optimální kontroly.
Omezené problémy
Interní bodové diferenciální dynamické programování (IPDDP) je metoda vnitřního bodu zobecnění DDP, které může řešit problém optimálního řízení s nelineárním stavem a omezeními vstupu. [13]
Viz také
Reference
- ^ Mayne, D. Q. (1966). "Metoda gradientu druhého řádu optimalizující nelineární diskrétní časové systémy". Int J Control. 3: 85–95. doi:10.1080/00207176608921369.
- ^ Mayne, David H. a Jacobson, David Q. (1970). Diferenciální dynamické programování. New York: American Elsevier Pub. Co. ISBN 978-0-444-00070-5.
- ^ de O. Pantoja, J. F. A. (1988). "Diferenciální dynamické programování a Newtonova metoda". International Journal of Control. 47 (5): 1539–1553. doi:10.1080/00207178808906114. ISSN 0020-7179.
- ^ Liao, L. Z .; C. Švec (1992). "Výhody diferenciálního dynamického programování oproti Newtonově metodě pro problémy diskrétního optimálního řízení". Cornell University, Ithaca, NY. hdl:1813/5474. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ Morimoto, J .; G. Zeglin; C.G. Atkeson (2003). "Minimax diferenciální dynamické programování: Aplikace na dvojnohého kráčícího robota". Inteligentní roboti a systémy, 2003. (IROS 2003). Řízení. 2003 Mezinárodní konference IEEE / RSJ o. 2. 1927–1932.
- ^ Liao, L. Z; C. Švec (1991). "Konvergence v neomezeném diferenciálním dynamickém programování v diskrétním čase". Transakce IEEE na automatickém ovládání. 36 (6): 692. doi:10.1109/9.86943.
- ^ Tassa, Y. (2011). Teorie a implementace bio-mimetických motorových regulátorů (PDF) (Teze). Hebrejská univerzita. Archivovány od originál (PDF) dne 04.03.2016. Citováno 2012-02-27.
- ^ "Ukázkové diferenciální dynamické programování - publikace IEEE Conference". doi:10.1109 / IROS.2016.7759229. S2CID 1338737. Citovat deník vyžaduje
| deník =
(Pomoc) - ^ „Regularizace vzorkovaného diferenciálního dynamického programování - publikace IEEE Conference“. ieeexplore.ieee.org. Citováno 2018-10-19.
- ^ Joose, Rajamäki (2018). Algoritmy náhodného vyhledávání pro optimální ovládání. Aalto University. ISBN 9789526081564. ISSN 1799-4942.
- ^ Lefebvre, Tom; Crevecoeur, Guillaume (červenec 2019). „Cesta ke zlepšení integrální politiky s diferenciálním dynamickým programováním“. 2019 Mezinárodní konference IEEE / ASME o pokročilé inteligentní mechatronice (AIM): 739–745. doi:10.1109 / AIM.2019.8868359. hdl:1854 / LU-8623968. ISBN 978-1-7281-2493-3. S2CID 204816072.
- ^ Theodorou, Evangelos; Buchli, Jonas; Schaal, Stefan (květen 2010). „Posílení motorických dovedností ve vysokých dimenzích: integrální přístup k cestě“. 2010 Mezinárodní konference IEEE o robotice a automatizaci: 2397–2403. doi:10.1109 / ROBOT.2010.5509336. ISBN 978-1-4244-5038-1. S2CID 15116370.
- ^ Pavlov, Andrei; Shames, Iman; Manzie, Chris (2020). "Diferenční dynamické programování vnitřních bodů". arXiv:2004.12710 [matematika.OC ].