Hodnotová funkce - Value function - Wikipedia
The funkce hodnoty z optimalizační problém dává hodnota dosažené Objektivní funkce na řešení, i když pouze v závislosti na parametry problému.[1][2] V kontrolované dynamický systém, hodnotová funkce představuje optimální výplatu systému v daném intervalu [t, t1] když začal v té době-t stavová proměnná x (t) = x.[3] Pokud objektivní funkce představuje určité náklady, které mají být minimalizovány, lze hodnotovou funkci interpretovat jako náklady na dokončení optimálního programu, a proto se označuje jako „funkce nákladů“.[4][5] V ekonomickém kontextu, kde objektivní funkce obvykle představuje nástroj, hodnotová funkce je koncepčně ekvivalentní s nepřímá užitková funkce.[6][7]
V problému optimální ovládání, hodnotová funkce je definována jako supremum objektivní funkce převzal soubor přípustných kontrol. Dáno , typickým problémem optimální kontroly je
podléhá
s proměnnou počátečního stavu .[8] Objektivní funkce je třeba maximalizovat u všech přípustných kontrol , kde je Lebesgueova měřitelná funkce z na nějaký předepsaný libovolný soubor v . Hodnotová funkce je poté definována jako
s , kde je šrot hodnota. Pokud je optimální dvojice trajektorií řízení a stavu , pak . Funkce který poskytuje optimální kontrolu na základě aktuálního stavu se nazývá politika zpětné vazby,[4] nebo jednoduše politická funkce.[9]
Bellmanova zásada optimality zhruba uvádí, že každá optimální politika v čase , současný stav protože „nová“ počáteční podmínka musí být pro zbývající problém optimální. Pokud se stane, že hodnotová funkce bude průběžně diferencovatelné,[10] to dává vzniknout důležitému parciální diferenciální rovnice známý jako Hamilton – Jacobi – Bellmanova rovnice,
Kde maximand na pravé straně lze přepsat také jako Hamiltonian, , tak jako
s hraje roli nákladné proměnné.[11] Vzhledem k této definici máme dále , a po rozlišení obou stran HJB rovnice s ohledem na ,
který po nahrazení příslušných podmínek obnoví nákladná rovnice
kde je Newtonova notace pro derivát s ohledem na čas.
Hodnotová funkce je a roztok viskozity k rovnici Hamilton – Jacobi – Bellman.[12] V online uzavřená smyčka přibližná optimální regulace, hodnotová funkce je také a Lyapunovova funkce která stanoví globální asymptotickou stabilitu systému s uzavřenou smyčkou.[13]
Reference
- ^ Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministická a stochastická optimální kontrola. New York: Springer. 81–83. ISBN 0-387-90155-8.
- ^ Caputo, Michael R. (2005). Základy dynamické ekonomické analýzy: teorie optimálního řízení a aplikace. New York: Cambridge University Press. str. 185. ISBN 0-521-60368-4.
- ^ Weber, Thomas A. (2011). Teorie optimálního řízení: s aplikacemi v ekonomii. Cambridge: MIT Press. str. 82. ISBN 978-0-262-01573-8.
- ^ A b Bertsekas, Dimitri P .; Tsitsiklis, John N. (1996). Neuro-dynamické programování. Belmont: Athena Scientific. str. 2. ISBN 1-886529-10-8.
- ^ "EE365: Dynamické programování" (PDF).
- ^ Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Mikroekonomická teorie. New York: Oxford University Press. str. 964. ISBN 0-19-507340-1.
- ^ Corbae, Dean; Stinchcombe, Maxwell B .; Zeman, Juraj (2009). Úvod do matematické analýzy pro ekonomickou teorii a ekonometrii. Princeton University Press. str. 145. ISBN 978-0-691-11867-3.
- ^ Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamická optimalizace: Variační počet a optimální řízení v ekonomice a managementu (2. vyd.). Amsterdam: Severní Holandsko. str. 259. ISBN 0-444-01609-0.
- ^ Ljungqvist, Larsi; Sargent, Thomas J. (2018). Rekurzivní makroekonomická teorie (Čtvrté vydání). Cambridge: MIT Press. str. 106. ISBN 978-0-262-03866-9.
- ^ Benveniste a Scheinkman vytvořili dostatečné podmínky pro rozlišitelnost hodnotové funkce, což zase umožňuje použití věta o obálce viz Benveniste, L. M .; Scheinkman, J. A. (1979). „O rozlišitelnosti hodnotové funkce v dynamických modelech ekonomiky“. Econometrica. 47 (3): 727–732. doi:10.2307/1910417. JSTOR 1910417. Viz také Seierstad, Atle (1982). "Vlastnosti rozlišitelnosti funkce optimální hodnoty v teorii řízení". Journal of Economic Dynamics and Control. 4: 303–310. doi:10.1016/0165-1889(82)90019-7.
- ^ Kirk, Donald E. (1970). Teorie optimální kontroly. Englewood Cliffs, NJ: Prentice-Hall. str. 88. ISBN 0-13-638098-0.
- ^ Zhou, X. Y. (1990). "Maximální princip, dynamické programování a jejich spojení v deterministickém řízení". Journal of Optimization Theory and Applications. 65 (2): 363–373. doi:10.1007 / BF01102352. S2CID 122333807.
- ^ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). „Optimální ovládání a stabilita Lyapunova“. Výuka posílení pro optimální kontrolu zpětné vazby: přístup založený na Lyapunově. Berlín: Springer. 26–27. ISBN 978-3-319-78383-3.
Další čtení
- Caputo, Michael R. (2005). „Nezbytné a dostatečné podmínky pro izoperimetrické problémy“. Základy dynamické ekonomické analýzy: teorie optimálního řízení a aplikace. New York: Cambridge University Press. 174–210. ISBN 0-521-60368-4.
- Clarke, Frank H .; Loewen, Philip D. (1986). "Hodnotová funkce v optimálním řízení: citlivost, ovladatelnost a časová optimalita". SIAM Journal on Control and Optimization. 24 (2): 243–263. doi:10.1137/0324014.
- LaFrance, Jeffrey T .; Barney, L. Dwayne (1991). „Věta obálky v dynamické optimalizaci“ (PDF). Journal of Economic Dynamics and Control. 15 (2): 355–385. doi:10.1016 / 0165-1889 (91) 90018-V.
- Stengel, Robert F. (1994). „Podmínky pro optimalitu“. Optimální řízení a odhad. New York: Dover. 201–222. ISBN 0-486-68200-5.