Rozšířená Lagrangeova metoda - Augmented Lagrangian method

Rozšířené Lagrangeovy metody jsou určitou třídou algoritmy k řešení omezený optimalizace problémy. Mají podobnosti s trestné metody v tom, že nahradí omezený optimalizační problém řadou neomezených problémů a přidají trestný výraz k objektivní; rozdíl je v tom, že rozšířená Lagrangeova metoda přidává ještě další výraz, který má napodobovat a Lagrangeův multiplikátor. Rozšířený Lagrangian souvisí s, ale není totožný s metoda Lagrangeových multiplikátorů.

Z jiného pohledu je neomezeným cílem Lagrangian omezeného problému s dodatečným trestním obdobím ( augmentace).

Tato metoda byla původně známá jako metoda multiplikátorů, a byl studován hodně v 70. a 80. letech jako dobrá alternativa k trestním metodám. Poprvé o tom diskutoval Magnus Hestenes,[1] a tím Michael Powell v roce 1969.[2] Metodu studoval R. Tyrrell Rockafellar ve vztahu k Fenchelská dualita, zejména ve vztahu k metodám proximálního bodu, Moreau – Yosida regularizace, a maximální monotónní operátoři: Tyto metody byly použity v strukturální optimalizace. Metodu studoval také Dimitri Bertsekas, zejména ve své knize z roku 1982,[3] společně s příponami zahrnujícími nekvadratické regularizační funkce, jako např entropická regularizace, která vede k „exponenciální metodě multiplikátorů“, metodě, která zpracovává omezení nerovnosti pomocí dvakrát diferencovatelné rozšířené Lagrangeovy funkce.

Od 70. let sekvenční kvadratické programování (SQP) a vnitřní bodové metody (IPM) si získaly zvýšenou pozornost, zčásti proto, že se snadněji používají řídká matice podprogramy z numerické softwarové knihovny, a částečně proto, že IPM prokázaly výsledky složitosti prostřednictvím teorie vzájemně shodné funkce. Optimalizační systémy omladily rozšířenou Lagrangeovu metodu LANCELOT a AMPL, což umožnilo použít techniky řídké matice na zdánlivě husté, ale „částečně oddělitelné“ problémy. Metoda je stále užitečná pro některé problémy.[4]Kolem roku 2007 došlo k oživení rozšířených Lagrangeových metod v oblastech, jako je celkové variace odšumění a komprimované snímání Zejména varianta standardní rozšířené Lagrangeovy metody, která využívá částečné aktualizace (podobně jako Gauss-Seidelova metoda pro řešení lineárních rovnic) známý jako metoda střídavého směru multiplikátorů nebo ADMM získal určitou pozornost.

Obecná metoda

Řekněme, že řešíme tento omezený problém:

podléhá

Tento problém lze vyřešit jako řadu neomezených minimalizačních problémů. Nejprve uvedeme seznam kTřetí krok pokutová metoda přístup:

Metoda pokuty tento problém řeší, poté při další iteraci znovu vyřeší problém pomocí větší hodnoty (a použití starého řešení jako počátečního odhadu nebo „teplého startu“).

Rozšířená Lagrangeova metoda používá následující neomezený cíl:

a po každé iteraci, kromě aktualizace proměnná je také aktualizován podle pravidla

kde je řešením neomezeného problému na internetu kth step, tj.

Proměnná je odhadem Lagrangeův multiplikátor a přesnost tohoto odhadu se zlepšuje na každém kroku. Hlavní výhodou metody je, že na rozdíl od pokutová metoda, není nutné brát za účelem vyřešení původního omezeného problému. Místo toho, kvůli přítomnosti Lagrangeova multiplikačního členu, může zůstat mnohem menší, a tak se vyhnout špatné kondici.[4]

Metodu lze rozšířit tak, aby zvládla omezení nerovnosti. Diskuse o praktických vylepšeních viz.[4]

Metoda střídavého směru multiplikátorů

Metoda střídání směrů multiplikátorů (ADMM) je variantou rozšířeného Lagrangeova schématu, které používá částečné aktualizace pro duální proměnné. Tato metoda se často používá k řešení problémů, jako jsou

To je ekvivalentní omezenému problému

Ačkoli se tato změna může zdát triviální, na problém lze nyní zaútočit pomocí metod omezené optimalizace (zejména rozšířené Lagrangeovy metody) a objektivní funkce je oddělitelná v X a y. Duální aktualizace vyžaduje řešení funkce přiblížení v X a y ve stejnou dobu; technika ADMM umožňuje tento problém vyřešit přibližně prvním řešením pro X s y opraveno a poté vyřešeno pro y s X pevný. Spíše než iterovat až do konvergence (jako Jacobiho metoda ), algoritmus pokračuje přímo k aktualizaci duální proměnné a následnému opakování procesu. To není ekvivalentní přesné minimalizaci, ale překvapivě se stále dá ukázat, že tato metoda konverguje ke správné odpovědi (za určitých předpokladů). Kvůli této aproximaci je algoritmus odlišný od čisté rozšířené Lagrangeovy metody.

Na ADMM lze pohlížet jako na aplikaci Douglas-Rachfordův algoritmus rozdělení a Douglas-Rachfordův algoritmus je zase příkladem Algoritmus proximálního bodu; podrobnosti naleznete zde.[5] Existuje několik moderních softwarových balíčků, které řeší Pronásledování základny a varianty a používat ADMM; takové balíčky obsahují YALL1 (2009), SpaRSA (2009) a SALSA (2009). Existují také balíčky, které používají ADMM k řešení obecnějších problémů, z nichž některé mohou využívat více výpočetních jader SNAPVX (2015), parADMM (2016).

Stochastická optimalizace

Stochastická optimalizace zvažuje problém minimalizace ztrátové funkce s přístupem k hlučným vzorkům funkce (gradientu). Cílem je mít odhad optimálního parametru (minimalizátoru) na nový vzorek. ADMM je původně dávková metoda. S některými úpravami jej však lze použít také pro stochastickou optimalizaci. Protože ve stochastickém prostředí máme přístup pouze k hlučným vzorkům gradientu, používáme nepřesnou aproximaci Lagrangeovy jako

kde je časově proměnná velikost kroku.[6]

Metoda střídání směrů multiplikátorů (ADMM) je populární metoda pro online a distribuovanou optimalizaci ve velkém měřítku,[7] a používá se v mnoha aplikacích, např.[8][9][10]ADMM se často používá k řešení regularizovaných problémů, kde lze optimalizaci a regularizaci funkcí provádět lokálně a poté globálně koordinovat prostřednictvím omezení. Regularizované optimalizační problémy jsou obzvláště relevantní ve vysokodimenzionálním režimu, protože regularizace je přirozeným mechanismem k překonání špatného stavu a podporovat šetrnost v optimálním řešení, např. řídkost a nízké hodnocení. Vzhledem k účinnosti ADMM při řešení regulovaných problémů má dobrý potenciál pro stochastickou optimalizaci ve vysokých rozměrech.

Alternativní přístupy

Software

Open source a nesvobodné / komerční implementace rozšířené Lagrangeovy metody:

  • Accord.NET (C # implementace rozšířeného Lagrangeova optimalizátoru)
  • ALGLIB (C # a C ++ implementace předpřipraveného rozšířeného Lagrangeova řešiče)
  • VLAJKA (GPL 3, dostupná komerční licence)
  • LANCELOT (bezplatná licence pro „interní použití“, placené komerční možnosti)
  • MINOS (pro některé typy problémů používá také rozšířenou Lagrangeovu metodu).
  • Kód pro Apache 2.0 licencován DŮVOD je k dispozici online.[11]

Viz také

Reference

  1. ^ Hestenes, M. R. (1969). "Metody multiplikátoru a gradientu". Journal of Optimization Theory and Applications. 4 (5): 303–320. doi:10.1007 / BF00927673. S2CID  121584579.
  2. ^ Powell, M. J. D. (1969). "Metoda pro nelineární omezení v minimalizačních problémech". In Fletcher, R. (ed.). Optimalizace. New York: Academic Press. 283–298. ISBN  0-12-260650-7.
  3. ^ Bertsekas, Dimitri P. (1996) [1982]. Omezená optimalizace a Lagrangeovy multiplikační metody. Athena Scientific.
  4. ^ A b C Nocedal & Wright (2006), kapitola 17
  5. ^ Eckstein, J .; Bertsekas, D. P. (1992). „Na Douglasově — Rachfordově dělící metodě a algoritmu proximálního bodu pro maximální monotónní operátory“. Matematické programování. 55 (1–3): 293–318. CiteSeerX  10.1.1.141.6246. doi:10.1007 / BF01581204. S2CID  15551627.
  6. ^ Ouyang, H .; On, N .; Tran, L. & Gray, A. G (2013). "Stochastická metoda střídání směrů multiplikátorů". Sborník z 30. mezinárodní konference o strojovém učení: 80–88.
  7. ^ Boyd, S .; Parikh, N .; Chu, E .; Peleato, B. & Eckstein, J. (2011). "Distribuovaná optimalizace a statistické učení pomocí metody střídání směru multiplikátorů". Základy a trendy { textregistered} ve strojovém učení. 3 (1): 1–122. CiteSeerX  10.1.1.360.1664. doi:10.1561/2200000016.
  8. ^ Wahlberg, B .; Boyd, S .; Annergren, M .; Wang, Y. (2012). Msgstr "Algoritmus ADMM pro třídu regulačních problémů s celkovou variací regulovaných problémů". arXiv:1203.1828 [stat.ML ].
  9. ^ Esser, E .; Zhang, X .; Chan, T. (2010). "Obecný rámec pro třídu primal-dual algoritmů prvního řádu pro konvexní optimalizaci v zobrazovací vědě". SIAM Journal on Imaging Sciences. 3 (4): 1015–1046. doi:10.1137 / 09076934X.
  10. ^ Mota, J. FC; Xavier, J. MF; Aguiar, P. MQ; Puschel, M. (2012). "Distribuovaný ADMM pro modelovou prediktivní kontrolu a kontrolu přetížení". Rozhodnutí a kontrola (CDC), 2012 IEEE 51. Annual Conference O: 5110–5115. doi:10.1109 / CDC.2012.6426141. ISBN  978-1-4673-2066-5. S2CID  12128421.
  11. ^ „DŮVODOVÝ kód“.

Bibliografie