Kvazi-Newtonova metoda - Quasi-Newton method
![]() | Bylo navrženo, že Kvazi-Newtonova metoda nejmenších čtverců a Kvazi-Newtonova metoda inverze nejmenších čtverců být sloučeny do tohoto článku. (Diskutujte) Navrhováno od července 2020. |
Kvazi-Newtonovy metody jsou metody používané buď k vyhledání nul, nebo lokálních maxim a minim funkcí, jako alternativa k Newtonově metodě. Mohou být použity, pokud Jacobian nebo Hesián není k dispozici nebo je příliš nákladné na výpočet při každé iteraci. Plný" Newtonova metoda vyžaduje jakobiána, aby hledal nuly, nebo pytlovinu pro hledání extrémů.
Hledat nuly: nález root
Newtonova metoda najít nuly funkce více proměnných je dáno vztahem , kde je vlevo inverzní z Jacobian matrix z hodnoceno pro .
Přesně řečeno, jakákoli metoda, která nahradí přesnou Jacobian s aproximací je kvazi-Newtonova metoda.[1] Například metoda akordů (kde je nahrazen pro všechny iterace) je jednoduchý příklad. Níže uvedené metody pro optimalizace odkazují na důležitou podtřídu kvazi-Newtonových metod, secantových metod.[2]
Použití metod vyvinutých k nalezení extrémů za účelem nalezení nul není vždy dobrý nápad, protože většina metod používaných k hledání extrémů vyžaduje, aby použitá matice byla symetrická. I když to platí v kontextu hledání extrémů, zřídka to platí při hledání nul. Broydenovy „dobré“ a „špatné“ metody jsou dvě metody běžně používané k nalezení extrémů, které lze také použít k nalezení nul. Další metody, které lze použít, jsou metoda aktualizace sloupců, inverzní metoda aktualizace sloupce, kvazi-Newtonova metoda nejmenších čtverců a metoda kvazi-Newtonových inverzních metod nejmenších čtverců.
Nověji byly k nalezení řešení více spojených systémů rovnic (např. Problémy interakce tekutina-struktura nebo interakční problémy ve fyzice) použity kvazi-Newtonovy metody. Umožňují najít řešení cyklickým a iterativním řešením každého jednotlivého systému samostatně (což je jednodušší než globální systém), dokud není nalezeno řešení globálního systému.[2][3]
Hledat extrémy: optimalizace
Všimněte si, že hledání minima nebo maxima funkce se skalární hodnotou není nic jiného než hledání nul spád této funkce lze snadno použít kvazi-Newtonovy metody k nalezení extrémů funkce. Jinými slovy, pokud je gradient , poté vyhledejte nuly funkce s vektorovou hodnotou odpovídá hledání extrémů funkce skalární hodnoty ; jakobián z se nyní stává hesiánem z . Hlavní rozdíl je v tom hesenská matice je symetrická matice, na rozdíl od Jacobian kdy hledání nul. Většina kvazi-Newtonových metod používaných při optimalizaci využívá tuto vlastnost.
v optimalizace, kvazi-Newtonovy metody (zvláštní případ proměnné-metrické metody) jsou algoritmy pro hledání místních maxima a minima z funkce. Kvazi-Newtonovy metody jsou založeny na Newtonova metoda najít stacionární bod funkce, kde gradient je 0. Newtonova metoda předpokládá, že funkci lze lokálně aproximovat jako a kvadratický v oblasti kolem optima a použije první a druhou derivaci k nalezení stacionárního bodu. Ve vyšších dimenzích Newtonova metoda používá gradient a Hesenská matice sekundy deriváty funkce, která má být minimalizována.
V kvazi-Newtonových metodách nemusí být vypočítána hesenská matice. Hesensko je místo toho aktualizováno analýzou postupných vektorů gradientů. Kvazi-Newtonovy metody jsou zobecněním sekansová metoda najít kořen první derivace pro vícerozměrné problémy. Ve více dimenzích je sekanční rovnice nedostatečně stanoveno a kvazi-Newtonovy metody se liší v tom, jak omezují řešení, typicky přidáním jednoduché aktualizace s nízkým hodnocením k současnému odhadu Hessian.
První kvazi-Newtonův algoritmus navrhl William C. Davidon, fyzik pracující v Argonne National Laboratory. V roce 1959 vyvinul první kvazi-Newtonův algoritmus: Vzorec pro aktualizaci DFP, který byl později popularizován Fletcherem a Powellem v roce 1963, ale dnes se používá jen zřídka. Nejběžnější kvazi-Newtonovy algoritmy jsou v současné době Vzorec SR1 (pro „symetrický první stupeň“), BHHH metoda, rozšířená Metoda BFGS (nezávisle navrhli Broyden, Fletcher, Goldfarb a Shanno v roce 1970) a jeho rozšíření s nízkou pamětí L-BFGS. Broydenova třída je lineární kombinací metod DFP a BFGS.
Vzorec SR1 nezaručuje zachování aktualizační matice pozitivní jednoznačnost a lze jej použít pro neurčité problémy. The Broydenova metoda nevyžaduje, aby byla aktualizační matice symetrická a používá se k nalezení kořene obecného systému rovnic (spíše než přechodu) aktualizací Jacobian (spíše než pytloviny).
Jednou z hlavních výhod kvazi-Newtonových metod Newtonova metoda je to Hesenská matice (nebo v případě kvazi-Newtonových metod jeho aproximace) není nutné převracet. Newtonova metoda a její deriváty jako např vnitřní bodové metody, vyžadují, aby byla pytlovina obrácena, což se obvykle provádí řešením a soustava lineárních rovnic a je často docela nákladný. Naproti tomu kvazi-Newtonovy metody obvykle generují odhad přímo.
Jako v Newtonova metoda, jeden používá aproximaci druhého řádu k nalezení minima funkce . The Taylor série z kolem iterace je
kde () je spád, a přiblížení k Hesenská matice[4]. Gradient této aproximace (s ohledem na ) je
a nastavení tohoto přechodu na nulu (což je cílem optimalizace) poskytuje Newtonův krok:
Hesenská aproximace je vybrán k uspokojení
který se nazývá sekansová rovnice (Taylorova řada samotného gradientu). Ve více než jedné dimenzi je podurčeno. V jedné dimenzi řešení pro a použití Newtonova kroku s aktualizovanou hodnotou je ekvivalentní s sekansová metoda. Různé kvazi-Newtonovy metody se liší výběrem řešení sečancové rovnice (v jedné dimenzi jsou všechny varianty ekvivalentní). Většina metod (ale s výjimkami, jako je Broydenova metoda ) hledat symetrické řešení (); dále uvedené varianty lze motivovat vyhledáním aktualizace to je co nejblíže v některých norma; to je , kde je nějaký pozitivně definitivní matice který definuje normu. Přibližná počáteční hodnota k dosažení rychlé konvergence je často dostačující, ačkoli neexistuje žádná obecná strategie, kterou lze zvolit [5]. Všimněte si, že by měl být kladný-definitivní. Neznámý je aktualizován použitím Newtonova kroku vypočítaného pomocí aktuální přibližné hesenské matice :
- , s vybrán, aby uspokojil Wolfe podmínky;
- ;
- Gradient vypočítaný v novém bodě , a
se používá k aktualizaci přibližné hesenské hodnoty , nebo přímo jeho inverzní za použití Sherman – Morrisonův vzorec.
- Klíčovou vlastností aktualizací BFGS a DFP je, že pokud je kladně definitivní a je tedy vybrán tak, aby splňoval podmínky Wolfe je také kladně definitivní.
Nejpopulárnější vzorce pro aktualizaci jsou:
Další metody jsou Pearsonova metoda, McCormickova metoda, Powellova symetrická metoda Broyden (PSB) a Greenstadtova metoda.[2]
Vztah k inverzi matice
Když je konvexní kvadratická funkce s pozitivním definitivním hesiánem , dalo by se očekávat matice generované kvazi-Newtonovou metodou ke konvergenci k inverzní pytlovině . To je skutečně případ třídy kvazi-Newtonových metod založených na aktualizacích s nejnižšími změnami.[6]
Pozoruhodné implementace
Implementace kvazi-Newtonových metod jsou k dispozici v mnoha programovacích jazycích. Pozoruhodné implementace zahrnují:
- GNU oktáva používá ve svém formátu BFGS
fsolve
funkce, s důvěryhodný region rozšíření. - Mathematica zahrnuje kvazi-Newtonovy řešitele.[7]
- The Knihovna NAG obsahuje několik rutin[8] pro minimalizaci nebo maximalizaci funkce[9] které používají kvazi-Newtonovy algoritmy.
- V MATLABU Optimalizace nástrojů,
fminunc
funkce používá (mimo jiné metody) BFGS kvazi-Newtonova metoda.[10] Mnoho z omezených metod, které používá sada nástrojů Optimalizace, používá BFGS a varianta L-BFGS.[11] - R je
optim
rutina optimalizátoru pro obecné účely používá BFGS metoda pomocímethod = "BFGS"
.[12] - Scipy.optimize má fmin_bfgs. V SciPy rozšíření na Krajta,
scipy.optimize.minimize
funkce mimo jiné zahrnuje a BFGS implementace.[13]
Viz také
- Metoda BFGS
- Broydenova metoda
- Vzorec pro aktualizaci DFP
- Newtonova metoda
- Newtonova metoda v optimalizaci
- Kvazi-Newtonova metoda nejmenších čtverců
- Vzorec SR1
Reference
- ^ Broyden, C. G. (1972). „Kvazi-Newtonovy metody“. V Murray, W. (ed.). Numerické metody pro neomezenou optimalizaci. London: Academic Press. str. 87–106. ISBN 0-12-512250-0.
- ^ A b C Haelterman, Rob (2009). „Analytická studie kvazi-Newtonovy metody nejmenších čtverců pro problémy interakce“. Disertační práce, Ghent University. Citováno 2014-08-14.
- ^ Rob Haelterman, Dirk Van Eester, Daan Verleyen (2015). „Urychlení řešení fyzikálního modelu uvnitř tokamaku pomocí metody (inverzní) aktualizace sloupce“. Journal of Computational and Applied Mathematics. 279: 133–144. doi:10.1016 / j.cam.2014.11.005.CS1 maint: používá parametr autoři (odkaz)
- ^ https://mathinsight.org/taylors_theorem_multivariable_introduction
- ^ Nocedal, Jorge; Wright, Stephen J. (2006). Numerická optimalizace. New York: Springer. str.142. ISBN 0-387-98793-2.
- ^ Robert Mansel Gower; Peter Richtarik (2015). „Randomizované kvazi-newtonské aktualizace jsou lineárně konvergentní maticové inverzní algoritmy“. arXiv:1602.01768 [matematika.NA ].
- ^ http://reference.wolfram.com/mathematica/tutorial/UnconstrainedOptimizationQuasiNewtonMethods.html
- ^ Skupina numerických algoritmů. „Index klíčových slov: Kvazi-Newton“. Manuál knihovny NAG, Mark 23. Citováno 2012-02-09.
- ^ Skupina numerických algoritmů. „E04 - minimalizace nebo maximalizace funkce“ (PDF). Manuál knihovny NAG, Mark 23. Citováno 2012-02-09.
- ^ http://www.mathworks.com/help/toolbox/optim/ug/fminunc.html
- ^ http://www.mathworks.com/help/toolbox/optim/ug/brnoxzl.html
- ^ [1]
- ^ http://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize.html
Další čtení
- Bonnans, J. F .; Gilbert, J. Ch .; Lemaréchal, C.; Sagastizábal, C. A. (2006). Numerická optimalizace: teoretické a numerické aspekty (Druhé vydání.). Springer. ISBN 3-540-35445-X.
- Fletcher, Roger (1987), Praktické metody optimalizace (2. vyd.), New York: John Wiley & Sons, ISBN 978-0-471-91547-8.
- Nocedal, Jorge; Wright, Stephen J. (1999). „Kvazi-Newtonovy metody“. Numerická optimalizace. New York: Springer. str. 192–221. ISBN 0-387-98793-2.
- Press, W. H .; Teukolsky, S. A .; Vetterling, W. T .; Flannery, B. P. (2007). „Oddíl 10.9. Kvazi-Newtonské nebo variabilní metrické metody ve vícerozměrech“. Numerické recepty: Umění vědecké práce na počítači (3. vyd.). New York: Cambridge University Press. ISBN 978-0-521-88068-8.
- Scales, L. E. (1985). Úvod do nelineární optimalizace. New York: MacMillan. str. 84–106. ISBN 0-333-32552-4.