Výběr založený na odměnách - Reward-based selection
Výběr založený na odměnách je technika používaná v evoluční algoritmy pro výběr potenciálně užitečných řešení pro rekombinaci. Pravděpodobnost, že bude vybrán pro jednotlivce, je úměrná kumulativní odměně získané jednotlivcem. Kumulativní odměnu lze vypočítat jako součet individuální odměny a odměny zděděné od rodičů.
Popis
V rámci lze použít výběr založený na odměnách Multi-ozbrojený bandita rámec pro Vícecílová optimalizace získat lepší aproximaci Pareto vpředu.[1]
Novorozenec a jeho rodiče dostávají odměnu , pokud byl vybrán pro novou populaci , jinak je odměna nulová. Existuje několik definic odměn:
- 1. , pokud je novorozený jedinec byl vybrán pro novou populaci .
- 2. , kde je hodnost nově vloženého jedince v populaci Jednotlivci. Pořadí lze vypočítat pomocí známého nedominované třídění postup.[2]
- 3. , kde je indikátor hypervolume příspěvek jednotlivce obyvatelstvu . Odměna pokud nově vložený jedinec zlepší kvalitu populace, což se měří jako jeho hypervolumový příspěvek v objektivním prostoru.
- 4. Uvolnění výše uvedené odměny, zahrnující penalizaci podle bodů za body za - dominuje Paretova fronta:
Výběr založený na odměnách může rychle identifikovat nejplodnější směry vyhledávání maximalizací kumulativní odměny jednotlivců.
Viz také
Reference
- ^ Loshchilov, I .; M. Schoenauer; M. Sebag (2011). „Ne všichni rodiče jsou si rovni pro MO-CMA-ES“ (PDF). Evoluční multikriteriální optimalizace 2011 (EMO 2011). Springer Verlag, LNCS 6576. str. 31–45. Archivovány od originál (PDF) dne 04.06.2012.
- ^ Deb, K .; Pratap, A .; Agarwal, S .; Meyarivan, T. (2002). "Rychlý a elitářský víceobjektový genetický algoritmus: NSGA-II". Transakce IEEE na evolučním výpočtu. 6 (2): 182–197. CiteSeerX 10.1.1.17.7771. doi:10.1109/4235.996017.