Vyhrajte - zůstaňte, prohrajte - přepněte - Win–stay, lose–switch - Wikipedia
v psychologie, herní teorie, statistika, a strojové učení, vyhrát - zůstat, prohrát - přepnout (taky vyhrát - zůstat, prohrát - směna) je heuristický strategie učení použitá k modelování učení v rozhodovacích situacích. Poprvé byl vynalezen jako vylepšení oproti randomizaci v problémy s bandity.[1] Později byl aplikován na vězňovo dilema za účelem modelování vývoj z altruismus.[2]
Učící pravidlo zakládá své rozhodnutí pouze na výsledku předchozí hry. Výsledky se dělí na úspěchy (výhry) a neúspěchy (prohry). Pokud hra z předchozího kola vyústila v úspěch, pak agent hraje stejnou strategii v dalším kole. Alternativně, pokud hra vyústila v selhání, agent přepne na jinou akci.
Rozsáhlá empirická studie hráčů hry kámen, nůžky, papír ukazuje, že variantu této strategie přijímají skuteční hráči hry místo hry Nashova rovnováha strategie náhodného výběru mezi třemi možnostmi.[3][4]
Reference
- ^ Robbins, H. (1952). „Některé aspekty postupného návrhu experimentů“. Bulletin of the American Mathematical Society. 58 (5): 527–535. doi:10.1090 / s0002-9904-1952-09620-8.
- ^ Nowak, M .; Sigmund, K. (1. července 1993). „Strategie win-stay, lose-shift, která překonává tit-for-tat ve hře Prisoner's Dilemma“. Příroda. 364 (6432): 56–58. doi:10.1038 / 364056a0. PMID 8316296.
- ^ Morgan, James (2. května 2014). „Jak vyhrát u nůžek na kámen - papír“. BBC novinky.
- ^ Wang, Zhijian; Xu, Bin; Zhou, Hai-Jun (25. července 2014). „Sociální cyklistika a podmíněné reakce ve hře Rock-Paper-Scissors“. Vědecké zprávy. 4: 5830. doi:10.1038 / srep05830. PMC 5376050. PMID 25060115.
Viz také
![]() | Tento herní teorie článek je a pahýl. Wikipedii můžete pomoci pomocí rozšiřovat to. |