单次囚徒困境
转为奖励性矩阵就是说,被判时间越长那么奖励越少,反之奖励越多
有限次数博弈
就是说最后一次了,就随便破罐子破摔,不再继续合作,直接选择自己利益最大化了,如果有方式可以使其在原来、之前的基础上进一步获得收益,那么就会做,即最后会转变为纳什均衡
无限次数
无名氏定理
选取全局最优为均衡目标
实例,最优策略
就是说两个玩家,每个玩家都有4中策略,然后在确定一个玩家策略的情况下去针对另一个玩家的4种策略选择,去获得可能的利益;那么这样的话,每个人有4种策略,每种策略会遇到4种策略,所以就是会得到一个4*4的矩阵
就是说合作策略一共流失了15%,然后a是到了随机,b是到了以牙还牙,最后总的减去3个就是背叛的。