双人矩阵博弈学习
文章平均质量分 88
本专栏对双人矩阵博弈的概念,纳什均衡的概念以及求解纳什均衡使用到的方法(线性规划、梯度上升、WOLF-IGA算法、PHC算法、WOLF-PHC算法、滞后锚算法)进行详细介绍。并简单讲解矩阵博弈中的分散式学习。
春有百花巨小蟹
这个作者很懒,什么都没留下…
展开
-
双人矩阵博弈中的纳什均衡
表示除玩家i以外的其他玩家的所有行为,根据上式,每个玩家都试图在与对手对抗的最坏情况下得到最大化回报。为求解上式,可采用线性规划方法。求解双人零和矩阵博弈中的纳什均衡等价于寻找下列方程的最小解。为解决上述线性规划问题,可采用单纯形法来寻找几何最优点。是指玩家 i 的行为。原创 2023-03-21 10:45:49 · 2140 阅读 · 0 评论 -
详解矩阵博弈
若玩家1一直选择显示正面,即选择正面的概率为1,很快就会被玩家2发现,那么玩家2就会开始显示反面,玩家1继而也意识到一直在输,从而也会开始显示反面。若用玩家选择显示正面反面的频率来代表概率,则玩家1选择显示正面反面的概率为:(0.5,0.5)。事实上,每个玩家都应该每次以0.5的概率选择显示正面,以0.5的概率选择显示反面,从而使获得的回报最大化。而对于囚徒B也是一样的。若一个具有机器学习能力的智能体不断重复玩这个游戏,那么就会学习到在任何情况下,都以1的概率选择坦白,以0的概率选择抵赖,这就是。原创 2023-02-27 19:21:11 · 2359 阅读 · 0 评论