博弈论学习笔记——博弈收益期望的计算与决策

最新推荐文章于 2023-01-26 15:12:26 发布

keep-hungry

最新推荐文章于 2023-01-26 15:12:26 发布

阅读量8.2k

点赞数 1

分类专栏：博弈论文章标签：博弈论

本文链接：https://blog.csdn.net/weixin_43718786/article/details/118379941

版权

4 篇文章 5 订阅

订阅专栏

系列文章

博弈中通常通过对期望收益计算的方法，来决策理性人的决策策略。

博弈案例：
零和博弈导致一个人的策略应当使得对方不管选择哪一个策略，收益都相同。
比如两个人出示硬币，根据正反面的情况进行博弈
在这里插入图片描述
假设乙出示正面的概率为p，则其出示反面的概率为(1-P)。
那么甲的收益期望为

E(甲) =  -X*P + X \* (1-P) + (1-X) * P - (1-X) * (1-P)
=(1 - 2P)(2X - 1)

其中X代表甲出示正面的概率。

当P大于0.5时X取0有最大期望收益，反之P小于0.5时X取1有最大期望收益。

因此对于乙来说0.5是最佳概率，又称“互为最佳应对”。此时对方采用最好的策略期望收益也是0。

好的混合策略就是使对方不知道用哪个纯策略更好的策略

再分析一个足球射门案例
其中p, q 代表的概率已经标注在表中

项目	守门员-左扑(q)	守门员-右扑
射门者-左 ( p)	0.58，-0.58	0.95， -0.95
射门者-右	0.93， -0.93	0.7. -0.7

用上面的类似方法计算期望，根据互为最佳应对的思路，可得：

门将使射手无法选择的决策：0.58q+0.95(1-q)=0.93q+0.70(1-q)，q=0.42
射手使门将无法选择的决策：-0.58p-0.93(1-p)=-0.95p-0.70(1-p)，p=0.39

实际上门将和射手虽然不知道概率论，但现实中真实情况的统计显示概率很接近于这一计算的结果：
实战统计得到的数据： q=0.42, p=0.40

在这里插入图片描述

截图来自天津大学王博老师的课程《社会计算》的课件

关注

专栏目录