系列文章
博弈论学习笔记——博弈收益期望的计算与决策
博弈论学习笔记——纳什均衡与社会最优、破坏均衡的方法
博弈论学习笔记——拍卖原理
简介
博弈中通常通过对期望收益计算的方法,来决策理性人的决策策略。
博弈案例:
零和博弈导致一个人的策略应当使得对方不管选择哪一个策略,收益都相同。
比如两个人出示硬币,根据正反面的情况进行博弈
假设乙出示正面的概率为p,则其出示反面的概率为(1-P)。
那么甲的收益期望为
E(甲) = -X*P + X \* (1-P) + (1-X) * P - (1-X) * (1-P)
=(1 - 2P)(2X - 1)
其中X代表甲出示正面的概率。
当P大于0.5时X取0有最大期望收益,反之P小于0.5时X取1有最大期望收益。
因此对于乙来说0.5是最佳概率,又称“互为最佳应对”。此时对方采用最好的策略期望收益也是0。
好的混合策略就是使对方不知道用哪个纯策略更好的策略
再分析一个足球射门案例
其中p, q 代表的概率已经标注在表中
项目 | 守门员-左扑(q) | 守门员-右扑 |
---|---|---|
射门者-左 ( p) | 0.58,-0.58 | 0.95, -0.95 |
射门者-右 | 0.93, -0.93 | 0.7. -0.7 |
用上面的类似方法计算期望,根据互为最佳应对的思路,可得:
门将使射手无法选择的决策:0.58q+0.95(1-q)=0.93q+0.70(1-q),q=0.42
射手使门将无法选择的决策:-0.58p-0.93(1-p)=-0.95p-0.70(1-p),p=0.39
实际上门将和射手虽然不知道概率论,但现实中真实情况的统计显示概率很接近于这一计算的结果:
实战统计得到的数据: q=0.42, p=0.40
截图来自天津大学王博老师的课程《社会计算》的课件