博弈论学习笔记——博弈收益期望的计算与决策

系列文章

博弈论学习笔记——博弈收益期望的计算与决策
博弈论学习笔记——纳什均衡与社会最优、破坏均衡的方法
博弈论学习笔记——拍卖原理

简介

博弈中通常通过对期望收益计算的方法,来决策理性人的决策策略。

博弈案例:
零和博弈导致一个人的策略应当使得对方不管选择哪一个策略,收益都相同。
比如两个人出示硬币,根据正反面的情况进行博弈
在这里插入图片描述
假设乙出示正面的概率为p,则其出示反面的概率为(1-P)。
那么甲的收益期望为

E(甲) =  -X*P + X \* (1-P) + (1-X) * P - (1-X) * (1-P)
=(1 - 2P)(2X - 1)

其中X代表甲出示正面的概率。

当P大于0.5时X取0有最大期望收益,反之P小于0.5时X取1有最大期望收益。

因此对于乙来说0.5是最佳概率,又称“互为最佳应对”。此时对方采用最好的策略期望收益也是0。

好的混合策略就是使对方不知道用哪个纯策略更好的策略

再分析一个足球射门案例
其中p, q 代表的概率已经标注在表中

项目守门员-左扑(q)守门员-右扑
射门者-左 ( p)0.58,-0.580.95, -0.95
射门者-右0.93, -0.930.7. -0.7

用上面的类似方法计算期望,根据互为最佳应对的思路,可得:

门将使射手无法选择的决策:0.58q+0.95(1-q)=0.93q+0.70(1-q),q=0.42
射手使门将无法选择的决策:-0.58p-0.93(1-p)=-0.95p-0.70(1-p),p=0.39

实际上门将和射手虽然不知道概率论,但现实中真实情况的统计显示概率很接近于这一计算的结果:
实战统计得到的数据: q=0.42, p=0.40

在这里插入图片描述

截图来自天津大学王博老师的课程《社会计算》的课件

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值