RLChina2022暑期学习-博弈论基础

RLChina2022暑期学习-博弈论基础Game theory

大纲Outline

在这里插入图片描述

Motivation and Normal-form Game

人工智能的发展

在这里插入图片描述
感知智能(DL)-决策智能(RL)-多智能体决策(RL+博弈论)

生活中的博弈

在这里插入图片描述

博弈论发展 历程

在这里插入图片描述

博弈要素

  1. 玩家
  2. 玩家策略集合,最简单的石头剪刀布,每个玩家有三个动作
  3. 博弈的效用,奖赏:每个玩家都有各自的矩阵。函数的输入是每个玩家的动作,输出的是奖赏
    在这里插入图片描述
    把上面的这种石头剪刀布表示成下面表格的形式,就是标准形式的博弈
    在这里插入图片描述

博弈里面有一个假设

每一个玩家都是理性的。1.比较自私,更看重自己的利益;2.
在这里插入图片描述
公共知识:所有玩家都知道的事情。游戏规则都知道。都知道对方是理性的。
在这里插入图片描述
纯策略:非此即彼
Mixed 策略就是对动作分配了一个概率分布。这样让对手就不好猜。这种情况下,用期望效用来表表示受益
在这里插入图片描述

博弈的分类

  • 零和博弈:游戏的场景中,两个玩家所得到受益,相加永远为0。只要有一个不是0,都不是零和博弈。表1(横纵轴分别表示两个玩家的动作,抛硬币游戏)
  • 合作博弈:两个玩家的效用相等。表2
  • 协同博弈:有多个纳什均衡
  • 社会困境:囚徒困境。两个人都抵赖,其实是最好的收益。但是从玩家的角度,他们为了获得期望最大,最后都会坦白。
    在这里插入图片描述

扩展式博弈和非完美信息

博弈树

用树的结构来表示博弈的情况。叶子节点定义博弈结果。边是动作,node是玩家。这种树的结构表示的博弈就是扩展式博弈
在这里插入图片描述

扩展式博弈的策略

  • 玩家1与前方normal(正则)博弈有相同的策略
  • 玩家2:就要根据玩家1采取的动作,来分策略。其策略就变为多维

在这里插入图片描述

  • 正则式博弈:是静态的博弈
  • 扩展式博弈:动态博弈,可以有多个回合。
    在这里插入图片描述

非完美信息

  • 我做了一些动作,别人不知道
  • 玩家1历史上做的一些动作,对于玩家2来说是不可知的。这就是非完美的。也就是下图中玩家2不知道自己是处在b还是c。
  • 这两个状态对于玩家2来说,就是一个信息集
    在这里插入图片描述

马尔科夫博弈(随机博弈)

RL中用的博弈基本上都是马尔科夫博弈。
这个也是属于动态博弈。
马尔科夫博弈是一个图结构

属性

  • 定义状态空间
  • 定义动作空间
  • 定义状态转移
  • 定义奖励函数
    步骤:
  • 智能体获得当前状态
  • 每一个智能体确定执行动作
  • 环境在告诉他们会转移到哪个状态
    行为策略
  • 玩家收到状态,决定采取什么动作。仅依赖状态

在这里插入图片描述

对比

在这里插入图片描述

贝叶斯博弈与非完全信息

例子:引入贝叶斯博弈

下面是拍卖的游戏

  • 玩家都有一个隐藏信息。即内心的价格
  • 玩家都出一个价格
  • 出价高的玩家获得物品,他的奖励就是内心估值-实际出价。另一个玩家就是0
    由于对方玩家可能有不同的内心价格,玩家1需要分情况猜测
  • 玩家的出价信息也是有一个出价空间的。
    在这里插入图片描述

非完全信息

玩家不知道对方的收益矩阵

在这里插入图片描述

贝叶斯博弈(静态)单步

描述有隐藏信息的博弈。
玩家对对方的收益矩阵建立一个概率分布
在这里插入图片描述

动态贝叶斯博弈

在这里插入图片描述
在这里插入图片描述

纳什均衡

了解完博弈的类型,现在开始考虑玩家的策略

  • 最好的响应best response:假设给定别人的动作,我的动作可以根据策略表,选择最好的动作
  • 占优策略DS:不管别人的动作怎么变,我的这个策略总是最好的。那就是占优策略。
  • 举例:比如下方的表格,对于绿色玩家而言,D就是占优。不管蓝色玩家出C还是D,绿色玩家采取D得到的奖励都大于采取C 得到的奖励
    在这里插入图片描述

联合动作:纳什均衡

纳什均衡下的每一个玩家,改变动作已经不能使自己的奖励变得更好,这个时候就达到了一种稳态,也就是纳什均衡。通俗一点:在这个状态下,每个人对自己的其他动作而言,都是占优的
在这里插入图片描述

帕累托最优与纳什均衡比较

  • 纳什均衡是一个稳定点
  • 帕累托最优是一个局部最好点,
    在这里插入图片描述

混合策略纳什均衡

在这里插入图片描述

扩展式博弈下的纳什均衡

先将扩展式博弈写成正则博弈的表达式。
下面的例子有三个纳什均衡,但是只有(3,3)是最稳定的
在这里插入图片描述

Subgame perfect Nash 均衡(SPNE)

在所有的子树里面都最稳定的那个
在这里插入图片描述

贝叶斯博弈的纳什均衡

在这里插入图片描述
举例
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

纳什均衡的一些性质

重复博弈

一个陌生的玩家,我不知道你的策略,所以我要重复跟你玩游戏,然后学习。

在这里插入图片描述

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值