多智能体强化学习与博弈论-博弈论基础2

多智能体强化学习与博弈论-博弈论基础2

Repeated Games(重复博弈)

之前我们介绍了一些单次博弈的例子,除了单次博弈外,重复博弈也是经常在我们生活中出现的。在重复博弈中智能体有机会在单次的博弈中占到对手的便宜,但是由于考虑到后来还有博弈,可能其它的智能体会采取对自己更为不利的策略,智能体为了有更好的长期收益,所以决定智能体策略的选择会更加复杂。

在重复博弈的过程中不仅要考虑当前这次的博弈,还需要考虑以后的博弈收益。对于以后的博弈,需要给定一个折扣,距离现在的时间越长,折扣越大。折扣可以使用 δ t \delta^t δt来表示。

在重复博弈中有很多的策略,其中的一种策略为grim trigger strategy。以重复的囚徒困境为例。当另一个人选择C的时候,这个囚徒也选择C。一旦另一个人选择一次D,这个囚徒就在接下来的博弈中每次都选择D(C代表合作,D代表不合作)。

在这里插入图片描述

假设两个player中player1采取的是grim trigger strategy.

若player2一直选择C,则他的收益为:

u 2 ( h ) = ∑ t = 0 ∞ δ t u ( a 2 t ) = ∑ t = 0 ∞ δ t 2 = 2 / ( 1 − δ ) u_{2}(h)=\sum_{t=0}^{\infty} \delta^{t} u\left(a_{2}^{t}\right)=\sum_{t=0}^{\infty} \delta^{t} 2=2 /(1-\delta) u2(h)=t=0δtu(a2t)=t=0δt2=2/(1δ)

若player2在某一回合选择了D,然后就一直继续选D(Starting D earlier would have a better utility),则他的收益为:

u 2 ( h ) ′ = ∑ t = 0 ∞ δ t u ( a 2 t ) = 3 + δ + δ 2 … = 2 + 1 1 − δ = 3 − 2 δ 1 − δ u_{2}(h)^{\prime}=\sum_{t=0}^{\infty} \delta^{t} u\left(a_{2}^{t}\right)=3+\delta+\delta^{2} \ldots=2+\frac{1}{1-\delta}=\frac{3-2 \delta}{1-\delta} u2(h)=t=0δtu(a2t)=3+δ+δ2=2+1δ1=1δ32δ

3 − 2 δ 1 − δ < = 2 / ( 1 − δ ) \frac{3-2 \delta}{1-\delta}<=2 /(1-\delta) 1δ32δ<=2/(1δ)时,Grim trigger strategy是一个纳什均衡。

另一个重复博弈中的策略为limited punishment。当另一个人选择了D之后,这个人选择几次D之后继续变回C。

另一个重复博弈中的策略为Tit-for-tat strategy(以牙还牙策略)。另一个人选C这个人就选C,另一个人选D这个人就选D。

Extensive Form Games

  • Strategic form games -> model one-shot games in which each player chooses his action once and for all simultaneously.

  • Extensive form games -> multi-agent sequential decision making.

假设有这么一个博弈

在这里插入图片描述

在这里插入图片描述

从表格中我们可以看到两个纳什均衡(In, A)和(Out, F)。但是实际上(1,2)这个纳什均衡的存在不合理,因为Entrant先做决策,他选择In后,Incumbent肯定会选择A因为选A比F的收益大。(1,2)这个纳什均衡存在是由于Entrant不合理的惧怕选择了In之后别人选择F。

在Extensive Form Games中需要保证子博弈完美纳什均衡,对于有限的博弈,可以使用逆向归纳法来寻找纳什均衡。

在这里插入图片描述

以上面这个博弈为例,首先我们从最后面往上推,player1会选择左边的策略,接着player2(player1上面那个)会选择左边的策略。另一个player2反推的话会选择左边的策略。最上面的player1会选择右边的那个策略,因此我们可以得到唯一的纳什均衡(3,2)这个点。

Potential Games(势博弈)

定义:A strategic form game is a potential game (such as ordinal potential game or exact potential game) if there exists a function Φ : S→ R such that$ Φ(s_i,s_{−i})$ gives information about$ u_i(s_i,s_{−i})$ for each i ∈ I.Φ is referred to as the potential function.
在这里插入图片描述
在这里插入图片描述

Theorem: 每个有限序数势博弈至少有一个纯策略纳什均衡。

Theorem:A game G is an exact potential game if and only if for all finite simple closed paths, γ, I (γ) = 0. Moreover, it is sufficient to check simple closed paths of length 4.

在这里插入图片描述

在这三个中Matching pennies就不是势博弈,其它两个都是。

举一个简单的势博弈的例子:

在这里插入图片描述

参考:

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值