【博弈论-完全信息动态博弈】重复博弈

右边是我女神

已于 2022-06-13 23:00:28 修改

阅读量1.7k

点赞数 2

分类专栏：博弈论文章标签：人工智能算法动态规划

于 2022-06-13 22:59:49 首次发布

本文链接：https://blog.csdn.net/weixin_46365033/article/details/125267049

版权

博弈论专栏收录该内容

9 篇文章 5 订阅

订阅专栏

文章目录

有限重复博弈
无限重复博弈
- 囚徒困境
- 两期战略

有限重复博弈

定义7.1 给定阶段博弈G，G重复进行T次的有限重复博弈是指：

G重复进行T次，在每一次阶段博弈G开始前，所有以前博弈的进程都可被参与人观测到；
参与人在 $G (T)$ 中的收益为T次阶段博弈的简单相加或T次阶段博弈收益的现值。

有限重复博弈有以下特征：

在博弈的每一阶段，博弈的结构完全相同，也就是说前一阶段的博弈不改变后一阶段博弈的结构；
参与人可以观测博弈的进程意味着：在开始下一次博弈时，博弈的历史对参与人来讲为共同知识。这意味着参与人可以使自己在某个阶段的博弈的选择依赖于观测到的博弈历史，因此参与人在重复博弈中的战略空间远远大于和复杂于阶段博弈中的战略空间；
在有限重复博弈中，如果不考虑贴现，则参与人在 $G (T)$ 中的收益为T次阶段博弈收益的简单相加；如果考虑贴现，则为阶段博弈收益的现值。

定理7.1 如果阶段博弈只有唯一的Nash均衡，则有限重复博弈的唯一子博弈精炼Nash均衡为参与人在每阶段中都采用的Nash均衡战略。

当阶段博弈只有唯一的Nash均衡时，有限重复博弈本质上是阶段博弈的简单重复。

定理7.2 如果阶段博弈G中存在多个Nash均衡，则 $G (T)$ 中可能存在这样的子博弈精炼Nash均衡，在该均衡中，对每一 $t\lt T$ ，t阶段的结果都不是G的Nash均衡。

在这里插入图片描述
这个博弈中有两个Nash均衡。值得注意的是，在两次重复博弈中确实存在第一阶段采用战略组合 $M_1,M_2)$ 的子博弈精炼Nash均衡。

达到这一子博弈精炼Nash均衡的战略是：参与人 $i$ 在第一阶段选择 $M_i$ ；如果第一阶段结果为 $M_1,M_2$ ，则下一阶段选 $R_i$ ，否则选 $L_i$ 。

这样的战略的特点是：首先试探合作，一旦发现对方不合作也不采用不合作相报复，故称为触发战略。

当重复次数增加，除了最后一个阶段，每次都采用 $M_1,M_2)$ 。

但是触发战略中威胁或承诺的可信性是一个很复杂的问题，大家是否相信对方真的会执行这个触发战略是有很大讨论的余地的。

无限重复博弈

定义7.2 给定一阶段博弈G，G重复进行无限次的无限重复博弈（用 $G(∞,\delta)表示$ ）是指：

G重复进行无限次，在每个t之前的t-1次阶段博弈的结果在t阶段博弈进行前都可以被参与人观测到；
参与人在 $G(∞,\delta)$ 中的收益为参与人在无限次的阶段博弈中所得收益的贴现，其中 $\delta$ 为参与人的贴现率。

有限重复博弈和无限重复博弈的异同点：

无限重复博弈中，由t+1阶段开始的每个子博弈都等同于初始博弈 $G(∞,\delta)$ ；因此，对于参与人在博弈的每一时点都无需考虑过去的得失，可以看做沉没成本/收益；
无限重复博弈中，参与人在博弈中的收益只能是无限次的阶段博弈中所得收益的贴现。收益表示为 $\pi_i(G(∞,\delta))=\pi_i^1+\delta\pi_i^2+...+\delta^{t-1}\pi_i^t+...$
有限重复博弈可视为一种短期博弈（参与人能够预测到博弈尽头）。无限重复博弈可以看作现实中参与人之间的一种长期博弈关系（不知道博弈什么时候会结束）。

囚徒困境

在这里插入图片描述
构造战略博弈：
参与人1的战略 $\hat s_1$ ：第一阶段选择D；在第i阶段，如果上一阶段结果为(D,R)，则选择D；否则以后一直选择U。

参与人2的战略 $\hat s_2$ ：第一阶段选择R；在第i阶段，如果上一阶段结果为(D,R)，则选择R；否则以后一直选择L。

这说明了，如果合作将一直合作下去；一旦有人选择不合作，就会触发以后都不合作。

接下来证明这种战略博弈是子博弈精炼Nash均衡，即证明每一个子博弈，它都是Nash均衡。

该战略组合存在两类子博弈：

所有以前阶段的结果为(D,R)的子博弈；
至少有一个前面阶段的结果不是(D,R)的子博弈。

显然在第二类子博弈上构成Nash均衡的，因为本来选的就是一个Nash均衡。

如果证明该战略组合对初始博弈构成Nash均衡也就证明了其对第一类子博弈也构成Nash均衡。

那么这个证明就转化为了假定参与人j选择上述触发战略时，参与人i的最优战略也是上述触发战略就行。（Nash均衡的定义）

我们假设参与人2是触发战略，那么参与人1在博弈的 $t$ 阶段首先偏离了(D,R)，那么这个人知道2会一直惩罚他，于是之后的战略一直是(U,L)，我们算一下此时的贴现（相对于第t阶段）： $5+\delta+\delta^2+...=5+\frac{\delta}{1-\delta}$
如果参与人1不偏离触发战略，那么参与人1知道2也不会偏离，所以他也一直选D，于是贴现为 $4+4\delta+4\delta^2+...=\frac{4}{1-\delta}$
显然要让参与人1的执行上述行为（触发战略）是有前提的，那就是 $\frac{4}{1-\delta}\ge5+\frac{\delta}{1-\delta}$
解得 $\delta\ge\frac{1}{4}$ 。

贴现率理解为参与人对未来收益的重视程度，只有当参与人对未来有足够的重视，合作才可能形成。

两期战略

除了触发战略可以构成博弈的子精炼Nash均衡为，还有其他许多的子博弈精炼Nash均衡。

例子还是上面那个囚徒困境。他的无限重复博弈可以表示为：
在这里插入图片描述

参与人1的战略 $\tilde s_1$ ：第一阶段选择D；在第 $i(i\gt1)$ 阶段，如果上一阶段的结果为 $(D, R)$ 或 $(U, L)$ ，则选择D，其他情况下选择U；

参与人1的战略 $\tilde s_1$ ：第一阶段选择D；在第 $i(i\gt1)$ 阶段，如果上一阶段的结果为 $(D, R)$ 或 $(U, L)$ ，则选择R，其他情况下选择L；

提供了两种手段：其一是（单期的）惩罚。其二是（潜在的无限期的）合作。如果任何一个参与人偏离了合作，则惩罚开始，如果任何一个参与人背离了惩罚，则会使博弈进入又一轮的惩罚。如果两个参与人都不背离惩罚，则在下一回合又回到合作。

战略组合存在两类子博弈：

合作的子博弈，上一阶段的结果为DR or UL；
惩罚的子博弈，上一阶段的结果不是这俩。

要证明该战略组合是子博弈精炼Nash均衡，只需要证明该战略组合对初始博弈 $\Gamma(x_1)$ 和 $\Gamma(x_3)$ 构成战略组合即可。

$\pi_M^1,\pi_M^2$ 表示当参与人2保持两期战略不变时，参与人1在初始博弈 $\Gamma(x_1)$ 和子博弈 $\Gamma(x_3)$ 上所能达到的最大收益。于是有 $\pi_M^1=\max\{5+\delta\cdot\pi_M^2,4+\delta\cdot\pi_M^1\},\pi_M^2=1+\delta\cdot\pi_M^1$

如果保证 $5+\delta\cdot\pi_M^2\le4+\delta\cdot\pi_M^1,\pi_M^2=1+\delta\cdot\pi_M^1$ ，那么就能保证参与人1不会偏离两期战略。

可以解得 $\delta\ge\frac{1}{3}$ 。

定理7.3（无名氏定理）给定G，用 $e_1,e_2,...,e_n)$ 表示G的一个Nash均衡下的收益， $x_1,x_2,...,x_n)$ 表示G的其他任何可行收益。若 $\forall i\in\Gamma$ ，有 $x_i\gt e_i$ ，则存在足够接近1的贴现率 $d e l t a$ ，使无限重复博弈 $G(∞,\delta)$ 存在一个子博弈精炼Nash均衡，其平均收益可以达到 $x_1,x_2,...,x_n)$ 。

无名氏定理表明，在任何一个Pareto有效的可行收益都可通过一个特定的子博弈精炼Nash均衡得到。

右边是我女神

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
0
评论
【博弈论-完全信息动态博弈】重复博弈

定义7.1 给定阶段博弈G，G重复进行T次的有限重复博弈是指：有限重复博弈有以下特征：定理7.1 如果阶段博弈只有唯一的Nash均衡，则有限重复博弈的唯一子博弈精炼Nash均衡为参与人在每阶段中都采用的Nash均衡战略。当阶段博弈只有唯一的Nash均衡时，有限重复博弈本质上是阶段博弈的简单重复。定理7.2 如果阶段博弈G中存在多个Nash均衡，则G(T)G(T)G(T)中可能存在这样的子博弈精炼Nash均衡，在该均衡中，对每一t......
复制链接

扫一扫