【博弈入门】马丁· 奥斯本读书笔记

拔剑吧！

于 2022-01-06 18:02:01 发布

阅读量621

点赞数 1

分类专栏：经济学课程学习

本文链接：https://blog.csdn.net/weixin_48642879/article/details/122349605

版权

经济学课程学习专栏收录该内容

9 篇文章 10 订阅

订阅专栏

文章目录

博弈入门
引论
- - 理性选择理论
可理性化
- 纳什均衡：理论
完全信息展开型博弈：理论
完全信息展开型博弈：例证
- - 双寡头垄断的斯塔克伯格模型
完全信息展开型博弈：延伸与讨论
- - 考虑同时行动
重复博弈：囚徒困境
重复博弈：一般结果
贝叶斯博弈
不完全信息展开型博弈

博弈入门

马丁· 奥斯本

笔记：我记得密码

日期：2021/12/26

引论

理性选择理论

行动

集合A包括在某些情况下一系列可供决策者选择的行动，以及决策者的特定偏好

偏好和盈利函数
$u (a) > u (b), 当且仅当决策者喜欢 a 甚于 b$
理性选择理论：依据决策者的偏好，她所选行动至少和其他可选行动一样好

相互影响的决策者

可理性化

12.2-4

严厉行动的逐次剔除

定义 12.6 ==(策略型博亦的绝非最优反应)==在具有 vNM 偏好的策略型博弈里,局中人 $i$ 的行动 $a_{i}^{\prime}$ 是绝非最优反应,如果对于局中人 $i$ 关于其他局中人行动的每一个信念 $\mu_{i}$ , 存在局中人 $i$ 的一个混合策略 $\alpha_{i}$ , 使得局中人 $i$ 关于 $\alpha_{i}$ 的期望盈利超过她关于 $a_{i}^{\prime}$ 的期望盈利:
$\sum_{a_{-} \in A_{-}} \mu_{i}\left(a_{-i}\right) U_{i}\left(\alpha_{i}, a_{-i}\right)>\sum_{a_{-i} \in A_{-i}} \mu_{i}\left(a_{-i}\right) u_{i}\left(a_{i}^{\prime}, a_{-i}\right)$
这里, $U_{i}\left(\alpha_{i}, a_{-i}\right)$ 是当局中人 $i$ 选取混合策略 $\alpha_{i}$ 并且其他局中人行动是 $a_{-i}$ 时局中人 $i$ 的期望盈利; $u_{i}$ 是她的伯努利盈利函数; $A_{-i}$ 是其他局中人行动序列集合。

每个绝非最优反应是严劣的

引论12.8 在具有vNM偏好且每个局中人有有限多个行动的策略型博弈中，一个局中人的行动是严劣的，当且仅当这个行动是“绝非最优反应”

定义 12.9==(严劣行动的逐次剔除)== 假设对于策略型博弈中的每个局中人 $i$ 和每个 $\cdots, T$ , 存在局中人 $i$ 的行动集 $X_{i}^{t}$ (在 $t$ 轮剔除开始处余留的行动集), 使得:

$X_{i}^{1}=A_{i}$ (从所有可能的行动集开始)
对于每个 $\cdots, T-1, X_{i}^{t+1}$ 是 $X_{i}^{t}$ 的子集 (在每一个阶段都可能剔除行动）
对于每个 $\cdots, T-1$ , 局中人 $i$ 在 $X_{i}^{t}$ 但不在 $X_{i}^{t+1}$ 中的每个行动在每个局中人 $j$ 的行动集是 $X_{j}^{t}$ 的博弈中是严劣的 (我们只剔除严劣的行动)
在每个局中人 $j$ 的行动集是 $X_{j}^{T}$ 的博恋中, $X_{i}^{T}$ 中没有一个行动是严劣的 (在过程结束时,任何局中人没有一个行动是严劣的)

那么, 对于每一个局中人 $i$ , 使得 $a_{i} \in X_{i}^{T}$ 的行动剖面 $a$ 的集合在逐次剔除严劣行动之后幸存下来。

Hotelling竞选模型

弱劣行动的逐次剔除

占优可解性

逐次剔除弱劣行动方法的一个特别令人感兴趣的形式是每个局中人的所有弱劣行动在每个阶段被剔除。如果当我们实施这样的逐次剔除时, 所有的局中人都认为在留存下来的所有行动剖面之间不存在差异, 那么我们称博弈是占优可解(dominance solvable)的。

纳什均衡：理论

主体内容

策略型博弈
囚徒困境
纳什均衡
最优反应函数
劣行动

定义 2.1==(具有序数偏好的策略型博弈) (具有序数偏好的)==策略型博弈由如下要素组成:

局中人集合
对于每一个局中人, 有一个行动集合
对于每个局中人，有关于行动剖面集合的偏好

囚徒困境的描述

局中人两个嫌疑犯。
行动每个嫌疑犯的行动集是{沉默,告密}。
偏好嫌疑犯 1 的行动剖面序列, 从最好到最差依次为: (告密,沉默)(她告密而嫌疑犯 2 保持沉默, 从而她获释); (沉默, 沉默) (她被判刑 1 年); (告密,告密)(她被判刑 3 年); (沉默,告密)(她被判刑 4 年)。嫌疑犯 2 的行动序列是: (沉默,告密)、(沉默,沉默)、(告密,告密)、(告密,沉默)。

合作项目双寡头垄断军备竞赛共同财产性别之战（BoS）匹配硬币猎鹿问题

纳什均衡：

具有如下性质的一个行动剖面 $a^{*}$ ,假定其他每一个局中人 $j$ 坚持采取行动 $a_{j}^{*}$ , 那么局中人 $i$ 不可能选择一个与 $a_{i}^{*}$ 不同的行动而使自已获得更好的结果。

借助于额外的符号, 我们可以精确地陈述纳什均衡的定义。

令 $a$ 是一个行动剖面, 其中每个局中人 $i$ 的行动是 $a_{i}$ 。

令 $a_{i}^{\prime}$ 是局中人 $i$ 的任意行动 (要么等于 $a_{i}$ , 要么不等于 $a_{i}$ )。

那么 $\left(a_{i}^{\prime}, a_{-i}\right)$ 表示这样的行动剖面, 其中除了局中人 $i$ 之外,每一个局中人 $j$ 选取由 $a$ 所确定的她的行动 $a_{j}$ , 而局中人 $i$ 选择 $a_{i}^{\prime} $ 。（ $a$ 的下标一 $i$ 表示“除 $i$ 以外”。)这就是说, $\left(a_{i}^{\prime}, a_{-i}\right)$ 是这样的行动剖面: 除了 $i$ 之外, 所有局中人坚持 $a$ , 而 $i$ 则 “偏离”到 $a_{i}^{\prime}$ 。(如果 $a_{i}^{\prime}=a_{i}$ , 那么当然有 $\left(a_{i}^{\prime}, a_{-i}\right)=\left(a_{i}^{\prime}, a_{-i}\right)=a_{0}$ )

例如,假设有三个局中人,那么 $\left(a_{2}^{\prime}, a_{-2}\right)$ 是这样的行动剖面: 局中人 1 和局中人 3 坚持采取 $a$ (局中人 1 选择 $a_{1}$ , 局中人 3 选择 $a_{3}$ ）, 而局中人 2 偏离到 $a_{2}^{\prime}$ 。
利用这个记号,我们可以重新叙述行动剖面 $a^{*}$ 成为纳什均衡的条件 :

没有任何行动 $a_{i}$ 使得局中人 $i$ 喜欢 $\left(a_{i}, a_{-i}^{*}\right)$ 甚于 $a^{*}$ 。等价地, 对于每一个局中人 $i$ 和局中人 $i$ 的每一个行动 $a_{i}$ , 行动剖面 $a^{*}$ 对于局中人 $i$ 来说至少像行动剖面 $\left(a_{i}, a_{-i}^{*}\right)$ 一样好。

定义 2.10==(具有序数偏好的策略型博恋的纳什均衡)== 在具有序数偏好的策略型博恋中, 行动剖面 $a^{*}$ 是纳什均衡, 如果对于每一个局中人 $i$ 和局中人 $i$ 的每一个行动 $a_{i}$ , 根据局中人 $i$ 的偏好, $a^{*}$ 至少和局中人 $i$ 选择 $a_{i}$ 而其他每一个局中人 $j$ 都选择 $a_{j}^{*}$ 的行动剖面 $\left(a_{i}, a_{-i}^{*}\right)$ 一样好。等价地, 对于任意局中人 $i$ , 有:
$u_{i}\left(a^{*}\right) \geqslant u_{i}\left(a_{i}, a_{-i}^{*}\right)$
对局中人 $i$ 的每个行动 $a_{i}$ 都成立。这里, $u_{i}$ 是描述局中人 $i$ 偏好的盈利函数。

指明了肯定有纳什均衡，但并不代表唯一性

最优反应函数

当其他局中人的行动列表为 $a_{-i}$ 时, 局中人 $i$ 的最优行动集记为 $B_{i}\left(a_{-i}\right)$ 。于是, 在 $B o S$ 中, 我们有 $B_{1}$ (巴赫) $=\{$ 巴赫 $\}$ , 以及 $B_{1}$ (斯特拉文斯基 $)=\{$ 斯特拉文斯基 $\}$ ; 在图 2. 10 的博亦中, 我们有 $B_{1}(L)=\{T, B\}$ 。具体地, 我们定义函数 $B_{i}$ 为:
$B_{i}\left(a_{-i}\right)=\left\{a_{i} \in A_{i}: u_{i}\left(a_{i}, a_{-i}\right) \geqslant u_{i}\left(a_{i}^{\prime}, a_{-i}\right)\right., 对 A_{i} 中所有的 a_{i}^{\prime}成立 \}$
对局中人 $i$ 来说, 当给定其他局中人的行动 $a_{-i}$ 时, $B_{i}\left(a_{-i}\right)$ 中的任何行动至少如局中人 $i$ 的每一个其他行动一样好。我们称 $B_{i}$ 为局中人 $i$ 的最优反应函数。

$B_{i}$ 是集值函数: 它将一组行动与其他局中人的行动列表联系在一起。集合 $B_{i}\left(a_{-i}\right)$ 的每一个成员是局中人 $i$ 对 $a_{-i}$ 的最优反应:如果每一个其他局中人坚持 $a_{-i}$ , 那么局中人 $i$ 不可能找到比选择 $B_{i}\left(a_{-i}\right)$ 中的成员更好的行动。在一些像 $B o S$ 那样的博恋中, 对于其他局中人行动的每一个列表 $a_{-i}$ ,

命题 $2.21$ 行动剖面 $a^{*}$ 是具有序数偏好的策略型博弈的纳什均衡, 当且仅当每一个局中人的行动是对其他局中人行动的最优反应:
$a_{i}^{*}在 B_{i}\left(a_{-i}^{*}\right)中$

求纳什均衡的方法

求每个局中人的最优反应函数
求满足命题2.21的行动剖面

最优反应函数的交点是纳什均衡

定义 2.33==(严优)== 在具有序数偏好的策略型博弈中, 局中人 $i$ 的行动 $a_{i}^{\prime \prime}$ 严优于她的行动 $a_{i}^{\prime}$ , 假如对于其他局中人的每一个行动 $a_{-i}$ , 有:
$u_{i}\left(a_{i}^{\prime \prime}, a_{-i}\right)>u_{i}\left(a_{i}^{\prime}, a_{-i}\right)$
这里, $u_{i}$ 是描述局中人 $i$ 偏好的盈利函数。我们说行动 $a_{i}^{\prime}$ 是严劣的。

严劣行动不使用于任何纳什均衡中。

定义2.34==（弱优）==在具有序数偏好的策略型博弈中, 局中人 $i$ 的行动 $a_{i}^{\prime \prime}$ 弱优于她的行动 $a_{i}^{\prime}$ , 倘若对于其他局中人的每一系列行动 $a_{-i}$ , 有:
$u_{i}\left(a_{i}^{\prime \prime}, a_{-i}\right) \geqslant u_{i}\left(a_{i}^{\prime}, a_{-i}\right)$
并且, 对于其他局中人的某些系列行动 $a_{-i}$ , 有:
$u_{i}\left(a_{i}^{\prime \prime}, a_{-i}\right)>u_{i}\left(a_{i}^{\prime}, a_{-i}\right)$
其中, $u_{i}$ 是描述局中人 $i$ 偏好的盈利函数,我们说行动 $a_{i}^{\prime}$ 是弱劣的。

严格纳什均衡非严格纳什均衡

定义 $2.42$ ==(具有序数偏好的对称的两人策略型博弈)==具有序数偏好的两人策略型博恋是对称的, 如果局中人的行动集相同, 并且局中人的偏好用盈利函数 $u_{1}$ 与 $u_{2}$ 来描述, 它们满足: 对于每一个行动对 $\left(a_{1}, a_{2}\right), u_{1}\left(a_{1}, a_{2}\right)=$ $u_{2}\left(a_{2}, a_{1}\right)$ 成立。

定义 2.44==(对称纳什均衡)==在具有序数偏好的策略型博恋中, 每个局中人具有相同行动集, 如果行动剖面 $a^{*}$ 是一个纳什均衡, 并且对于每一个局中人 $i$ 而言 $a_{i}^{*}$ 是相同的,那么称 $a^{*}$ 是一个对称的纳什均衡。

完全信息展开型博弈：理论

展开型博弈有四个组成部分：

局中人
终端历史
局中人函数
局中人偏好

如果最长的终端历史是有限的，那么我们称这个博弈是有限范畴

定义 5.2==(具有完全信息的展开型博弈)== 一个具有完全信息的展开型博弈由以下要素组成:

局中人集合
序列(终端历史)集合, 它们具有以下性质: 没有一个序列是其他任意序列的真历史
函数 (局中人函数), 给每一个序列指派局中人, 而这些序列是一些终端历史的真子历史
对于每一个局中人, 有关于终端历史集的偏好
终端历史集是所有可能发生的行动序列的集合; 由局中人函数指派到历史 $h$ 的局中人是在 $h$ 之后采取行动的局中人。

后退归纳法

定义 5.6==(策略)== 在完全信息展开型博弈中,局中人 $i$ 的策略是关于每一个历史 $h$ 的函数, 在这个历史 $h$ 之后, 轮到局中人 $i$ [即 $P (h) = i$ , 其中, $P$ 是局中人函数]行动, 这个函数对 $h$ 指派 $A (h)$ (在 $h$ 之后可使用的行动集)中的一个行动。

一般的，根据这些行动在博弈中发生的顺序书写，如果这些行动是在同一个“阶段”可选择，那么从左到右书写；在行动列表表意不清楚时，清晰的给出每个行动相应的历史，在这个历史之后采取行动。

定义要求任何一个局中人i的策略对每一个轮到她在此之后采取行动的历史详细地指定行动，即使是策略执行过程中那些没有发生的历史也是这样。

策略剖面确定了发生的终端历史。记策略剖面为 $s, P$ 为局中人函数。博弈起始时, 局中人 $P(\varnothing)$ 行动, 她的策略为 $s_{P(\varnothing)}$ , 并且选择行动 $(\varnothing)$ , 这个行动记为 $a^{1}$ 。如果历史 $a^{1}$ 不是终端,接下来局中人 $P\left(a^{1}\right)$ 采她的策略是 $s_{P\left(a^{1}\right)}$ , 且选择行动 $s_{P\left(a^{1}\right)}\left(a^{1}\right)$ , 这个行动记为 $a^{2}$ 。如策略指定了她选择的行动。继续这个过程直到构建了终端历史为止。
把这个终端历史称为 $s$ 的结局,并把它记为 $O (s)$ 。
例图 $5.4$ 的博弈中, “策略对” $(D G, E)$ 的结局是终端历史 $D$ , $(C H, E)$ 的结局终端历史 $(C, E, H)$

定义 $5.8$ (完全信息展开型博弈的纳什均衡) 在完全信息展开型博弈中,策略剖面 $s^{*}$ 是纳什均衡, 应该满足以下条件: 对于每一个局中人 $i$ 和局中人 $i$ 的每一个策略 $r_{i}$ , 按照局中人 $i$ 的偏好, 由 $s^{*}$ 产生的终端历史 $O\left(s^{*}\right)$ 至少如同由局中人 $i$ 选择 $r_{i}$ 而其他局中人 $j$ 选择 $s_{j}^{*}$ 的策略剖面 $\left(r_{i}, s_{-i}^{*}\right)$ 所产生的终端历史 $O\left(r_{i}, s_{-i}^{*}\right)$ 一样好。等价地, 对于每一个局中人 $i$ , 有:
$u_{i}\left(O\left(s^{*}\right)\right) \geqslant u_{i}\left(O\left(r_{i}, s_{-i}^{*}\right)\right)$
对局中人 $i$ 的每个策略 $r_{i}$ 都成立，其中, $u$ : 是描述局中人 $i$ 偏好的盈利函数, $O$ 是博弈的结局函数。

定义 5.12==(完全信息展开型博弈的子博弈)== 令 $\Gamma$ 是具有完全信息的展开型博弈, 局中人函数为 $P$ 。对于 $\Gamma$ 中的任意非终端历史 $h$ , 跟随在历史 $h$ 之后的子博弈 $\Gamma(h)$ 是如下的展开型博弈：

局中人 $\Gamma$ 中的局中人。
终端历史所有使得 $\left(h, h^{\prime}\right)$ 是 $\Gamma$ 的终端历史的行动序列 $h^{\prime}$ 的集合。
局中人函数局中人 $P\left(h, h^{\prime}\right)$ 被指派到终端历史的每一个真子历史 $h^{\prime}$ 。
偏好每个局中人喜欢 $h^{\prime}$ 甚于 $h^{\prime \prime}$ , 当且仅当她在 $\Gamma$ 中喜欢 $\left(h, h^{\prime}\right)$ 甚于 $\left(h, h^{\prime \prime}\right)$ 。

定义 5.14==(完全信息展开型博弈的子博亦完美均衡)== 在具有完全信息的展开型博弈中的策略剖面 $s^{*}$ 是子博弈完美均衡, 需要满足下述条件: 对于每一个局中人 $i$ 、每一个历史 $h [h$ 之后轮到局中人 $i$ 行动, 即 $P (h) = i]$ , 以及局中人 $i$ 的每一个策略 $r_{i}$ , 按照局中人 $i$ 的偏好, 历史 $h$ 之后由 $s^{*}$ 产生的终㟨历史 $O_{h}\left(s^{*}\right)$ 至少如同由策略剖面 $\left(r_{i}, s_{-i}^{*}\right)$ (其中局中人 $i$ 选择 $r_{i}$ 而其他每个局中人选择 $s_{j}^{*}$ ) 产生的终端历史 $O_{h}\left(r_{i}, s_{-i}^{*}\right)$ 一样好。等价地, 对于每一个司中人 $i$ 和每一个历史 $h$ ( $h$ 之后轮到局中人 $i$ 行动), 有:
$u_{i}\left(O_{h}\left(s^{*}\right)\right) \geqslant u_{i}\left(O_{h}\left(r_{i}, s_{-i}^{*}\right)\right) ~~对局中人i的每一个策略 r_{i} 都成立$

求有限范畴博弈的子博弈完美均衡：后退归纳法

每一个具有完全信息的有限展开型博弈有子博弈完美均衡

完全信息展开型博弈：例证

最后通牒博弈：

分c美元，每个人只在意自己可以拿多少钱，如果2不接受那么没人可以拿到东西

具有公平意识

双寡头垄断的斯塔克伯格模型

局中人两家厂商。
终端历史厂商所有产量序列 $\left(q_{1}, q_{2}\right)$ 的集合 (其中, 每家厂商 $i$ 的产量 $q_{i}$ 是非负数)。
局中人函数 $P(\varnothing)=1$ , 并且对所有的 $q_{1}$ , 有 $P\left(q_{1}\right)=2$ 。
偏好厂商 $i$ 关于终端历史 $\left(q_{1}, q_{2}\right)$ 的盈利是它的利润 $q_{i} P_{d}\left(q_{1}+q_{2}\right)-c_{i}\left(q_{i}\right)(i=1,2)$ 。

柏德川模型和古诺模型

完全信息展开型博弈：延伸与讨论

考虑同时行动

定义 $7.1$ 具有完全信息并且同时行动的展开型博奕由以下因素组成:

局中人集合
(终端历史) 序列集合, 具有性质: 没有一个序列是其他任何序列的真子历史
一个(局中人)函数, 指派局中人集合到某个终端历史的真子历史的每个序列
对应于每个终端历史的真子历史 $h$ 和局中人集合中由局中人函数指派到 $h$ 的每个局中人 $i$ , 有一组 $A_{i}(h)$ (在历史 $h$ 之后局中人 $i$ 可使用的行动集）
对于每个局中人,在终端历史集合上的偏好

定义 7.3==(完全信息并且同时行动的展开型博亰中的策略)== 在完全信息并且同时行动的展开型博弈中, 局中人 $i$ 的策略是指派到每个历史 $h$ 的函数, $i$ 是在历史 $h$ 之后轮到行动的局中人之一 [即, $i$ 是 $P (h)$ 的一个成员, 这里 $P$ 是博弈的局中人函数], 这个函数指定了局中人 $i$ 采取 $A_{i}(h)$ (在历史 $h$ 之后局中人 $i$ 可使用的行动集)中的某一个行动。

重复博弈：囚徒困境

“冷酷触发策略” (the grim trigger strategy):

只要另一个局中人选择 $C$ , 就一直选择 $C$
如果在任何周期中,另一个局中人选择 $D$ , 那么在以后的每一个周期都选择 $D$ 。

定义 14. 2==(重复博弈)== 设 $G$ 是一个策略型博弈。局中人集合记为 $N$ , 每个局中人 $i$ 的行动集和盈利函数分别为 $A_{i}$ 和 $u_{i}$ 。对于贴现因子 $\delta, G$ 的 $\mathbf{T}$ 周期重复博奕是具有完全信息和同时行动的展开型博恋,其中:

局中人集合是 $N$
终端历史集是 $G$ 中的行动剖面序列 $\left(a^{1}, a^{2}, \cdots, a^{\mathrm{T}}\right)$ 的集合
局中人函数将所有局中人的集合指派到每一个历史 $\left(a^{1}, \cdots, a^{t}\right)$ (对于每一个 $t$ ）
任何历史之后的任何局中人 $i$ 的可使用行动集是 $A_{i}$
对于每个终端历史 $\left(a^{1}, a^{2}, \cdots, a^{T}\right)$ , 每个局中人 $i$ 根据她的贴现平均值 $(1-\delta) \sum_{1-1}^{T} \delta^{t-1} u_{i}\left(a^{t}\right)$ 评估该终端历史。

针锋相对策略，选择上一轮对方选择的策略

有限惩罚，收到k个周期的惩罚，然后重新开始。

重复博弈：一般结果

定义 15. 1 (策略型博弈的最小最大盈利) 在策略型博恋中,局中人 $i$ 的最小最大盈利是:
$\min _{a_{-i} \in A_{-i}}\left(\max _{a_{i} \in A_{i}} u_{i}\left(a_{i}, a_{-i}\right)\right)$
这里, 对于每个局中人 $j, A_{j}$ 是 $j$ 的行动集, $u_{j}$ 是她的盈利函数。

贝叶斯博弈

贝叶斯博弈包括：

局中人集合
状态集合

和对于每个局中人, 有:
行动集吕
她可能接收到的信号集, 和一个将信号与状态联系起来的“信号函数”
对于她可能收到的每个信号, 存在一个状态与信号相容的信念(即存在一个与信号相关联的状态集合上的概率分布）
$\omega)$ 上的伯努利盈利函数,其中, $a$ 是一个行动剖面, $\omega$ 是一个状态,它的期望值描述了局中人关于这些 $\omega)$ 的随机偏好

局中人 两个人。
状态状态集是 $\{$ 相遇, 回避 $\}$ 。
行动每个局中人的行动集是 ${B, S\}$ 。
信号局中人 1 可能收到一个信号, 如 $z$ ; 其信号函数 $\tau_{1}$ 满足 $\tau_{1}$ (相遇 $)=\tau_{1}$ (回避) $= z$ 。局中人 2 收到 $m$ 和 $v$ 两个信号中的一个; 其信号函数 $\tau_{2}$ 满足 $\tau_{2}$ (相遇) $\tau_{2}$ (回避) $=v_{\text {。 }}$
信念局中人 1 在收到信号 $z$ 后,分别指派概率 $\frac{1}{2}$ 到每个状态。局中人2 在收到信号 $m$ 后，指派概率 1 到状态“相遇”; 在收到信号 $v$ 后, 指派概率 1 到状态“回避”。
盈利每个局中人 $i$ 关于所有可能的行动组合的盈利 $u_{i}(a$ , 相遇 $)$ 在图 $9.1$ 的左表中给出，而盈利 $u_{i}(a$ ，回避 $)$ 在其右表中显示。

不完全信息展开型博弈

定义 10.1==(展开型博弈)== (具有不完全信息和随机行动的)展开型博弈包含：

局中人集合
具有如下性质的 (终端历史的)序列集: 没有一个序列是任何其他序列的真子历史
局中人函数: 它将局中人或者“机会”指派给某些终端历史的真子历史的每一个序列
对于局中人函数指派给“机会”的每个历史, 有一个函数对这个历史之后的可选择行动指派一个概率分布。它具有如下性质: 每一个这样的概率分布独立于每一个其他的分布
对于每个局中人, 由局中人函数指派给这个局中人有关历史集合的划分(局中人的信息划分),使得对于在划分的任何给定成员中的每一个历史, 可使用的行动集 $A (h)$ 是一样的
对于每个局中人, 有终端历史的随机结局集合上的偏好

定义 10.6==(展开型博奕的策略)== 在展开型博恋中, 局中人 $i$ 的一个 (纯)策略是这样的一个函数，它对局中人 $i$ 的每一个信息集 $I_{i}$ 指派一个 $A\left(I_{i}\right)$ (局中人 $i$ 在信息集 $I_{i}$ 中可选择的行动集)中的行动。

定义 $10.9$ ==(展开型博弈的纳什均衡)==展开型博弈的混合策略剖面 $\alpha^{*}$ 如果满足下述条件, 则称为 (混合策略) 纳什均衡: 对于每一个局中人 $i$ 和局中人 $i$ 的每一个混合策略 $\alpha_{i}$ , 局中人 $i$ 关于 $\alpha^{*}$ 的期望盈利至少与关于 $\left(\alpha_{i},\right.$ , $\alpha_{-i}^{*}$ ) 的期望盈利一样大。这里的盈利函数期望值描述了局中人 $i$ 对随机结局的偏好。

分离均衡 (Separating equilibrium) 每种类型的发送者选择不同的行动(在例题中的第一类均衡里, 强挑战者选择“准备”, 弱挑战者选择“无准备"), 因此根据观察到发送者的行动, 接收者知道发送者的类型。
混同均衡 (Pooling equilibrium) 所有类型的发送者选择相同的行动

半分离均衡