【博弈入门】马丁· 奥斯本读书笔记

博弈入门

马丁· 奥斯本

笔记:我记得密码

日期:2021/12/26

引论

理性选择理论

行动

集合A包括在某些情况下一系列可供决策者选择的行动,以及决策者的特定偏好

偏好和盈利函数
u ( a ) > u ( b ) , 当 且 仅 当 决 策 者 喜 欢 a 甚 于 b u(a)>u(b),当且仅当决策者喜欢a甚于b u(a)>u(b),ab
理性选择理论:依据决策者的偏好,她所选行动至少和其他可选行动一样好

相互影响的决策者

可理性化

12.2-4

严厉行动的逐次剔除

定义 12.6 ==(策略型博亦的绝非最优反应)==在具有 vNM 偏好的策略型 博弈里,局中人 i i i 的行动 a i ′ a_{i}^{\prime} ai 是绝非最优反应,如果对于局中人 i i i 关于其他局 中人行动的每一个信念 μ i \mu_{i} μi, 存在局中人 i i i 的一个混合策略 α i \alpha_{i} αi, 使得局中人 i i i 关于 α i \alpha_{i} αi 的期望盈利超过她关于 a i ′ a_{i}^{\prime} ai 的期望盈利:
∑ a − ∈ A − μ i ( a − i ) U i ( α i , a − i ) > ∑ a − i ∈ A − i μ i ( a − i ) u i ( a i ′ , a − i ) \sum_{a_{-} \in A_{-}} \mu_{i}\left(a_{-i}\right) U_{i}\left(\alpha_{i}, a_{-i}\right)>\sum_{a_{-i} \in A_{-i}} \mu_{i}\left(a_{-i}\right) u_{i}\left(a_{i}^{\prime}, a_{-i}\right) aAμi(ai)Ui(αi,ai)>aiAiμi(ai)ui(ai,ai)
这里, U i ( α i , a − i ) U_{i}\left(\alpha_{i}, a_{-i}\right) Ui(αi,ai) 是当局中人 i i i 选取混合策略 α i \alpha_{i} αi 并且其他局中人行动是 a − i a_{-i} ai 时局中人 i i i 的期望盈利; u i u_{i} ui 是她的伯努利盈利函数; A − i A_{-i} Ai 是其他局中人行动 序列集合。

每个绝非最优反应是严劣的

引论12.8 在具有vNM偏好且每个局中人有有限多个行动的策略型博弈中,一个局中人的行动是严劣的,当且仅当这个行动是“绝非最优反应”

定义 12.9==(严劣行动的逐次剔除)== 假设对于策略型博弈中的每个局中 人 i i i 和每个 t = 1 , ⋯   , T t=1, \cdots, T t=1,,T, 存在局中人 i i i 的行动集 X i t X_{i}^{t} Xit (在 t t t 轮剔除开始处余留的 行动集), 使得:

  • X i 1 = A i X_{i}^{1}=A_{i} Xi1=Ai (从所有可能的行动集开始)

  • 对于每个 t = 1 , ⋯   , T − 1 , X i t + 1 t=1, \cdots, T-1, X_{i}^{t+1} t=1,,T1,Xit+1 X i t X_{i}^{t} Xit 的子集 (在每一个阶段都可能剔除行动)

  • 对于每个 t = 1 , ⋯   , T − 1 t=1, \cdots, T-1 t=1,,T1, 局中人 i i i X i t X_{i}^{t} Xit 但不在 X i t + 1 X_{i}^{t+1} Xit+1 中的每个行动在 每个局中人 j j j 的行动集是 X j t X_{j}^{t} Xjt 的博弈中是严劣的 (我们只剔除严劣的行动)

  • 在每个局中人 j j j 的行动集是 X j T X_{j}^{T} XjT 的博恋中, X i T X_{i}^{T} XiT 中没有一个行动是严劣 的 (在过程结束时,任何局中人没有一个行动是严劣的)

那么, 对于每一个局中人 i i i, 使得 a i ∈ X i T a_{i} \in X_{i}^{T} aiXiT 的行动剖面 a a a 的集合在逐次剔 除严劣行动之后幸存下来。

Hotelling竞选模型

弱劣行动的逐次剔除

占优可解性

逐次剔除弱劣行动方法的一个特别令人感兴趣的形式是每个局中人的 所有弱劣行动在每个阶段被剔除。如果当我们实施这样的逐次剔除时, 所 有的局中人都认为在留存下来的所有行动剖面之间不存在差异, 那么我们 称博弈是占优可解(dominance solvable)的。

image-20211226174445835

纳什均衡:理论

主体内容

  • 策略型博弈

  • 囚徒困境

  • 纳什均衡

  • 最优反应函数

  • 劣行动

定义 2.1==(具有序数偏好的策略型博弈) (具有序数偏好的)==策略型博 弈由如下要素组成:

  • 局中人集合
  • 对于每一个局中人, 有一个行动集合
  • 对于每个局中人,有关于行动剖面集合的偏好

囚徒困境的描述

局中人 两个嫌疑犯。
行动 每个嫌疑犯的行动集是{沉默,告密}。
偏好 嫌疑犯 1 的行动剖面序列, 从最好到最差依次为: (告密,沉默)(她告密而嫌疑犯 2 保持沉默, 从而她获释); (沉默, 沉默) (她被判刑 1 年); (告密,告密)(她被判刑 3 年); (沉默,告密)(她被判刑 4 年)。嫌疑犯 2 的行动序列是: (沉默,告密)、(沉默,沉默)、(告密,告密)、(告密,沉默)。

合作项目 双寡头垄断 军备竞赛 共同财产 性别之战(BoS) 匹配硬币 猎鹿问题

纳什均衡:

具有如下性质的一个行动剖面 a ∗ a^{*} a,假定其他每一个局中人 j j j 坚持采取行动 a j ∗ a_{j}^{*} aj, 那么局中人 i i i 不可能选择一个与 a i ∗ a_{i}^{*} ai 不同的行动而使自已获得更好的结果。

借助于额外的符号, 我们可以精确地陈述纳什均衡的定义。

a a a 是一 个行动剖面, 其中每个局中人 i i i 的行动是 a i a_{i} ai

a i ′ a_{i}^{\prime} ai 是局中人 i i i 的任意行动 (要么等于 a i a_{i} ai, 要么不等于 a i a_{i} ai )。

那么 ( a i ′ , a − i ) \left(a_{i}^{\prime}, a_{-i}\right) (ai,ai) 表示这样的行动剖面, 其中除 了局中人 i i i 之外,每一个局中人 j j j 选取由 a a a 所确定的她的行动 a j a_{j} aj, 而局中人 i i i 选择 $a_{i}^{\prime} $ 。( a a a的下标一 i i i 表示“除 i i i 以外”。)这就是说, ( a i ′ , a − i ) \left(a_{i}^{\prime}, a_{-i}\right) (ai,ai) 是这样的行动 剖面: 除了 i i i 之外, 所有局中人坚持 a a a, 而 i i i 则 “偏离”到 a i ′ a_{i}^{\prime} ai 。(如果 a i ′ = a i a_{i}^{\prime}=a_{i} ai=ai, 那 么当然有 ( a i ′ , a − i ) = ( a i ′ , a − i ) = a 0 \left(a_{i}^{\prime}, a_{-i}\right)=\left(a_{i}^{\prime}, a_{-i}\right)=a_{0} (ai,ai)=(ai,ai)=a0 )

例如,假设有三个局中人,那么 ( a 2 ′ , a − 2 ) \left(a_{2}^{\prime}, a_{-2}\right) (a2,a2) 是这样的行动剖面: 局中人 1 和局中人 3 坚持采取 a a a (局中人 1 选择 a 1 a_{1} a1, 局中 人 3 选择 a 3 a_{3} a3 ), 而局中人 2 偏离到 a 2 ′ a_{2}^{\prime} a2
利用这个记号,我们可以重新叙述行动剖面 a ∗ a^{*} a 成为纳什均衡的条件 :

没有任何行动 a i a_{i} ai 使得局中人 i i i 喜欢 ( a i , a − i ∗ ) \left(a_{i}, a_{-i}^{*}\right) (ai,ai) 甚于 a ∗ a^{*} a 。等价地, 对于每一个局中人 i i i 和局中人 i i i 的每一个行动 a i a_{i} ai, 行动剖面 a ∗ a^{*} a 对于局中人 i i i 来说至少像行动剖面 ( a i , a − i ∗ ) \left(a_{i}, a_{-i}^{*}\right) (ai,ai) 一样好。

定义 2.10==(具有序数偏好的策略型博恋的纳什均衡)== 在具有序数偏好 的策略型博恋中, 行动剖面 a ∗ a^{*} a 是纳什均衡, 如果对于每一个局中人 i i i 和局中 人 i i i 的每一个行动 a i a_{i} ai, 根据局中人 i i i 的偏好, a ∗ a^{*} a 至少和局中人 i i i 选择 a i a_{i} ai 而其 他每一个局中人 j j j 都选择 a j ∗ a_{j}^{*} aj 的行动剖面 ( a i , a − i ∗ ) \left(a_{i}, a_{-i}^{*}\right) (ai,ai) 一样好。等价地, 对于任 意局中人 i i i, 有:
u i ( a ∗ ) ⩾ u i ( a i , a − i ∗ ) u_{i}\left(a^{*}\right) \geqslant u_{i}\left(a_{i}, a_{-i}^{*}\right) ui(a)ui(ai,ai)
对局中人 i i i 的每个行动 a i a_{i} ai 都成立。这里, u i u_{i} ui 是描述局中人 i i i 偏好的盈利函数。

指明了肯定有纳什均衡,但并不代表唯一性

最优反应函数

当其他局中人的行动列表为 a − i a_{-i} ai 时, 局中人 i i i 的最优行动集记为 B i ( a − i ) B_{i}\left(a_{-i}\right) Bi(ai) 。于是, 在 B o S B o S BoS 中, 我们有 B 1 B_{1} B1 (巴赫) = { =\{ ={ 巴赫 } \} }, 以及 B 1 B_{1} B1 (斯特拉文斯 基 ) = { )=\{ )={ 斯特拉文斯基 } \} }; 在图 2. 10 的博亦中, 我们有 B 1 ( L ) = { T , B } B_{1}(L)=\{T, B\} B1(L)={T,B} 。 具体地, 我们定义函数 B i B_{i} Bi 为:
B i ( a − i ) = { a i ∈ A i : u i ( a i , a − i ) ⩾ u i ( a i ′ , a − i ) , 对 A i 中 所 有 的 a i ′ 成 立 } B_{i}\left(a_{-i}\right)=\left\{a_{i} \in A_{i}: u_{i}\left(a_{i}, a_{-i}\right) \geqslant u_{i}\left(a_{i}^{\prime}, a_{-i}\right)\right., 对 A_{i} 中所有的 a_{i}^{\prime}成立 \} Bi(ai)={aiAi:ui(ai,ai)ui(ai,ai),Aiai}
对局中人 i i i 来说, 当给定其他局中人的行动 a − i a_{-i} ai 时, B i ( a − i ) B_{i}\left(a_{-i}\right) Bi(ai) 中的任何行动至少如局中人 i i i 的每一个其他行动一样好。我们称 B i B_{i} Bi 为局中人 i i i 的最优反应 函数。

B i B_{i} Bi 是集值函数: 它将一组行动与其他局中人的行动列表联系在一起。 集合 B i ( a − i ) B_{i}\left(a_{-i}\right) Bi(ai) 的每一个成员是局中人 i i i a − i a_{-i} ai 的最优反应:如果每一个其他局 中人坚持 a − i a_{-i} ai, 那么局中人 i i i 不可能找到比选择 B i ( a − i ) B_{i}\left(a_{-i}\right) Bi(ai) 中的成员更好的行 动。在一些像 B o S B o S BoS 那样的博恋中, 对于其他局中人行动的每一个列表 a − i a_{-i} ai,

命题 2.21 2.21 2.21 行动剖面 a ∗ a^{*} a 是具有序数偏好的策略型博弈的纳什均衡, 当 且仅当每一个局中人的行动是对其他局中人行动的最优反应:
对 于 每 个 局 中 人 i , a i ∗ 在 B i ( a − i ∗ ) 中 对于每个局中人 i, a_{i}^{*}在 B_{i}\left(a_{-i}^{*}\right)中 i,aiBi(ai)

求纳什均衡的方法

  1. 求每个局中人的最优反应函数
  2. 求满足命题2.21的行动剖面

最优反应函数的交点是纳什均衡

定义 2.33==(严优)== 在具有序数偏好的策略型博弈中, 局中人 i i i 的行动 a i ′ ′ a_{i}^{\prime \prime} ai 严优于她的行动 a i ′ a_{i}^{\prime} ai, 假如对于其他局中人的每一个行动 a − i a_{-i} ai, 有:
u i ( a i ′ ′ , a − i ) > u i ( a i ′ , a − i ) u_{i}\left(a_{i}^{\prime \prime}, a_{-i}\right)>u_{i}\left(a_{i}^{\prime}, a_{-i}\right) ui(ai,ai)>ui(ai,ai)
这里, u i u_{i} ui 是描述局中人 i i i 偏好的盈利函数。我们说行动 a i ′ a_{i}^{\prime} ai 是严劣的。

严劣行动不使用于任何纳什均衡中。

定义2.34==(弱优)==在具有序数偏好的策略型博弈中, 局中人 i i i 的行动 a i ′ ′ a_{i}^{\prime \prime} ai 弱优于她的行动 a i ′ a_{i}^{\prime} ai, 倘若对于其他局中人的每一系列行动 a − i a_{-i} ai, 有:
u i ( a i ′ ′ , a − i ) ⩾ u i ( a i ′ , a − i ) u_{i}\left(a_{i}^{\prime \prime}, a_{-i}\right) \geqslant u_{i}\left(a_{i}^{\prime}, a_{-i}\right) ui(ai,ai)ui(ai,ai)
并且, 对于其他局中人的某些系列行动 a − i a_{-i} ai, 有:
u i ( a i ′ ′ , a − i ) > u i ( a i ′ , a − i ) u_{i}\left(a_{i}^{\prime \prime}, a_{-i}\right)>u_{i}\left(a_{i}^{\prime}, a_{-i}\right) ui(ai,ai)>ui(ai,ai)
其中, u i u_{i} ui 是描述局中人 i i i 偏好的盈利函数,我们说行动 a i ′ a_{i}^{\prime} ai 是弱劣的。

严格纳什均衡 非严格纳什均衡

定义 2.42 2.42 2.42 ==(具有序数偏好的对称的两人策略型博弈)==具有序数偏好的 两人策略型博恋是对称的, 如果局中人的行动集相同, 并且局中人的偏好用 盈利函数 u 1 u_{1} u1 u 2 u_{2} u2 来描述, 它们满足: 对于每一个行动对 ( a 1 , a 2 ) , u 1 ( a 1 , a 2 ) = \left(a_{1}, a_{2}\right), u_{1}\left(a_{1}, a_{2}\right)= (a1,a2),u1(a1,a2)= u 2 ( a 2 , a 1 ) u_{2}\left(a_{2}, a_{1}\right) u2(a2,a1) 成立。

定义 2.44==(对称纳什均衡)==在具有序数偏好的策略型博恋中, 每个局 中人具有相同行动集, 如果行动剖面 a ∗ a^{*} a 是一个纳什均衡, 并且对于每一个局 中人 i i i 而言 a i ∗ a_{i}^{*} ai 是相同的,那么称 a ∗ a^{*} a 是一个对称的纳什均衡。

完全信息展开型博弈:理论

展开型博弈有四个组成部分:

  1. 局中人
  2. 终端历史
  3. 局中人函数
  4. 局中人偏好

如果最长的终端历史是有限的,那么我们称这个博弈是有限范畴

定义 5.2==(具有完全信息的展开型博弈)== 一个具有完全信息的展开型博弈由以下要素组成:

  • 局中人集合
  • 序列(终端历史)集合, 它们具有以下性质: 没有一个序列是其他任意 序列的真历史
  • 函数 (局中人函数), 给每一个序列指派局中人, 而这些序列是一些终 端历史的真子历史
  • 对于每一个局中人, 有关于终端历史集的偏好
    终端历史集是所有可能发生的行动序列的集合; 由局中人函数指派到 历史 h h h 的局中人是在 h h h 之后采取行动的局中人。

后退归纳法

定义 5.6==(策略)== 在完全信息展开型博弈中,局中人 i i i 的策略是关于每 一个历史 h h h 的函数, 在这个历史 h h h 之后, 轮到局中人 i i i [即 P ( h ) = i P(h)=i P(h)=i, 其中, P P P 是局中人函数]行动, 这个函数对 h h h 指派 A ( h ) A(h) A(h) (在 h h h 之后可使用的行动集)中 的一个行动。

一般的,根据这些行动在博弈中发生的顺序书写,如果这些行动是在同一个“阶段”可选择,那么从左到右书写;在行动列表表意不清楚时,清晰的给出每个行动相应的历史,在这个历史之后采取行动。

定义要求任何一个局中人i的策略对每一个轮到她在此之后采取行动的历史详细地指定行动,即使是策略执行过程中那些没有发生的历史也是这样。

image-20211229123033617

策略剖面确定了发生的终端历史。记策略剖面为 s , P s, P s,P 为局中人函数。博弈起始时, 局中人 P ( ∅ ) P(\varnothing) P() 行动, 她的策略为 s P ( ∅ ) s_{P(\varnothing)} sP(), 并且选择行动 ( ∅ ) (\varnothing) (), 这个行动记为 a 1 a^{1} a1 。如果历史 a 1 a^{1} a1 不是终端,接下来局中人 P ( a 1 ) P\left(a^{1}\right) P(a1) 采她的策略是 s P ( a 1 ) s_{P\left(a^{1}\right)} sP(a1), 且选择行动 s P ( a 1 ) ( a 1 ) s_{P\left(a^{1}\right)}\left(a^{1}\right) sP(a1)(a1), 这个行动记为 a 2 a^{2} a2 。如策略指定了她选择的行动。继续这个过程直到构建了终端历史为止。
把这个终端历史称为 s s s 的结局,并把它记为 O ( s ) O(s) O(s)
例图 5.4 5.4 5.4 的博弈中, “策略对” ( D G , E ) (D G, E) (DG,E) 的结局是终端历史 D D D, ( C H , E ) (CH,E) (CH,E)的结局终端历史 ( C , E , H ) (C,E,H) (C,E,H)

定义 5.8 5.8 5.8(完全信息展开型博弈的纳什均衡) 在完全信息展开型博弈 中,策略剖面 s ∗ s^{*} s 是纳什均衡, 应该满足以下条件: 对于每一个局中人 i i i 和局 中人 i i i 的每一个策略 r i r_{i} ri, 按照局中人 i i i 的偏好, 由 s ∗ s^{*} s 产生的终端历史 O ( s ∗ ) O\left(s^{*}\right) O(s) 至少如同由局中人 i i i 选择 r i r_{i} ri 而其他局中人 j j j 选择 s j ∗ s_{j}^{*} sj 的策略剖面 ( r i , s − i ∗ ) \left(r_{i}, s_{-i}^{*}\right) (ri,si) 所 产生的终端历史 O ( r i , s − i ∗ ) O\left(r_{i}, s_{-i}^{*}\right) O(ri,si) 一样好。等价地, 对于每一个局中人 i i i, 有:
u i ( O ( s ∗ ) ) ⩾ u i ( O ( r i , s − i ∗ ) ) u_{i}\left(O\left(s^{*}\right)\right) \geqslant u_{i}\left(O\left(r_{i}, s_{-i}^{*}\right)\right) ui(O(s))ui(O(ri,si))
对局中人 i i i 的每个策略 r i r_{i} ri 都成立,其中, u u u : 是描述局中人 i i i 偏好的盈利函数, O O O 是博弈的结局函数。

定义 5.12==(完全信息展开型博弈的子博弈)== 令 Γ \Gamma Γ 是具有完全信息的展 开型博弈, 局中人函数为 P P P 。对于 Γ \Gamma Γ 中的任意非终端历史 h h h, 跟随在历史 h h h 之后的子博弈 Γ ( h ) \Gamma(h) Γ(h) 是如下的展开型博弈:

局中人 Γ \Gamma Γ 中的局中人。
终端历史 所有使得 ( h , h ′ ) \left(h, h^{\prime}\right) (h,h) Γ \Gamma Γ 的终端历史的行动序列 h ′ h^{\prime} h 的集合。
局中人函数 局中人 P ( h , h ′ ) P\left(h, h^{\prime}\right) P(h,h) 被指派到终端历史的每一个真子历史 h ′ h^{\prime} h
偏好 每个局中人喜欢 h ′ h^{\prime} h 甚于 h ′ ′ h^{\prime \prime} h, 当且仅当她在 Γ \Gamma Γ 中喜欢 ( h , h ′ ) \left(h, h^{\prime}\right) (h,h) 甚于 ( h , h ′ ′ ) \left(h, h^{\prime \prime}\right) (h,h)

定义 5.14==(完全信息展开型博弈的子博亦完美均衡)== 在具有完全信息 的展开型博弈中的策略剖面 s ∗ s^{*} s 是子博弈完美均衡, 需要满足下述条件: 对于 每一个局中人 i i i 、每一个历史 h [ h h[h h[h 之后轮到局中人 i i i 行动, 即 P ( h ) = i ] P(h)=i] P(h)=i], 以及 局中人 i i i 的每一个策略 r i r_{i} ri, 按照局中人 i i i 的偏好, 历史 h h h 之后由 s ∗ s^{*} s 产生的终 㟨历史 O h ( s ∗ ) O_{h}\left(s^{*}\right) Oh(s) 至少如同由策略剖面 ( r i , s − i ∗ ) \left(r_{i}, s_{-i}^{*}\right) (ri,si) (其中局中人 i i i 选择 r i r_{i} ri 而其他每 个局中人选择 s j ∗ s_{j}^{*} sj ) 产生的终端历史 O h ( r i , s − i ∗ ) O_{h}\left(r_{i}, s_{-i}^{*}\right) Oh(ri,si) 一样好。等价地, 对于每一个 司中人 i i i 和每一个历史 h h h ( h h h 之后轮到局中人 i i i 行动), 有:
u i ( O h ( s ∗ ) ) ⩾ u i ( O h ( r i , s − i ∗ ) )    对 局 中 人 i 的 每 一 个 策 略 r i 都 成 立 u_{i}\left(O_{h}\left(s^{*}\right)\right) \geqslant u_{i}\left(O_{h}\left(r_{i}, s_{-i}^{*}\right)\right) ~~对局中人i的每一个策略 r_{i} 都成立 ui(Oh(s))ui(Oh(ri,si))  iri

求有限范畴博弈的子博弈完美均衡:后退归纳法

每一个具有完全信息的有限展开型博弈有子博弈完美均衡

完全信息展开型博弈:例证

最后通牒博弈:

分c美元,每个人只在意自己可以拿多少钱,如果2不接受那么没人可以拿到东西

  • 具有公平意识

双寡头垄断的斯塔克伯格模型

  • 局中人 两家厂商。
  • 终端历史 厂商所有产量序列 ( q 1 , q 2 ) \left(q_{1}, q_{2}\right) (q1,q2) 的集合 (其中, 每家厂商 i i i 的产量 q i q_{i} qi 是非负数)。
  • 局中人函数 P ( ∅ ) = 1 P(\varnothing)=1 P()=1, 并且对所有的 q 1 q_{1} q1, 有 P ( q 1 ) = 2 P\left(q_{1}\right)=2 P(q1)=2
  • 偏好 厂商 i i i 关于终端历史 ( q 1 , q 2 ) \left(q_{1}, q_{2}\right) (q1,q2) 的盈利是它的利润 q i P d ( q 1 + q 2 ) − c i ( q i ) ( i = 1 , 2 ) q_{i} P_{d}\left(q_{1}+q_{2}\right)-c_{i}\left(q_{i}\right)(i=1,2) qiPd(q1+q2)ci(qi)(i=1,2)

柏德川模型和古诺模型

完全信息展开型博弈:延伸与讨论

考虑同时行动

定义 7.1 7.1 7.1 具有完全信息并且同时行动的展开型博奕由以下因素组成:

  • 局中人集合

  • (终端历史) 序列集合, 具有性质: 没有一个序列是其他任何序列的真子历史

  • 一个(局中人)函数, 指派局中人集合到某个终端历史的真子历史的每 个序列

  • 对应于每个终端历史的真子历史 h h h 和局中人集合中由局中人函数指 派到 h h h 的每个局中人 i i i, 有一组 A i ( h ) A_{i}(h) Ai(h) (在历史 h h h 之后局中人 i i i 可使用的行动集)

  • 对于每个局中人,在终端历史集合上的偏好

定义 7.3==(完全信息并且同时行动的展开型博亰中的策略)== 在完全信息并且同时行动的展开型博弈中, 局中人 i i i 的策略是指派到每个历史 h h h 的函 数, i i i 是在历史 h h h 之后轮到行动的局中人之一 [即, i i i P ( h ) P(h) P(h) 的一个成员, 这 里 P P P 是博弈的局中人函数], 这个函数指定了局中人 i i i 采取 A i ( h ) A_{i}(h) Ai(h) (在历史 h h h 之后局中人 i i i 可使用的行动集)中的某一个行动。

重复博弈:囚徒困境

“冷酷触发策略” (the grim trigger strategy):

  • 只要另一个局中人选择 C C C, 就一直选择 C C C
  • 如果在任何周期中,另一个局中人选择 D D D, 那么在以后的每一个周期 都选择 D D D

定义 14. 2==(重复博弈)== 设 G G G 是一个策略型博弈。局中人集合记为 N N N, 每个局中人 i i i 的行动集和盈利函数分别为 A i A_{i} Ai u i u_{i} ui 。对于贴现因子 δ , G \delta, G δ,G T \mathbf{T} T 周期重复博奕是具有完全信息和同时行动的展开型博恋,其中:

  • 局中人集合是 N N N
  • 终端历史集是 G G G 中的行动剖面序列 ( a 1 , a 2 , ⋯   , a T ) \left(a^{1}, a^{2}, \cdots, a^{\mathrm{T}}\right) (a1,a2,,aT) 的集合
  • 局中人函数将所有局中人的集合指派到每一个历史 ( a 1 , ⋯   , a t ) \left(a^{1}, \cdots, a^{t}\right) (a1,,at) (对于 每一个 t t t
  • 任何历史之后的任何局中人 i i i 的可使用行动集是 A i A_{i} Ai
  • 对于每个终端历史 ( a 1 , a 2 , ⋯   , a T ) \left(a^{1}, a^{2}, \cdots, a^{T}\right) (a1,a2,,aT), 每个局中人 i i i 根据她的贴现平均 值 ( 1 − δ ) ∑ 1 − 1 T δ t − 1 u i ( a t ) (1-\delta) \sum_{1-1}^{T} \delta^{t-1} u_{i}\left(a^{t}\right) (1δ)11Tδt1ui(at) 评估该终端历史。

针锋相对策略,选择上一轮对方选择的策略

有限惩罚,收到k个周期的惩罚,然后重新开始。

重复博弈:一般结果

定义 15. 1 (策略型博弈的最小最大盈利) 在策略型博恋中,局中人 i i i 的最小最大盈利是:
min ⁡ a − i ∈ A − i ( max ⁡ a i ∈ A i u i ( a i , a − i ) ) \min _{a_{-i} \in A_{-i}}\left(\max _{a_{i} \in A_{i}} u_{i}\left(a_{i}, a_{-i}\right)\right) aiAimin(aiAimaxui(ai,ai))
这里, 对于每个局中人 j , A j j, A_{j} j,Aj j j j 的行动集, u j u_{j} uj 是她的盈利函数。

贝叶斯博弈

贝叶斯博弈包括:

  • 局中人集合

  • 状态集合

    和对于每个局中人, 有:

  • 行动集吕

  • 她可能接收到的信号集, 和一个将信号与状态联系起来的“信号函数”

  • 对于她可能收到的每个信号, 存在一个状态与信号相容的信念(即存在一个与信号相关联的状态集合上的概率分布)

  • ( a , ω ) (a, \omega) (a,ω) 上的伯努利盈利函数,其中, a a a 是一个行动剖面, ω \omega ω 是一个状态,它的期望值描述了局中人关于这些 ( a , ω ) (a, \omega) (a,ω) 的随机偏好

局中人 两个人。
状态 状态集是 { \{ { 相遇, 回避 } \} }
行动 每个局中人的行动集是 { B , S } \{B, S\} {B,S}
信号 局中人 1 可能收到一个信号, 如 z z z; 其信号函数 τ 1 \tau_{1} τ1 满足 τ 1 \tau_{1} τ1 (相 遇 ) = τ 1 )=\tau_{1} )=τ1 (回避) = z =z =z 。局中人 2 收到 m m m v v v 两个信号中的一个; 其 信号函数 τ 2 \tau_{2} τ2 满足 τ 2 \tau_{2} τ2 (相遇) = m , τ 2 =m, \tau_{2} =m,τ2 (回避) = v 。  =v_{\text {。 }} =v 
信念 局中人 1 在收到信号 z z z 后,分别指派概率 1 2 \frac{1}{2} 21 到每个状态。局中人2 在收到信号 m m m 后,指派概率 1 到状态“相遇”; 在收到信号 v v v 后, 指派概率 1 到状态“回避”。
盈利 每个局中人 i i i 关于所有可能的行动组合的盈利 u i ( a u_{i}(a ui(a, 相遇 ) ) ) 在图 9.1 9.1 9.1 的左表中给出,而盈利 u i ( a u_{i}(a ui(a ,回避 ) ) ) 在其右表中显示。

不完全信息展开型博弈

定义 10.1==(展开型博弈)== (具有不完全信息和随机行动的)展开型博弈包含:

  • 局中人集合
  • 具有如下性质的 (终端历史的)序列集: 没有一个序列是任何其他序列 的真子历史
  • 局中人函数: 它将局中人或者“机会”指派给某些终端历史的真子历史 的每一个序列
  • 对于局中人函数指派给“机会”的每个历史, 有一个函数对这个历史之 后的可选择行动指派一个概率分布。它具有如下性质: 每一个这样的概率 分布独立于每一个其他的分布
  • 对于每个局中人, 由局中人函数指派给这个局中人有关历史集合的划 分(局中人的信息划分),使得对于在划分的任何给定成员中的每一个历史, 可使用的行动集 A ( h ) A(h) A(h) 是一样的
  • 对于每个局中人, 有终端历史的随机结局集合上的偏好

定义 10.6==(展开型博奕的策略)== 在展开型博恋中, 局中人 i i i 的一个 (纯)策略是这样的一个函数,它对局中人 i i i 的每一个信息集 I i I_{i} Ii 指派一个 A ( I i ) A\left(I_{i}\right) A(Ii) (局中人 i i i 在信息集 I i I_{i} Ii 中可选择的行动集)中的行动。

定义 10.9 10.9 10.9 ==(展开型博弈的纳什均衡)==展开型博弈的混合策略剖面 α ∗ \alpha^{*} α 如果满足下述条件, 则称为 (混合策略) 纳什均衡: 对于每一个局中人 i i i 和局 中人 i i i 的每一个混合策略 α i \alpha_{i} αi, 局中人 i i i 关于 α ∗ \alpha^{*} α 的期望盈利至少与关于 ( α i , \left(\alpha_{i},\right. (αi,, α − i ∗ \alpha_{-i}^{*} αi ) 的期望盈利一样大。这里的盈利函数期望值描述了局中人 i i i 对随机结 局的偏好。

分离均衡 (Separating equilibrium) 每种类型的发送者选择不同的行 动(在例题中的第一类均衡里, 强挑战者选择“准备”, 弱挑战者选择“无准备"), 因此根据观察到发送者的行动, 接收者知道发送者的类型。
混同均衡 (Pooling equilibrium) 所有类型的发送者选择相同的行动

半分离均衡

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值