[复杂网络博弈] 第一章 博弈论基础

  复杂网络是21世纪的新兴学科, 演化博弈论是现阶段博弈科学研究的范式. 演化博弈摒弃了传统博弈论中的完全理性和完全信息假设, 从系统动态的角度考察个体决策到群体决策的形成机制. 目前, 对复杂网络上的演化博弈论研究可以归纳为两个方面:

  1. 从个体出发, 研究群体层面的决策选择机制. 即个体之间的交互关系网络和决策动力学进行建模和分析, 定量研究并预测网络群体的博弈动力学行为;
  2. 从群体需求出发, 研究个体层面的干预调控机制. 即根据群体策略要求, 设计个体之间的交互机制, 或者对个体的决策动力学进行干预, 是的网络群体的整体行为能够达到预期设定的要求.

  博弈论 (Game theory) 是要研究多个自主性个体在利益相关情形下的决策行为的理论. 本文主要对复杂网络理论中涉及的博弈论基础进行整理. 本文主要包含3个方面的内容: 第一, 博弈论的标准模型; 第二, 博弈解的概念及其相关定理; 第三, 博弈学习动力学的基本内容.

1. 博弈基础

1.1 博弈的表示形式

  一个博弈模型通常有3个基本要素组成:

  1. 决策个体集合 (player set);
  2. 每个决策者所能采取的策略集合 (strategy set);
  3. 每个决策者的收益函数 (payoff function), 也称 “策略函数 (utility function)” .

根据以上三个要素, 可以给出 “策略博弈” 的概念.

  定义1-1 (策略博弈) 博弈是一个三元组 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 其中, V = { v 1 , v 2 , . . . , v n } \mathcal{V}=\{v_1, v_2, ...,v_n\} V={v1,v2,...,vn} 为决策个体集合, S i \mathcal{S}_i Si 为个体 v i ∈ V v_i \in \mathcal{V} viV 的策略集合, U i : ∏ v j ∈ V S j → R U_i: \prod_{v_j\in\mathcal V}\mathcal{S}_j\rightarrow\mathcal R Ui:vjVSjR 是个体 v i ∈ V v_i \in \mathcal{V} viV 的收益函数.

  定义1-2 (对称博弈) s i ∈ S i s_i \in \mathcal S _i siSi 表示个体 v i ∈ V v_i \in \mathcal{V} viV 的策略, 令 π \pi π 表示对个体编号的任意一个变换, 如果个体收益满足
U i ( s 1 , s 2 , . . . , s n ) = U π ( i ) ( s π ( 1 ) , s π ( 2 ) , . . . , s π ( n ) ) , (1.1) U_i (s_1, s_2,...,s_n) = U_{\pi(i)}(s_{\pi(1)}, s_{\pi(2)}, ..., s_{\pi(n)}), \tag{1.1} Ui(s1,s2,...,sn)=Uπ(i)(sπ(1),sπ(2),...,sπ(n)),(1.1)则称这个博弈为 “对称博弈”. 对称博弈的含义是, 一个策略所产生的收益仅取决于与它交互的其他策略, 而与使用这个策略的个体本身无关.

  在策略博弈的收益表示中, 有限策略博弈常用收益矩阵或收益表格表示, 连续策略博弈常用收益函数来刻画. 有限策略博弈的典型例子包括囚徒困境博弈 (prisoner’s dilemma game) , 公共物品博弈 (public goods game) 和志愿者困境博弈 (volunteer’s dilemma game). 连续策略博弈的典型例子包括多个体一致性博弈.

1.2 纯策略与混合策略

  博弈论中, 将个体策略区分为纯策略 (pure strategy) 与混合策略 (mixed strategy) 两种类型.

  定义1-3 (纯策略) 指个体只能从其策略集合中选择一种特定策略的方式.
  定义1-4 (混合策略) 指个体给其策略集合中的每一个策略赋予一定的概率, 同时依照概率分布随机选择一种策略的方式.

  令 Δ i \Delta_i Δi 表示个体 v i ∈ V v_i \in \mathcal{V} viV 的混合策略的集合, 令 x i ∈ Δ i x_i \in \Delta_i xiΔi 表示个体 v i v_i vi 的策略, 令
x − i = ( x 1 , . . . , x i − 1 , x i + 1 , . . . , x n ) x_{-i}=\left(x_1, ..., x_{i-1}, x_{i+1}, ..., x_n\right) xi=(x1,...,xi1,xi+1,...,xn)表示除个体 v i v_i vi 外其他所有个体的策略组合, 那么
x = ( x i , x − i ) ∈ Δ = Δ 1 × Δ 2 × ⋯ × Δ n x=(x_i, x_{-i})\in\Delta=\Delta_1 \times \Delta_2 \times \cdots \times \Delta_n x=(xi,xi)Δ=Δ1×Δ2××Δn 表示所有个体的策略组合. 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left(\mathcal V, \{\mathcal S _i | v_i \in \mathcal V\}, \{U_i | v_i \in \mathcal V\}\right) Γ=(V,{SiviV},{UiviV}). 将策略集合从 S = S 1 × S 2 × ⋯ × S n S=S_1\times S_2 \times \cdots \times S_n S=S1×S2××Sn 拓展到混合策略集合 Δ \Delta Δ 上, 得到从博弈 Γ \Gamma Γ 派生出来的混合扩展博弈.

  定义1-5 (博弈的混合扩展) 博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}) 的混合扩展是指有它派生出的博弈 Γ = ( V , { Δ i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{ΔiviV},{UiviV}), 其中 Δ i \Delta_i Δi 表示个体 v i ∈ V v_i \in \mathcal{V} viV 的混合策略集合 S i \mathcal S _i Si 中元素的概率分布集合, 收益函数 U i : ∏ v j ∈ V Δ j → R U_i: \prod_{v_j\in\mathcal V}\Delta_j \rightarrow \mathcal R Ui:vjVΔjR 是由混合策略有道德所有纯策略组合对应收益的期望值. 具体地, 对于混合策略 x = ( x 1 , x 2 , . . . , x n ) ∈ Δ x=(x_1, x_2, ...,x_n)\in \Delta x=(x1,x2,...,xn)Δ, 每个个体 v i ∈ V v_i \in \mathcal V viV 的收益为
U i ( x ) = ∑ s ∈ S ( ∏ v j ∈ V x j ( s j ) ) U ( s ) , (1.2) U_i(x) = \sum_{s\in\mathcal S}( \prod_{v_j \in \mathcal V} x_j(s_j))U(s), \tag{1.2} Ui(x)=sS(vjVxj(sj))U(s),(1.2) 其中 s = ( s 1 , s 2 , . . . , s n ) , x j ( s j ) s=(s_1, s_2, ..., s_n), x_j(s_j) s=(s1,s2,...,sn),xj(sj) 是指个体 v j v_j vj 选择策略 s j s_j sj 的概率.

2. 博弈解

  在阐述博弈解前, 先说明博弈解的研究点, 主要有四个问题:

  1. 哪些策略会被选择?
  2. 哪些策略应该避免?
  3. 参与个体的策略是否会收敛?
  4. 如果收敛, 处于平衡点的策略组合是否稳定?

在策略博弈的研究过程中, 理性 (rational) 是一个经典假设, 在表示个体如果总是采取其收益最大化的策略, 则可以理解其为理性的. 同时, 在对策的研究环境中, “理性” 是博弈过程中的公共知识 (common knowledge), 即假设所有个体均知道其他个体是理性, 而且相互知道对方知道所有个体都是理性的. 在这一前提下, 可以产生多种博弈解的概念, 同时这些解也作为不完全理性或非理性情境下个体决策行为的参考. 下面就阐述两种基本的策略及其均衡: 占优策略均衡与纳什均衡.

2.1 占优策略均衡

  定义1-6 (占优策略, dominant strategt) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 一个策略 s i ∈ S i s_i \in \mathcal S _i siSi 称为个体 v i v_i vi 的占优策略, 如果
U i ( s i , s − i ) ≥ U i ( s i ′ , s − i ) (1.3) U_i(s_i, s_{-i})\ge U_i(s_i', s_{-i}) \tag{1.3} Ui(si,si)Ui(si,si)(1.3) 对所有 s i ′ ∈ S i s_i' \in \mathcal S _i siSi s − i ∈ S − i s_{-i} \in \mathcal S _{-i} siSi 均成立. 如果上式对除 s i ′ = s i s_i'=s_i si=si 的所有其他策略严格成立, 则称 s i s_i si 为个体 v i v_i vi 的严格占优策略 (strictly dominant strategy).

  与占优策略相反的策略, 被称为 “劣势策略”.

  定义1-7 (劣势策略, dominated strategy) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 一个策略 s i ∈ S i s_i \in \mathcal S _i siSi 称为个体 v i v_i vi 的占优策略, 如果
U i ( s i , s − i ) ≤ U i ( s i ′ , s − i ) (1.4) U_i(s_i, s_{-i})\le U_i(s_i', s_{-i}) \tag{1.4} Ui(si,si)Ui(si,si)(1.4) 对所有 s i ′ ∈ S i s_i' \in \mathcal S _i siSi s − i ∈ S − i s_{-i} \in \mathcal S _{-i} siSi 均成立. 如果上式对除 s i ′ = s i s_i'=s_i si=si 的所有其他策略严格成立, 则称 s i s_i si 为个体 v i v_i vi 的严格劣势策略 (strictly dominated strategy).

  定义1-8 占优策略均衡 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 一个策略组合 s ∗ = ( s 1 ∗ , s 2 ∗ , . . . , s n ∗ ) s^*=(s^*_1,s^*_2,...,s^*_n) s=(s1,s2,...,sn) 称为 (严格) 占优策略均衡点, 如果对每个个体的策略 s i ∗ ∈ S i s^*_i \in \mathcal S_i siSi 是一个 (严格) 占优策略.

  但是实际博弈过程中, 占优策略均衡常常是不存在的, 因此用其来分析个体在博弈中的决策行为具有很大局限性. 占优策略要求每一个体策略都是对其所有的解都最优, 如果把条件放的宽松, 对于特定的某个解, 在这一解中, 任何个体采取其他策略都不会获得更大的收益, 这时获得一种更宽松也更常见的均衡 —— 纳什均衡.

2.2 纳什均衡

  纳什均衡 (Nash equilibrium) 是一种特殊的策略组合: 当玩家个体采取这样一种策略组合时, 如果其他个体不改变策略, 任何个体都无法通过单方面改变自身策略获得更高收益. 因此, 这样的解是一个稳定的策略组合.

  定义1-9 (纯策略纳什均衡) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 一个策略组合 s ∗ = ( s 1 ∗ , s 2 ∗ , . . . , s n ∗ ) s^*=(s^*_1,s^*_2,...,s^*_n) s=(s1,s2,...,sn) 称为纯策略纳什均衡当且仅当
U i ( s i ∗ , s − i ∗ ) ≥ U i ( s i ′ , s − i ∗ ) (1.5) U_i(s_i^*, s^*_{-i})\ge U_i(s_i', s^*_{-i}) \tag{1.5} Ui(si,si)Ui(si,si)(1.5) 对所有 s i ′ ∈ S i s'_i \in \mathcal S _i siSi v i ∈ V v_i \in \mathcal V viV 都成立. 如果上式严格成立, 则称 s ∗ s^* s 为严格纳什均衡.

  定义1-10 (混合策略纳什均衡) 对于博弈 Γ = ( V , { Δ i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{ΔiviV},{UiviV}), 一个策略组合 x ∗ = ( x 1 ∗ , x 2 ∗ , . . . , x n ∗ ) x^*=(x^*_1,x^*_2,...,x^*_n) x=(x1,x2,...,xn) 称为混合策略纳什均衡当且仅当
U i ( x i ∗ , x − i ∗ ) ≥ U i ( x i ′ , x − i ∗ ) (1.6) U_i(x_i^*, x^*_{-i})\ge U_i(x_i', x^*_{-i}) \tag{1.6} Ui(xi,xi)Ui(xi,xi)(1.6) 对所有 x i ′ ∈ Δ i x'_i \in \Delta _i xiΔi v i ∈ V v_i \in \mathcal V viV 都成立. 如果上式严格成立, 则称 x ∗ x^* x 为严格混合策略纳什均衡.

  纳什均衡可以通过最优响应策略 (best-response strategy) 的形式来定义. 首先给出最优响应策略定理.

  定义1-11 (最优响应策略) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 每个个体 v i ∈ V v_i \in \mathcal V viV 的最优响应策略是一个集值映射 B i ( s − i ) : S − i → S i \mathcal B _i(s_{-i}) : \mathcal S_{-i} \rightarrow \mathcal S_{i} Bi(si):SiSi,
B i ( s − i ) = { s i ∗ ∣ s i ∗ ∈ arg ⁡ max ⁡ s i ∈ S i U i ( s i , s − i ) } . (1.7) \mathcal B_i (s_{-i})=\{ s_i^*|s_i^*\in \arg \max_{s_i\in \mathcal S_i} U_i(s_i, s_{-i}) \}. \tag{1.7} Bi(si)={sisiargsiSimaxUi(si,si)}.(1.7)
最优响应策略的意义为, 给定其他个体的策略, 一个个体的最优响应是指这个个体收益最大化的策略集合. 纳什均衡是每个个体策略关于其他个体策略组合的最优响应策略, 即纳什均衡是上诉最优响应函数的不动点.

  纳什均衡点的存在性证明是博弈论的一个核心问题. 下面介绍纳什均衡的相关成果.

  定理1-1 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 策略组合 s ∗ s^* s 是一个纳什均衡, 当且仅当 s i ∗ ∈ B i ( s − i ∗ ) s^*_i \in \mathcal B_i (s^*_{-i}) siBi(si) 对所有个体 v i ∈ V v_i \in \mathcal V viV 成立.

  定理1-2 任何有限策略博弈都具有至少一个混合策略纳什均衡点. (注意, 该定理只保证混合策略纳什均衡存在, 而纯策略纳什均衡未必存在.)

  定理1-3 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 如果每个个体的策略集合 S i \mathcal S_i Si 是欧式空间中一个非空闭凸集, 且每个个体的收益函数 U i U_i Ui 是关于 S i \mathcal S_i Si 的连续拟凹函数, 那么这个博弈具有一个纯策略纳什均衡点.

  在工程中, 还存在一种常见的博弈 —— 势博弈 (potential game), 其一定存在纯策略纳什均衡点, 且纳什均衡点对应的势博弈势函数的最大值点.

  定义1-12 (势博弈) 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 如果存在一个势函数 ϕ : S → R \phi : \mathcal S \rightarrow \mathbb R ϕ:SR, 使得
U i ( s i , s − i ) − U i ( s i ′ , s − i ) = ϕ ( s i , s − i ) − ϕ ( s i ′ , s − i ) (1.8) U_i(s_i, s_{-i}) - U_i(s_i', s_{-i}) = \phi (s_i, s_{-i}) - \phi (s_i', s_{-i}) \tag{1.8} Ui(si,si)Ui(si,si)=ϕ(si,si)ϕ(si,si)(1.8) 对所有 s i , s i ′ ∈ S i , s − i ∈ S − i s_i, s_i' \in \mathcal S _i, s_{-i} \in \mathcal S _{-i} si,siSi,siSi v i ∈ V v_i\in \mathcal V viV 均成立, 那么称这个博弈为势博弈.

  定理1-4 对于一个势函数为 ϕ : S → R \phi:\mathcal S\rightarrow \mathbb R ϕ:SR 的势博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 令 s ∗ = arg ⁡ max ⁡ s ∈ S ϕ ( s ) , (1.9) s^*=\arg\max_{s\in \mathcal S} \phi(s), \tag{1.9} s=argsSmaxϕ(s),(1.9) 那么 s ∗ s^* s 是博弈 Γ \Gamma Γ 的一个纯策略纳什均衡点.

3. 博弈学习动力学简介

3.1 博弈学习框架

  在很多博弈过程中, 参与个体如何根据所获得的关于博弈及其他个体策略和收益等信息, 不断调整自身策略, 使得最终更大刀那是均衡点. 这个问题就是博弈学习 (Game Learning) 理论所研究的对象.

图1.1 博弈学习框架示意图

  博弈学习的框架如图所示. 具体地, 考虑一个离散时间的重复博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}). 在每个时间步 t t t, 每个个体 v i ∈ V v_i \in \mathcal V viV 根据当前自身的策略 s i ( t ) ∈ S i s_i(t) \in \mathcal S_i si(t)Si 以及其他个体的策略在博弈中获得收益 π i ( t ) = U i ( s ( t ) ) \pi_i(t)=U_i(s(t)) πi(t)=Ui(s(t)), 其中 s ( t ) = ( s 1 ( t ) , s 2 ( t ) , . . . , s n ( t ) ) ∈ S s(t) = (s_1(t),s_2(t),...,s_n(t)) \in \mathcal S s(t)=(s1(t),s2(t),...,sn(t))S 是指所有个体 t t t 时刻的策略组合.

  一般形式的学习规则可以如下表述:
s i ( t + 1 ) = H ( ∏ k = 0 t s ( k ) ;   ∏ k = 0 t s − i ( k ) ; U i ) . (1.10) s_i(t+1)=\mathcal{H}\left( \prod_{k=0}^t{s\left( k \right)};\ \prod_{k=0}^t{s_{-i} \left( k \right)} ; U_i\right) . \tag{1.10} si(t+1)=H(k=0ts(k); k=0tsi(k);Ui).(1.10) 从形式上看, 每个个体使用包括自身和其他个体所有历史策略信息和收益信息, 这要求每个个体都具有 “无限记忆能力”. 但更常见的场景为一步记忆, 在这种情况下, 式 ( 1.10 ) (1.10) (1.10) 的学习规则应更改为
s i ( t + 1 ) = H ( s ( k ) ;   s − i ( k ) ; U i ) . (1.11) s_i(t+1)=\mathcal{H}\left( s\left( k \right);\ s_{-i} \left( k \right) ; U_i\right) . \tag{1.11} si(t+1)=H(s(k); si(k);Ui).(1.11)

  根据个体的更新策略的时序, 可以分为以下几类学习:

  1. 同步学习 (synchronous learning): 在每个时刻 t t t, 所有个体依据对应的学习规则, 同时更新自身策略.
  2. 异步学习 (asynchronous learning): 在每个时刻 t t t, 只有一部分个体依据对应的学习规则更新自身策略, 其他个体保持原有策略不便.
  3. 顺序学习 (sequential learning): 个体依照制定的次序依次更新自己的策略. 在每个时刻 t t t, 只有一个个体更新自身策略, 其他个体保持原来策略不变.
  4. 随机时序学习学习 (random-timing learning): 在每个时刻 t t t, 按照一定的概率 q i ∈ ( 0 , 1 ) q_i \in (0,1) qi(0,1) 选择一个个体 v i ∈ V v_i \in \mathcal V viV 更新自身策略, 其中 ∑ v i ∈ V q i = 1 \sum_{v_i \in \mathcal V}q_i =1 viVqi=1.

  博弈学习有几种常见的动力学形式, 包括最优响应动力学 (best-response dynamics), 择优响应动力学 (better-response dynamics), 增强学习 (reinforcement learning), 试错学习 (trial-and-error learning), 虚拟学习 (fictitious learning)等.

3.2 最优响应动力学

  一个个体 v i ∈ V v_i \in \mathcal V viV 的最优响应策略是一个集值映射 B R i ( s − i ) : S − i → S i \mathcal{BR}_i(s_{-i}): \mathcal S_{-i} \rightarrow \mathcal S_i BRi(si):SiSi, 其中
B R i ( s − i ) = { s i ∗ ∣ s i ∗ ∈ arg ⁡ max ⁡ s i ∈ S i U i ( s i , s − i ) } . (1.12) \mathcal{BR}_i(s_{-i})=\{s^*_i | s^*_i \in \arg\max_{s_i \in \mathcal S_i}U_i(s_i, s_{-i})\}. \tag{1.12} BRi(si)={sisiargsiSimaxUi(si,si)}.(1.12)

  所谓离散时间最优响应动力学定义如下:
s i ( t + 1 ) = B R i ( s − i ( t ) ) . (1.13) s_i(t+1) = \mathcal{BR}_i(s_{-i}(t)). \tag{1.13} si(t+1)=BRi(si(t)).(1.13) 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其最优响应策略中任意选择一个策略, 作为下一步策略.

  最优响应动力学有如下局限性:

  1. 个体需要获取其他所有个体的策略信息, 以及其自身收益函数的解析形式. 这一定程度上限制了最优响应动力学的实际应用.
  2. 最优响应动力学需要求解最优响应策略这一优化问题.
  3. 按照最优响应动力学, 个体每一步的策略可能会产生很大变化 (因为最优响应策略未必是连续的), 但实际上个体的变化通常在一定范围内渐变.

3.3 择优响应动力学

  最优响应动力学要求个体选择其收益最大化的策略, 这会限制该动力学的适用范围. 更宽松的, 当个体选择使用收益有所提升的策略时, 场景更加丰富, 且计算量会更小.

  给定一个博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}), 一个个体 v i ∈ V v_i \in \mathcal V viV 的择优响应策略是一个集值映射 B T i ( s − i ) : S → S i \mathcal{BT}_i(s_{-i}): \mathcal S \rightarrow \mathcal S_i BTi(si):SSi, 其中
B T i ( s ) = { s i ′ ∣ s i ′ ∈ S i , U i ( s i ′ , s − i ) > U i ( s ) } . (1.14) \mathcal{BT}_i(s)=\{s'_i | s'_i \in \mathcal S_i, U_i(s'_i, s_{-i})>U_i (s) \}. \tag{1.14} BTi(s)={sisiSi,Ui(si,si)>Ui(s)}.(1.14)

  所谓离散时间的择优响应动力学定义如下:
s i ( t + 1 ) ∈ B T i ( s ( t ) ) . (1.15) s_i (t+1)\in \mathcal{BT}_i (s(t)). \tag{1.15} si(t+1)BTi(s(t)).(1.15) 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其择优响应策略中任意选择一个策略, 作为下一步策略.

  梯度动力学是一种最常用的择优响应动力学. 给定一个博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{SiviV},{UiviV}). 假设每个个体 v i ∈ V v_i \in \mathcal V viV 的策略集 S i ∈ R \mathcal S_i \in \mathbb R SiR 是一个连续区间, 其收益函数 U i ( s i , s − i ) U_i (s_i, s_{-i}) Ui(si,si) 关于 s i s_i si 连续可微, 那么离散状态的梯度动力学定义如下:
s i ( t + 1 ) = s i ( t ) + δ ∇ i U i ( s ( t ) ) , ∀ v i ∈ V . (1.16) s_i(t+1) = s_i(t)+\delta \nabla_i U_i (s(t)), \forall v_i \in \mathcal V . \tag{1.16} si(t+1)=si(t)+δiUi(s(t)),viV.(1.16) 其中, δ > 0 \delta >0 δ>0 是一个控制步长的参数, ∇ i U i ( s ) = ∂ U i / ∂ s i \nabla_i U_i (s) =\partial{U_i} /\partial{s_i} iUi(s)=Ui/si 是收益函数 U i ( s ) U_i (s) Ui(s) 的梯度.

参考文献

[1]: 吕金虎,谭少林著. 复杂网络上的博弈及其演化动力学. 北京:高等教育出版社, 2019.02.

  • 24
    点赞
  • 58
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值