第一章 博弈论基础
复杂网络是21世纪的新兴学科, 演化博弈论是现阶段博弈科学研究的范式. 演化博弈摒弃了传统博弈论中的完全理性和完全信息假设, 从系统动态的角度考察个体决策到群体决策的形成机制. 目前, 对复杂网络上的演化博弈论研究可以归纳为两个方面:
- 从个体出发, 研究群体层面的决策选择机制. 即个体之间的交互关系网络和决策动力学进行建模和分析, 定量研究并预测网络群体的博弈动力学行为;
- 从群体需求出发, 研究个体层面的干预调控机制. 即根据群体策略要求, 设计个体之间的交互机制, 或者对个体的决策动力学进行干预, 是的网络群体的整体行为能够达到预期设定的要求.
博弈论 (Game theory) 是要研究多个自主性个体在利益相关情形下的决策行为的理论. 本文主要对复杂网络理论中涉及的博弈论基础进行整理. 本文主要包含3个方面的内容: 第一, 博弈论的标准模型; 第二, 博弈解的概念及其相关定理; 第三, 博弈学习动力学的基本内容.
1. 博弈基础
1.1 博弈的表示形式
一个博弈模型通常有3个基本要素组成:
- 决策个体集合 (player set);
- 每个决策者所能采取的策略集合 (strategy set);
- 每个决策者的收益函数 (payoff function), 也称 “策略函数 (utility function)” .
根据以上三个要素, 可以给出 “策略博弈” 的概念.
定义1-1 (策略博弈) 博弈是一个三元组 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 其中, V = { v 1 , v 2 , . . . , v n } \mathcal{V}=\{v_1, v_2, ...,v_n\} V={v1,v2,...,vn} 为决策个体集合, S i \mathcal{S}_i Si 为个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的策略集合, U i : ∏ v j ∈ V S j → R U_i: \prod_{v_j\in\mathcal V}\mathcal{S}_j\rightarrow\mathcal R Ui:∏vj∈VSj→R 是个体 v i ∈ V v_i \in \mathcal{V} vi∈V 的收益函数.
定义1-2 (对称博弈) 令
s
i
∈
S
i
s_i \in \mathcal S _i
si∈Si 表示个体
v
i
∈
V
v_i \in \mathcal{V}
vi∈V 的策略, 令
π
\pi
π 表示对个体编号的任意一个变换, 如果个体收益满足
U
i
(
s
1
,
s
2
,
.
.
.
,
s
n
)
=
U
π
(
i
)
(
s
π
(
1
)
,
s
π
(
2
)
,
.
.
.
,
s
π
(
n
)
)
,
(1.1)
U_i (s_1, s_2,...,s_n) = U_{\pi(i)}(s_{\pi(1)}, s_{\pi(2)}, ..., s_{\pi(n)}), \tag{1.1}
Ui(s1,s2,...,sn)=Uπ(i)(sπ(1),sπ(2),...,sπ(n)),(1.1)则称这个博弈为 “对称博弈”. 对称博弈的含义是, 一个策略所产生的收益仅取决于与它交互的其他策略, 而与使用这个策略的个体本身无关.
在策略博弈的收益表示中, 有限策略博弈常用收益矩阵或收益表格表示, 连续策略博弈常用收益函数来刻画. 有限策略博弈的典型例子包括囚徒困境博弈 (prisoner’s dilemma game) , 公共物品博弈 (public goods game) 和志愿者困境博弈 (volunteer’s dilemma game). 连续策略博弈的典型例子包括多个体一致性博弈.
1.2 纯策略与混合策略
博弈论中, 将个体策略区分为纯策略 (pure strategy) 与混合策略 (mixed strategy) 两种类型.
定义1-3 (纯策略) 指个体只能从其策略集合中选择一种特定策略的方式.
定义1-4 (混合策略) 指个体给其策略集合中的每一个策略赋予一定的概率, 同时依照概率分布随机选择一种策略的方式.
令
Δ
i
\Delta_i
Δi 表示个体
v
i
∈
V
v_i \in \mathcal{V}
vi∈V 的混合策略的集合, 令
x
i
∈
Δ
i
x_i \in \Delta_i
xi∈Δi 表示个体
v
i
v_i
vi 的策略, 令
x
−
i
=
(
x
1
,
.
.
.
,
x
i
−
1
,
x
i
+
1
,
.
.
.
,
x
n
)
x_{-i}=\left(x_1, ..., x_{i-1}, x_{i+1}, ..., x_n\right)
x−i=(x1,...,xi−1,xi+1,...,xn)表示除个体
v
i
v_i
vi 外其他所有个体的策略组合, 那么
x
=
(
x
i
,
x
−
i
)
∈
Δ
=
Δ
1
×
Δ
2
×
⋯
×
Δ
n
x=(x_i, x_{-i})\in\Delta=\Delta_1 \times \Delta_2 \times \cdots \times \Delta_n
x=(xi,x−i)∈Δ=Δ1×Δ2×⋯×Δn 表示所有个体的策略组合. 对于博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left(\mathcal V, \{\mathcal S _i | v_i \in \mathcal V\}, \{U_i | v_i \in \mathcal V\}\right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}). 将策略集合从
S
=
S
1
×
S
2
×
⋯
×
S
n
S=S_1\times S_2 \times \cdots \times S_n
S=S1×S2×⋯×Sn 拓展到混合策略集合
Δ
\Delta
Δ 上, 得到从博弈
Γ
\Gamma
Γ 派生出来的混合扩展博弈.
定义1-5 (博弈的混合扩展) 博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}) 的混合扩展是指有它派生出的博弈
Γ
=
(
V
,
{
Δ
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Δi∣vi∈V},{Ui∣vi∈V}), 其中
Δ
i
\Delta_i
Δi 表示个体
v
i
∈
V
v_i \in \mathcal{V}
vi∈V 的混合策略集合
S
i
\mathcal S _i
Si 中元素的概率分布集合, 收益函数
U
i
:
∏
v
j
∈
V
Δ
j
→
R
U_i: \prod_{v_j\in\mathcal V}\Delta_j \rightarrow \mathcal R
Ui:∏vj∈VΔj→R 是由混合策略有道德所有纯策略组合对应收益的期望值. 具体地, 对于混合策略
x
=
(
x
1
,
x
2
,
.
.
.
,
x
n
)
∈
Δ
x=(x_1, x_2, ...,x_n)\in \Delta
x=(x1,x2,...,xn)∈Δ, 每个个体
v
i
∈
V
v_i \in \mathcal V
vi∈V 的收益为
U
i
(
x
)
=
∑
s
∈
S
(
∏
v
j
∈
V
x
j
(
s
j
)
)
U
(
s
)
,
(1.2)
U_i(x) = \sum_{s\in\mathcal S}( \prod_{v_j \in \mathcal V} x_j(s_j))U(s), \tag{1.2}
Ui(x)=s∈S∑(vj∈V∏xj(sj))U(s),(1.2) 其中
s
=
(
s
1
,
s
2
,
.
.
.
,
s
n
)
,
x
j
(
s
j
)
s=(s_1, s_2, ..., s_n), x_j(s_j)
s=(s1,s2,...,sn),xj(sj) 是指个体
v
j
v_j
vj 选择策略
s
j
s_j
sj 的概率.
2. 博弈解
在阐述博弈解前, 先说明博弈解的研究点, 主要有四个问题:
- 哪些策略会被选择?
- 哪些策略应该避免?
- 参与个体的策略是否会收敛?
- 如果收敛, 处于平衡点的策略组合是否稳定?
在策略博弈的研究过程中, 理性 (rational) 是一个经典假设, 在表示个体如果总是采取其收益最大化的策略, 则可以理解其为理性的. 同时, 在对策的研究环境中, “理性” 是博弈过程中的公共知识 (common knowledge), 即假设所有个体均知道其他个体是理性, 而且相互知道对方知道所有个体都是理性的. 在这一前提下, 可以产生多种博弈解的概念, 同时这些解也作为不完全理性或非理性情境下个体决策行为的参考. 下面就阐述两种基本的策略及其均衡: 占优策略均衡与纳什均衡.
2.1 占优策略均衡
定义1-6 (占优策略, dominant strategt) 对于博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略
s
i
∈
S
i
s_i \in \mathcal S _i
si∈Si 称为个体
v
i
v_i
vi 的占优策略, 如果
U
i
(
s
i
,
s
−
i
)
≥
U
i
(
s
i
′
,
s
−
i
)
(1.3)
U_i(s_i, s_{-i})\ge U_i(s_i', s_{-i}) \tag{1.3}
Ui(si,s−i)≥Ui(si′,s−i)(1.3) 对所有
s
i
′
∈
S
i
s_i' \in \mathcal S _i
si′∈Si 和
s
−
i
∈
S
−
i
s_{-i} \in \mathcal S _{-i}
s−i∈S−i 均成立. 如果上式对除
s
i
′
=
s
i
s_i'=s_i
si′=si 的所有其他策略严格成立, 则称
s
i
s_i
si 为个体
v
i
v_i
vi 的严格占优策略 (strictly dominant strategy).
与占优策略相反的策略, 被称为 “劣势策略”.
定义1-7 (劣势策略, dominated strategy) 对于博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略
s
i
∈
S
i
s_i \in \mathcal S _i
si∈Si 称为个体
v
i
v_i
vi 的占优策略, 如果
U
i
(
s
i
,
s
−
i
)
≤
U
i
(
s
i
′
,
s
−
i
)
(1.4)
U_i(s_i, s_{-i})\le U_i(s_i', s_{-i}) \tag{1.4}
Ui(si,s−i)≤Ui(si′,s−i)(1.4) 对所有
s
i
′
∈
S
i
s_i' \in \mathcal S _i
si′∈Si 和
s
−
i
∈
S
−
i
s_{-i} \in \mathcal S _{-i}
s−i∈S−i 均成立. 如果上式对除
s
i
′
=
s
i
s_i'=s_i
si′=si 的所有其他策略严格成立, 则称
s
i
s_i
si 为个体
v
i
v_i
vi 的严格劣势策略 (strictly dominated strategy).
定义1-8 占优策略均衡 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略组合 s ∗ = ( s 1 ∗ , s 2 ∗ , . . . , s n ∗ ) s^*=(s^*_1,s^*_2,...,s^*_n) s∗=(s1∗,s2∗,...,sn∗) 称为 (严格) 占优策略均衡点, 如果对每个个体的策略 s i ∗ ∈ S i s^*_i \in \mathcal S_i si∗∈Si 是一个 (严格) 占优策略.
但是实际博弈过程中, 占优策略均衡常常是不存在的, 因此用其来分析个体在博弈中的决策行为具有很大局限性. 占优策略要求每一个体策略都是对其所有的解都最优, 如果把条件放的宽松, 对于特定的某个解, 在这一解中, 任何个体采取其他策略都不会获得更大的收益, 这时获得一种更宽松也更常见的均衡 —— 纳什均衡.
2.2 纳什均衡
纳什均衡 (Nash equilibrium) 是一种特殊的策略组合: 当玩家个体采取这样一种策略组合时, 如果其他个体不改变策略, 任何个体都无法通过单方面改变自身策略获得更高收益. 因此, 这样的解是一个稳定的策略组合.
定义1-9 (纯策略纳什均衡) 对于博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个策略组合
s
∗
=
(
s
1
∗
,
s
2
∗
,
.
.
.
,
s
n
∗
)
s^*=(s^*_1,s^*_2,...,s^*_n)
s∗=(s1∗,s2∗,...,sn∗) 称为纯策略纳什均衡当且仅当
U
i
(
s
i
∗
,
s
−
i
∗
)
≥
U
i
(
s
i
′
,
s
−
i
∗
)
(1.5)
U_i(s_i^*, s^*_{-i})\ge U_i(s_i', s^*_{-i}) \tag{1.5}
Ui(si∗,s−i∗)≥Ui(si′,s−i∗)(1.5) 对所有
s
i
′
∈
S
i
s'_i \in \mathcal S _i
si′∈Si 和
v
i
∈
V
v_i \in \mathcal V
vi∈V 都成立. 如果上式严格成立, 则称
s
∗
s^*
s∗ 为严格纳什均衡.
定义1-10 (混合策略纳什均衡) 对于博弈
Γ
=
(
V
,
{
Δ
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Δi∣vi∈V},{Ui∣vi∈V}), 一个策略组合
x
∗
=
(
x
1
∗
,
x
2
∗
,
.
.
.
,
x
n
∗
)
x^*=(x^*_1,x^*_2,...,x^*_n)
x∗=(x1∗,x2∗,...,xn∗) 称为混合策略纳什均衡当且仅当
U
i
(
x
i
∗
,
x
−
i
∗
)
≥
U
i
(
x
i
′
,
x
−
i
∗
)
(1.6)
U_i(x_i^*, x^*_{-i})\ge U_i(x_i', x^*_{-i}) \tag{1.6}
Ui(xi∗,x−i∗)≥Ui(xi′,x−i∗)(1.6) 对所有
x
i
′
∈
Δ
i
x'_i \in \Delta _i
xi′∈Δi 和
v
i
∈
V
v_i \in \mathcal V
vi∈V 都成立. 如果上式严格成立, 则称
x
∗
x^*
x∗ 为严格混合策略纳什均衡.
纳什均衡可以通过最优响应策略 (best-response strategy) 的形式来定义. 首先给出最优响应策略定理.
定义1-11 (最优响应策略) 对于博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 每个个体
v
i
∈
V
v_i \in \mathcal V
vi∈V 的最优响应策略是一个集值映射
B
i
(
s
−
i
)
:
S
−
i
→
S
i
\mathcal B _i(s_{-i}) : \mathcal S_{-i} \rightarrow \mathcal S_{i}
Bi(s−i):S−i→Si,
B
i
(
s
−
i
)
=
{
s
i
∗
∣
s
i
∗
∈
arg
max
s
i
∈
S
i
U
i
(
s
i
,
s
−
i
)
}
.
(1.7)
\mathcal B_i (s_{-i})=\{ s_i^*|s_i^*\in \arg \max_{s_i\in \mathcal S_i} U_i(s_i, s_{-i}) \}. \tag{1.7}
Bi(s−i)={si∗∣si∗∈argsi∈SimaxUi(si,s−i)}.(1.7)
最优响应策略的意义为, 给定其他个体的策略, 一个个体的最优响应是指这个个体收益最大化的策略集合. 纳什均衡是每个个体策略关于其他个体策略组合的最优响应策略, 即纳什均衡是上诉最优响应函数的不动点.
纳什均衡点的存在性证明是博弈论的一个核心问题. 下面介绍纳什均衡的相关成果.
定理1-1 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 策略组合 s ∗ s^* s∗ 是一个纳什均衡, 当且仅当 s i ∗ ∈ B i ( s − i ∗ ) s^*_i \in \mathcal B_i (s^*_{-i}) si∗∈Bi(s−i∗) 对所有个体 v i ∈ V v_i \in \mathcal V vi∈V 成立.
定理1-2 任何有限策略博弈都具有至少一个混合策略纳什均衡点. (注意, 该定理只保证混合策略纳什均衡存在, 而纯策略纳什均衡未必存在.)
定理1-3 对于博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 如果每个个体的策略集合 S i \mathcal S_i Si 是欧式空间中一个非空闭凸集, 且每个个体的收益函数 U i U_i Ui 是关于 S i \mathcal S_i Si 的连续拟凹函数, 那么这个博弈具有一个纯策略纳什均衡点.
在工程中, 还存在一种常见的博弈 —— 势博弈 (potential game), 其一定存在纯策略纳什均衡点, 且纳什均衡点对应的势博弈势函数的最大值点.
定义1-12 (势博弈) 对于博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 如果存在一个势函数
ϕ
:
S
→
R
\phi : \mathcal S \rightarrow \mathbb R
ϕ:S→R, 使得
U
i
(
s
i
,
s
−
i
)
−
U
i
(
s
i
′
,
s
−
i
)
=
ϕ
(
s
i
,
s
−
i
)
−
ϕ
(
s
i
′
,
s
−
i
)
(1.8)
U_i(s_i, s_{-i}) - U_i(s_i', s_{-i}) = \phi (s_i, s_{-i}) - \phi (s_i', s_{-i}) \tag{1.8}
Ui(si,s−i)−Ui(si′,s−i)=ϕ(si,s−i)−ϕ(si′,s−i)(1.8) 对所有
s
i
,
s
i
′
∈
S
i
,
s
−
i
∈
S
−
i
s_i, s_i' \in \mathcal S _i, s_{-i} \in \mathcal S _{-i}
si,si′∈Si,s−i∈S−i 和
v
i
∈
V
v_i\in \mathcal V
vi∈V 均成立, 那么称这个博弈为势博弈.
定理1-4 对于一个势函数为 ϕ : S → R \phi:\mathcal S\rightarrow \mathbb R ϕ:S→R 的势博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 令 s ∗ = arg max s ∈ S ϕ ( s ) , (1.9) s^*=\arg\max_{s\in \mathcal S} \phi(s), \tag{1.9} s∗=args∈Smaxϕ(s),(1.9) 那么 s ∗ s^* s∗ 是博弈 Γ \Gamma Γ 的一个纯策略纳什均衡点.
3. 博弈学习动力学简介
3.1 博弈学习框架
在很多博弈过程中, 参与个体如何根据所获得的关于博弈及其他个体策略和收益等信息, 不断调整自身策略, 使得最终更大刀那是均衡点. 这个问题就是博弈学习 (Game Learning) 理论所研究的对象.
博弈学习的框架如图所示. 具体地, 考虑一个离散时间的重复博弈 Γ = ( V , { S i ∣ v i ∈ V } , { U i ∣ v i ∈ V } ) \Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right) Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}). 在每个时间步 t t t, 每个个体 v i ∈ V v_i \in \mathcal V vi∈V 根据当前自身的策略 s i ( t ) ∈ S i s_i(t) \in \mathcal S_i si(t)∈Si 以及其他个体的策略在博弈中获得收益 π i ( t ) = U i ( s ( t ) ) \pi_i(t)=U_i(s(t)) πi(t)=Ui(s(t)), 其中 s ( t ) = ( s 1 ( t ) , s 2 ( t ) , . . . , s n ( t ) ) ∈ S s(t) = (s_1(t),s_2(t),...,s_n(t)) \in \mathcal S s(t)=(s1(t),s2(t),...,sn(t))∈S 是指所有个体 t t t 时刻的策略组合.
一般形式的学习规则可以如下表述:
s
i
(
t
+
1
)
=
H
(
∏
k
=
0
t
s
(
k
)
;
∏
k
=
0
t
s
−
i
(
k
)
;
U
i
)
.
(1.10)
s_i(t+1)=\mathcal{H}\left( \prod_{k=0}^t{s\left( k \right)};\ \prod_{k=0}^t{s_{-i} \left( k \right)} ; U_i\right) . \tag{1.10}
si(t+1)=H(k=0∏ts(k); k=0∏ts−i(k);Ui).(1.10) 从形式上看, 每个个体使用包括自身和其他个体所有历史策略信息和收益信息, 这要求每个个体都具有 “无限记忆能力”. 但更常见的场景为一步记忆, 在这种情况下, 式
(
1.10
)
(1.10)
(1.10) 的学习规则应更改为
s
i
(
t
+
1
)
=
H
(
s
(
k
)
;
s
−
i
(
k
)
;
U
i
)
.
(1.11)
s_i(t+1)=\mathcal{H}\left( s\left( k \right);\ s_{-i} \left( k \right) ; U_i\right) . \tag{1.11}
si(t+1)=H(s(k); s−i(k);Ui).(1.11)
根据个体的更新策略的时序, 可以分为以下几类学习:
- 同步学习 (synchronous learning): 在每个时刻 t t t, 所有个体依据对应的学习规则, 同时更新自身策略.
- 异步学习 (asynchronous learning): 在每个时刻 t t t, 只有一部分个体依据对应的学习规则更新自身策略, 其他个体保持原有策略不便.
- 顺序学习 (sequential learning): 个体依照制定的次序依次更新自己的策略. 在每个时刻 t t t, 只有一个个体更新自身策略, 其他个体保持原来策略不变.
- 随机时序学习学习 (random-timing learning): 在每个时刻 t t t, 按照一定的概率 q i ∈ ( 0 , 1 ) q_i \in (0,1) qi∈(0,1) 选择一个个体 v i ∈ V v_i \in \mathcal V vi∈V 更新自身策略, 其中 ∑ v i ∈ V q i = 1 \sum_{v_i \in \mathcal V}q_i =1 ∑vi∈Vqi=1.
博弈学习有几种常见的动力学形式, 包括最优响应动力学 (best-response dynamics), 择优响应动力学 (better-response dynamics), 增强学习 (reinforcement learning), 试错学习 (trial-and-error learning), 虚拟学习 (fictitious learning)等.
3.2 最优响应动力学
一个个体
v
i
∈
V
v_i \in \mathcal V
vi∈V 的最优响应策略是一个集值映射
B
R
i
(
s
−
i
)
:
S
−
i
→
S
i
\mathcal{BR}_i(s_{-i}): \mathcal S_{-i} \rightarrow \mathcal S_i
BRi(s−i):S−i→Si, 其中
B
R
i
(
s
−
i
)
=
{
s
i
∗
∣
s
i
∗
∈
arg
max
s
i
∈
S
i
U
i
(
s
i
,
s
−
i
)
}
.
(1.12)
\mathcal{BR}_i(s_{-i})=\{s^*_i | s^*_i \in \arg\max_{s_i \in \mathcal S_i}U_i(s_i, s_{-i})\}. \tag{1.12}
BRi(s−i)={si∗∣si∗∈argsi∈SimaxUi(si,s−i)}.(1.12)
所谓离散时间最优响应动力学定义如下:
s
i
(
t
+
1
)
=
B
R
i
(
s
−
i
(
t
)
)
.
(1.13)
s_i(t+1) = \mathcal{BR}_i(s_{-i}(t)). \tag{1.13}
si(t+1)=BRi(s−i(t)).(1.13) 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其最优响应策略中任意选择一个策略, 作为下一步策略.
最优响应动力学有如下局限性:
- 个体需要获取其他所有个体的策略信息, 以及其自身收益函数的解析形式. 这一定程度上限制了最优响应动力学的实际应用.
- 最优响应动力学需要求解最优响应策略这一优化问题.
- 按照最优响应动力学, 个体每一步的策略可能会产生很大变化 (因为最优响应策略未必是连续的), 但实际上个体的变化通常在一定范围内渐变.
3.3 择优响应动力学
最优响应动力学要求个体选择其收益最大化的策略, 这会限制该动力学的适用范围. 更宽松的, 当个体选择使用收益有所提升的策略时, 场景更加丰富, 且计算量会更小.
给定一个博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}), 一个个体
v
i
∈
V
v_i \in \mathcal V
vi∈V 的择优响应策略是一个集值映射
B
T
i
(
s
−
i
)
:
S
→
S
i
\mathcal{BT}_i(s_{-i}): \mathcal S \rightarrow \mathcal S_i
BTi(s−i):S→Si, 其中
B
T
i
(
s
)
=
{
s
i
′
∣
s
i
′
∈
S
i
,
U
i
(
s
i
′
,
s
−
i
)
>
U
i
(
s
)
}
.
(1.14)
\mathcal{BT}_i(s)=\{s'_i | s'_i \in \mathcal S_i, U_i(s'_i, s_{-i})>U_i (s) \}. \tag{1.14}
BTi(s)={si′∣si′∈Si,Ui(si′,s−i)>Ui(s)}.(1.14)
所谓离散时间的择优响应动力学定义如下:
s
i
(
t
+
1
)
∈
B
T
i
(
s
(
t
)
)
.
(1.15)
s_i (t+1)\in \mathcal{BT}_i (s(t)). \tag{1.15}
si(t+1)∈BTi(s(t)).(1.15) 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其择优响应策略中任意选择一个策略, 作为下一步策略.
梯度动力学是一种最常用的择优响应动力学. 给定一个博弈
Γ
=
(
V
,
{
S
i
∣
v
i
∈
V
}
,
{
U
i
∣
v
i
∈
V
}
)
\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)
Γ=(V,{Si∣vi∈V},{Ui∣vi∈V}). 假设每个个体
v
i
∈
V
v_i \in \mathcal V
vi∈V 的策略集
S
i
∈
R
\mathcal S_i \in \mathbb R
Si∈R 是一个连续区间, 其收益函数
U
i
(
s
i
,
s
−
i
)
U_i (s_i, s_{-i})
Ui(si,s−i) 关于
s
i
s_i
si 连续可微, 那么离散状态的梯度动力学定义如下:
s
i
(
t
+
1
)
=
s
i
(
t
)
+
δ
∇
i
U
i
(
s
(
t
)
)
,
∀
v
i
∈
V
.
(1.16)
s_i(t+1) = s_i(t)+\delta \nabla_i U_i (s(t)), \forall v_i \in \mathcal V . \tag{1.16}
si(t+1)=si(t)+δ∇iUi(s(t)),∀vi∈V.(1.16) 其中,
δ
>
0
\delta >0
δ>0 是一个控制步长的参数,
∇
i
U
i
(
s
)
=
∂
U
i
/
∂
s
i
\nabla_i U_i (s) =\partial{U_i} /\partial{s_i}
∇iUi(s)=∂Ui/∂si 是收益函数
U
i
(
s
)
U_i (s)
Ui(s) 的梯度.
参考文献
[1]: 吕金虎,谭少林著. 复杂网络上的博弈及其演化动力学. 北京:高等教育出版社, 2019.02.