[复杂网络博弈] 第一章博弈论基础

WangMH_CHN

已于 2022-04-25 12:55:38 修改

阅读量3.8k

点赞数 24

分类专栏： Games on Complex Networks 文章标签：数学

于 2022-04-09 12:15:40 首次发布

本文链接：https://blog.csdn.net/weixin_46854242/article/details/124053520

版权

Games on Complex Networks 专栏收录该内容

2 篇文章 19 订阅

订阅专栏

第一章博弈论基础

1. 博弈基础
- 1.1 博弈的表示形式
- 1.2 纯策略与混合策略
2. 博弈解
- 2.1 占优策略均衡
- 2.2 纳什均衡
3. 博弈学习动力学简介
参考文献

复杂网络是21世纪的新兴学科, 演化博弈论是现阶段博弈科学研究的范式. 演化博弈摒弃了传统博弈论中的完全理性和完全信息假设, 从系统动态的角度考察个体决策到群体决策的形成机制. 目前, 对复杂网络上的演化博弈论研究可以归纳为两个方面:

从个体出发, 研究群体层面的决策选择机制. 即个体之间的交互关系网络和决策动力学进行建模和分析, 定量研究并预测网络群体的博弈动力学行为;
从群体需求出发, 研究个体层面的干预调控机制. 即根据群体策略要求, 设计个体之间的交互机制, 或者对个体的决策动力学进行干预, 是的网络群体的整体行为能够达到预期设定的要求.

博弈论 (Game theory) 是要研究多个自主性个体在利益相关情形下的决策行为的理论. 本文主要对复杂网络理论中涉及的博弈论基础进行整理. 本文主要包含3个方面的内容: 第一, 博弈论的标准模型; 第二, 博弈解的概念及其相关定理; 第三, 博弈学习动力学的基本内容.

1. 博弈基础

1.1 博弈的表示形式

一个博弈模型通常有3个基本要素组成:

决策个体集合 (player set);
每个决策者所能采取的策略集合 (strategy set);
每个决策者的收益函数 (payoff function), 也称 “策略函数 (utility function)” .

根据以上三个要素, 可以给出 “策略博弈” 的概念.

定义1-1 (策略博弈) 博弈是一个三元组 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 其中, $\mathcal{V}=\{v_1, v_2, ...,v_n\}$ 为决策个体集合, $\mathcal{S}_i$ 为个体 $v_i \in \mathcal{V}$ 的策略集合, $U_i: \prod_{v_j\in\mathcal V}\mathcal{S}_j\rightarrow\mathcal R$ 是个体 $v_i \in \mathcal{V}$ 的收益函数.

定义1-2 (对称博弈) 令 $s_i \in \mathcal S _i$ 表示个体 $v_i \in \mathcal{V}$ 的策略, 令 $\pi$ 表示对个体编号的任意一个变换, 如果个体收益满足
$U_i (s_1, s_2,...,s_n) = U_{\pi(i)}(s_{\pi(1)}, s_{\pi(2)}, ..., s_{\pi(n)}), \tag{1.1}$ 则称这个博弈为 “对称博弈”. 对称博弈的含义是, 一个策略所产生的收益仅取决于与它交互的其他策略, 而与使用这个策略的个体本身无关.

在策略博弈的收益表示中, 有限策略博弈常用收益矩阵或收益表格表示, 连续策略博弈常用收益函数来刻画. 有限策略博弈的典型例子包括囚徒困境博弈 (prisoner’s dilemma game) , 公共物品博弈 (public goods game) 和志愿者困境博弈 (volunteer’s dilemma game). 连续策略博弈的典型例子包括多个体一致性博弈.

1.2 纯策略与混合策略

博弈论中, 将个体策略区分为纯策略 (pure strategy) 与混合策略 (mixed strategy) 两种类型.

定义1-3 (纯策略) 指个体只能从其策略集合中选择一种特定策略的方式.
定义1-4 (混合策略) 指个体给其策略集合中的每一个策略赋予一定的概率, 同时依照概率分布随机选择一种策略的方式.

令 $\Delta_i$ 表示个体 $v_i \in \mathcal{V}$ 的混合策略的集合, 令 $x_i \in \Delta_i$ 表示个体 $v_i$ 的策略, 令
$x_{-i}=\left(x_1, ..., x_{i-1}, x_{i+1}, ..., x_n\right)$ 表示除个体 $v_i$ 外其他所有个体的策略组合, 那么
$x=(x_i, x_{-i})\in\Delta=\Delta_1 \times \Delta_2 \times \cdots \times \Delta_n$ 表示所有个体的策略组合. 对于博弈 $\Gamma=\left(\mathcal V, \{\mathcal S _i | v_i \in \mathcal V\}, \{U_i | v_i \in \mathcal V\}\right)$ . 将策略集合从 $S=S_1\times S_2 \times \cdots \times S_n$ 拓展到混合策略集合 $\Delta$ 上, 得到从博弈 $\Gamma$ 派生出来的混合扩展博弈.

定义1-5 (博弈的混合扩展) 博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ 的混合扩展是指有它派生出的博弈 $\Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 其中 $\Delta_i$ 表示个体 $v_i \in \mathcal{V}$ 的混合策略集合 $\mathcal S _i$ 中元素的概率分布集合, 收益函数 $U_i: \prod_{v_j\in\mathcal V}\Delta_j \rightarrow \mathcal R$ 是由混合策略有道德所有纯策略组合对应收益的期望值. 具体地, 对于混合策略 $x=(x_1, x_2, ...,x_n)\in \Delta$ , 每个个体 $v_i \in \mathcal V$ 的收益为
$U_i(x) = \sum_{s\in\mathcal S}( \prod_{v_j \in \mathcal V} x_j(s_j))U(s), \tag{1.2}$ 其中 $s=(s_1, s_2, ..., s_n), x_j(s_j)$ 是指个体 $v_j$ 选择策略 $s_j$ 的概率.

2. 博弈解

在阐述博弈解前, 先说明博弈解的研究点, 主要有四个问题:

哪些策略会被选择?
哪些策略应该避免?
参与个体的策略是否会收敛?
如果收敛, 处于平衡点的策略组合是否稳定?

在策略博弈的研究过程中, 理性 (rational) 是一个经典假设, 在表示个体如果总是采取其收益最大化的策略, 则可以理解其为理性的. 同时, 在对策的研究环境中, “理性” 是博弈过程中的公共知识 (common knowledge), 即假设所有个体均知道其他个体是理性, 而且相互知道对方知道所有个体都是理性的. 在这一前提下, 可以产生多种博弈解的概念, 同时这些解也作为不完全理性或非理性情境下个体决策行为的参考. 下面就阐述两种基本的策略及其均衡: 占优策略均衡与纳什均衡.

2.1 占优策略均衡

定义1-6 (占优策略, dominant strategt) 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 一个策略 $s_i \in \mathcal S _i$ 称为个体 $v_i$ 的占优策略, 如果
$U_i(s_i, s_{-i})\ge U_i(s_i', s_{-i}) \tag{1.3}$ 对所有 $s_i' \in \mathcal S _i$ 和 $s_{-i} \in \mathcal S _{-i}$ 均成立. 如果上式对除 $s_i'=s_i$ 的所有其他策略严格成立, 则称 $s_i$ 为个体 $v_i$ 的严格占优策略 (strictly dominant strategy).

与占优策略相反的策略, 被称为 “劣势策略”.

定义1-7 (劣势策略, dominated strategy) 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 一个策略 $s_i \in \mathcal S _i$ 称为个体 $v_i$ 的占优策略, 如果
$U_i(s_i, s_{-i})\le U_i(s_i', s_{-i}) \tag{1.4}$ 对所有 $s_i' \in \mathcal S _i$ 和 $s_{-i} \in \mathcal S _{-i}$ 均成立. 如果上式对除 $s_i'=s_i$ 的所有其他策略严格成立, 则称 $s_i$ 为个体 $v_i$ 的严格劣势策略 (strictly dominated strategy).

定义1-8 占优策略均衡 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 一个策略组合 $s^*=(s^*_1,s^*_2,...,s^*_n)$ 称为 (严格) 占优策略均衡点, 如果对每个个体的策略 $s^*_i \in \mathcal S_i$ 是一个 (严格) 占优策略.

但是实际博弈过程中, 占优策略均衡常常是不存在的, 因此用其来分析个体在博弈中的决策行为具有很大局限性. 占优策略要求每一个体策略都是对其所有的解都最优, 如果把条件放的宽松, 对于特定的某个解, 在这一解中, 任何个体采取其他策略都不会获得更大的收益, 这时获得一种更宽松也更常见的均衡 —— 纳什均衡.

2.2 纳什均衡

纳什均衡 (Nash equilibrium) 是一种特殊的策略组合: 当玩家个体采取这样一种策略组合时, 如果其他个体不改变策略, 任何个体都无法通过单方面改变自身策略获得更高收益. 因此, 这样的解是一个稳定的策略组合.

定义1-9 (纯策略纳什均衡) 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 一个策略组合 $s^*=(s^*_1,s^*_2,...,s^*_n)$ 称为纯策略纳什均衡当且仅当
$U_i(s_i^*, s^*_{-i})\ge U_i(s_i', s^*_{-i}) \tag{1.5}$ 对所有 $s'_i \in \mathcal S _i$ 和 $v_i \in \mathcal V$ 都成立. 如果上式严格成立, 则称 $s^*$ 为严格纳什均衡.

定义1-10 (混合策略纳什均衡) 对于博弈 $\Gamma=\left( \mathcal{V},\{ \Delta_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 一个策略组合 $x^*=(x^*_1,x^*_2,...,x^*_n)$ 称为混合策略纳什均衡当且仅当
$U_i(x_i^*, x^*_{-i})\ge U_i(x_i', x^*_{-i}) \tag{1.6}$ 对所有 $x'_i \in \Delta _i$ 和 $v_i \in \mathcal V$ 都成立. 如果上式严格成立, 则称 $x^*$ 为严格混合策略纳什均衡.

纳什均衡可以通过最优响应策略 (best-response strategy) 的形式来定义. 首先给出最优响应策略定理.

定义1-11 (最优响应策略) 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 每个个体 $v_i \in \mathcal V$ 的最优响应策略是一个集值映射 $\mathcal B _i(s_{-i}) : \mathcal S_{-i} \rightarrow \mathcal S_{i}$ ,
$\mathcal B_i (s_{-i})=\{ s_i^*|s_i^*\in \arg \max_{s_i\in \mathcal S_i} U_i(s_i, s_{-i}) \}. \tag{1.7}$
最优响应策略的意义为, 给定其他个体的策略, 一个个体的最优响应是指这个个体收益最大化的策略集合. 纳什均衡是每个个体策略关于其他个体策略组合的最优响应策略, 即纳什均衡是上诉最优响应函数的不动点.

纳什均衡点的存在性证明是博弈论的一个核心问题. 下面介绍纳什均衡的相关成果.

定理1-1 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 策略组合 $s^*$ 是一个纳什均衡, 当且仅当 $s^*_i \in \mathcal B_i (s^*_{-i})$ 对所有个体 $v_i \in \mathcal V$ 成立.

定理1-2 任何有限策略博弈都具有至少一个混合策略纳什均衡点. (注意, 该定理只保证混合策略纳什均衡存在, 而纯策略纳什均衡未必存在.)

定理1-3 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 如果每个个体的策略集合 $\mathcal S_i$ 是欧式空间中一个非空闭凸集, 且每个个体的收益函数 $U_i$ 是关于 $\mathcal S_i$ 的连续拟凹函数, 那么这个博弈具有一个纯策略纳什均衡点.

在工程中, 还存在一种常见的博弈 —— 势博弈 (potential game), 其一定存在纯策略纳什均衡点, 且纳什均衡点对应的势博弈势函数的最大值点.

定义1-12 (势博弈) 对于博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 如果存在一个势函数 $\phi : \mathcal S \rightarrow \mathbb R$ , 使得
$U_i(s_i, s_{-i}) - U_i(s_i', s_{-i}) = \phi (s_i, s_{-i}) - \phi (s_i', s_{-i}) \tag{1.8}$ 对所有 $s_i, s_i' \in \mathcal S _i, s_{-i} \in \mathcal S _{-i}$ 和 $v_i\in \mathcal V$ 均成立, 那么称这个博弈为势博弈.

定理1-4 对于一个势函数为 $\phi:\mathcal S\rightarrow \mathbb R$ 的势博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 令 $s^*=\arg\max_{s\in \mathcal S} \phi(s), \tag{1.9}$ 那么 $s^*$ 是博弈 $\Gamma$ 的一个纯策略纳什均衡点.

3. 博弈学习动力学简介

3.1 博弈学习框架

在很多博弈过程中, 参与个体如何根据所获得的关于博弈及其他个体策略和收益等信息, 不断调整自身策略, 使得最终更大刀那是均衡点. 这个问题就是博弈学习 (Game Learning) 理论所研究的对象.

图1.1 博弈学习框架示意图

博弈学习的框架如图所示. 具体地, 考虑一个离散时间的重复博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ . 在每个时间步 $t$ , 每个个体 $v_i \in \mathcal V$ 根据当前自身的策略 $s_i(t) \in \mathcal S_i$ 以及其他个体的策略在博弈中获得收益 $\pi_i(t)=U_i(s(t))$ , 其中 $(s_1(t),s_2(t),...,s_n(t)) \in \mathcal S$ 是指所有个体 $t$ 时刻的策略组合.

一般形式的学习规则可以如下表述:
$s_i(t+1)=\mathcal{H}\left( \prod_{k=0}^t{s\left( k \right)};\ \prod_{k=0}^t{s_{-i} \left( k \right)} ; U_i\right) . \tag{1.10}$ 从形式上看, 每个个体使用包括自身和其他个体所有历史策略信息和收益信息, 这要求每个个体都具有 “无限记忆能力”. 但更常见的场景为一步记忆, 在这种情况下, 式 $(1.10)$ 的学习规则应更改为
$s_i(t+1)=\mathcal{H}\left( s\left( k \right);\ s_{-i} \left( k \right) ; U_i\right) . \tag{1.11}$

根据个体的更新策略的时序, 可以分为以下几类学习:

同步学习 (synchronous learning): 在每个时刻 $t$ , 所有个体依据对应的学习规则, 同时更新自身策略.
异步学习 (asynchronous learning): 在每个时刻 $t$ , 只有一部分个体依据对应的学习规则更新自身策略, 其他个体保持原有策略不便.
顺序学习 (sequential learning): 个体依照制定的次序依次更新自己的策略. 在每个时刻 $t$ , 只有一个个体更新自身策略, 其他个体保持原来策略不变.
随机时序学习学习 (random-timing learning): 在每个时刻 $t$ , 按照一定的概率 $q_i \in (0,1)$ 选择一个个体 $v_i \in \mathcal V$ 更新自身策略, 其中 $\sum_{v_i \in \mathcal V}q_i =1$ .

博弈学习有几种常见的动力学形式, 包括最优响应动力学 (best-response dynamics), 择优响应动力学 (better-response dynamics), 增强学习 (reinforcement learning), 试错学习 (trial-and-error learning), 虚拟学习 (fictitious learning)等.

3.2 最优响应动力学

一个个体 $v_i \in \mathcal V$ 的最优响应策略是一个集值映射 $\mathcal{BR}_i(s_{-i}): \mathcal S_{-i} \rightarrow \mathcal S_i$ , 其中
$\mathcal{BR}_i(s_{-i})=\{s^*_i | s^*_i \in \arg\max_{s_i \in \mathcal S_i}U_i(s_i, s_{-i})\}. \tag{1.12}$

所谓离散时间最优响应动力学定义如下:
$s_i(t+1) = \mathcal{BR}_i(s_{-i}(t)). \tag{1.13}$ 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其最优响应策略中任意选择一个策略, 作为下一步策略.

最优响应动力学有如下局限性:

个体需要获取其他所有个体的策略信息, 以及其自身收益函数的解析形式. 这一定程度上限制了最优响应动力学的实际应用.
最优响应动力学需要求解最优响应策略这一优化问题.
按照最优响应动力学, 个体每一步的策略可能会产生很大变化 (因为最优响应策略未必是连续的), 但实际上个体的变化通常在一定范围内渐变.

3.3 择优响应动力学

最优响应动力学要求个体选择其收益最大化的策略, 这会限制该动力学的适用范围. 更宽松的, 当个体选择使用收益有所提升的策略时, 场景更加丰富, 且计算量会更小.

给定一个博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ , 一个个体 $v_i \in \mathcal V$ 的择优响应策略是一个集值映射 $\mathcal{BT}_i(s_{-i}): \mathcal S \rightarrow \mathcal S_i$ , 其中
$\mathcal{BT}_i(s)=\{s'_i | s'_i \in \mathcal S_i, U_i(s'_i, s_{-i})>U_i (s) \}. \tag{1.14}$

所谓离散时间的择优响应动力学定义如下:
$s_i (t+1)\in \mathcal{BT}_i (s(t)). \tag{1.15}$ 即每个时间步, 个体在假定其他个体策略不变的情况下, 从其择优响应策略中任意选择一个策略, 作为下一步策略.

梯度动力学是一种最常用的择优响应动力学. 给定一个博弈 $\Gamma=\left( \mathcal{V},\{ \mathcal{S}_i|v_i\in\mathcal{V}\}, \{U_i |v_i \in \mathcal{V}\} \right)$ . 假设每个个体 $v_i \in \mathcal V$ 的策略集 $\mathcal S_i \in \mathbb R$ 是一个连续区间, 其收益函数 $U_i (s_i, s_{-i})$ 关于 $s_i$ 连续可微, 那么离散状态的梯度动力学定义如下:
$s_i(t+1) = s_i(t)+\delta \nabla_i U_i (s(t)), \forall v_i \in \mathcal V . \tag{1.16}$ 其中, $\delta >0$ 是一个控制步长的参数, $\nabla_i U_i (s) =\partial{U_i} /\partial{s_i}$ 是收益函数 $U_i (s)$ 的梯度.

参考文献

[1]: 吕金虎，谭少林著. 复杂网络上的博弈及其演化动力学. 北京：高等教育出版社, 2019.02.

WangMH_CHN

关注

24
点赞
踩
58

收藏

觉得还不错? 一键收藏
2
评论
[复杂网络博弈] 第一章博弈论基础

  \ \ \quad  复杂网络是21世纪的新兴学科, 演化博弈论是现阶段博弈科学研究的范式. 演化博弈摒弃了传统博弈论中的完全理性和完全信息假设, 从系统动态的角度考察个体决策到群体决策的形成机制. 目前, 对复杂网络上的演化博弈论研究可以归纳为两个方面:从个体出发, 研究群体层面的决策选择机制. 即个体之间的交互关系网络和决策动力学进行建模和分析, 定量研究并预测网络群体的博弈动力学行为;从群体需求出发, 研究个体层面的干预调控机制. 即根据群体策略要求,
复制链接

扫一扫