演化博弈模型简介

演化博弈理论结合了博弈论与动态演化分析,关注非完全理性下的策略演变。演化稳定策略描述了在博弈过程中,策略通过学习和模仿逐步稳定的过程。复制动态是描述策略在种群中频率变化的微分方程。文章通过一个雄性竞争配偶的博弈例子,展示了如何分析策略的演化趋势,其中关键在于适应度差异导致的种群比例变化。
摘要由CSDN通过智能技术生成

演化博弈模型简介

1 演化博弈思想

传统博弈苛刻假设:

  • 完全理性
  • 完全信息

演化博弈论:演化博弈论(Evolutionary Game Theory)把博弈理论分析和动态演化过程分析结合起来的一种理论。在方法论上,它不同于博弈论将重点放在静态均衡和比较静态均衡上,强调的是一种动态的均衡。演化博弈理论源于生物进化论。

为什么将演化思想引入到博弈论中?

  • 博弈论对生物学的影响。博弈论的策略对应生物学中的基因,博弈论的收益对应生物学中的适应度。在生物学中应用的博弈论与经济学中的传统博弈论最大区别就是非完全理性的选择。
  • 演化化思想对社会科学的影响。例如,在市场竞争中,我们不必要去理性的想那个策略才是最优的,最后能够在市场存活下来的企业,一定是适应能力最强的公司。

在演化博弈理论中,**演化稳定策略(Evolutionary StableStrategy, ESS)复制动态(Replication Dynamics)**是两个核心概念。

  • 演化稳定策略是指在博弈的过程中,博弈双方由于有限理性,博弈方不可能一开始就找到最优策略以及最优均衡点。于是,博弈方在博弈的过程中需要不断进行学习,有过策略失误会逐渐改正,并不断模仿和改进过去自己和别人的最有利策略。经过一段时间的模仿和改错,所有的博弈方都会趋于某个稳定的策略。
  • 复制动态实际上是描述某一特定策略在一个种群中被采用的频数或频度的动态微分方程,可以用下式表示:

d x i d t = x i [ ( u s i , x ) − u ( x , x ) ] \frac{d_{x_i}}{d_t} = x_i[(u_{s_i},x)-u(x,x)] dtdxi=xi[(usi,x)u(x,x)]

其中 x i x_i xi为群中采用纯策略 s i s_i si比例或概率, ( u s i , x ) (u_{s_i},x) (usi,x)表示采用纯策略时的适应度, u ( x , x ) u(x,x) u(x,x)表示平均适应度。


2 演化博弈关注的问题

当时间趋于无穷大时,博弈参与方策略选择行为是怎样的?

这就是演化博弈稳定性问题,一个稳定状态必须对微小扰动具有稳健性才能称为演化稳定策略。也就是说,如果我们假定为演化稳定策略的稳定点,则该点除了本身必须是均衡状态以外,还必须具有这样的性质:如果某些博弈方由于偶然的错误偏离了它们,复制动态仍然会使x回复到 x ∗ x^* x。数学上,这相当于要求:当干扰使x低于时 x ∗ x^{*} x ,dx/dt必须大于0;当干扰使得x出现高于时x, dx/dt必须小于0,这就要求这些稳定状态处于的导数必须小于0


3 复制动态中的博弈

考虑如下博弈支付矩阵

策略1策略2
策略1(2,2)(1,3)
策略2(3,1)(0,0)

考虑一种雄性之间争夺配偶形式的,遗传策略与变异策略之间的进化竞争博弈。设策略1是上代遗传的基因特征(温和行为);策略2是变异来的基因特征(强悍行为)。基因特征会影响它们竞争配偶的能力,从而决定它们各自后代期望数增量表示的达尔文适应度(fitness)。如果两个体(个体1左,个体2右)都是策略1,双方都有2单位适应度;双方都为策略2(两败俱伤),则都有0单位适应度;一方策略1、另一方策略2,则前者1单位后者3单位适应度。

尽管博弈用静态博弈矩阵展现,但与一般静态博弈存在本质区别:

  • 形式上博弈方为生物个体,但本质为两种基因的对抗竞争;其得益是基因的适应度,而非生物个体的适应度;
  • 生物个体不能主动选择策略,而是由先天基因决定
  • 博弈存在一个混合纳什均衡与两个纯策略纳什均衡,但一次静态博弈毫无意义。纳什均衡失去预测作用。

设基因策略1的群体比例为 x 1 ∈ [ 0 , 1 ] x_1\in [0,1] x1[0,1],策略2的群体比例为 x 2 = 1 − x 1 x_2 = 1-x_1 x2=1x1,设 t t t时刻种群规模总数为 P ( t ) P(t) P(t)。种群采用策略1的规模为 P 1 ( t ) P_1(t) P1(t),则采用策略1的群体比例为
x 1 ( t ) = P 1 ( t ) P ( t ) x_1(t) =\frac{P_1(t)}{P(t)} x1(t)=P(t)P1(t)
假设雄性之间两两相争,策略1的个体期望收益为
u 1 = 2 x 1 + x 2 = x 1 + 1 u_1 = 2x_1+x_2 = x_1+1 u1=2x1+x2=x1+1
策略2的个体期望收益为
u 2 = 3 x 2 u_2 = 3x_2 u2=3x2
种群平均期望收益
u ˉ = x 1 u 1 + x 2 u 2 = 4 x 1 − 2 x 1 2 \bar u = x_1u_1+x_2u_2 = 4x_1-2x_1^2 uˉ=x1u1+x2u2=4x12x12
另外假定存在与策略无关,只与环境有关的自然适应度 β \beta β与自然死亡率 δ \delta δ,因此,种群中所有策略1个体的总和适应度,也就是下一时刻带基因策略1的个体增量总和为
d P 1 ( t ) d t = ( β + μ 1 − δ ) P 1 ( t ) \frac{dP_1(t)}{dt} = (\beta+\mu_1-\delta)P_1(t) dtdP1(t)=(β+μ1δ)P1(t)
这与马尔萨斯人口增长模型极为相似。如果群体带有两种基因策略所有个体的种群总和适应度,也就是下一时刻整个种群所有个体增量总和为
d P ( t ) d t = ( β + μ ˉ − δ ) P ( t ) \frac{dP(t)}{dt} = (\beta+\bar{\mu}-\delta)P(t) dtdP(t)=(β+μˉδ)P(t)
注意 P 1 ( t ) = P ( t ) x 1 ( t ) P_{1}(t)=P(t) x_{1}(t) P1(t)=P(t)x1(t),两边对时间求导
d P 1 ( t ) d t = d P ( t ) d t x 1 ( t ) + P ( t ) d x 1 ( t ) d t \frac{\mathrm{d} P_{1}(t)}{\mathrm{d} t}=\frac{\mathrm{d} P(t)}{\mathrm{d} t} x_{1}(t)+P(t) \frac{\mathrm{d} x_{1}(t)}{\mathrm{d} t} dtdP1(t)=dtdP(t)x1(t)+P(t)dtdx1(t)
于是
P ( t ) d x 1 ( t ) d t = d P 1 ( t ) d t − d P ( t ) d t x 1 ( t ) = ( β + u 1 − δ ) P 1 ( t ) − ( β + u ˉ − δ ) P ( t ) x 1 ( t ) \begin{aligned} P(t) \frac{\mathrm{d} x_{1}(t)}{\mathrm{d} t} &=\frac{\mathrm{d} P_{1}(t)}{\mathrm{d} t}-\frac{\mathrm{d} P(t)}{\mathrm{d} t} x_{1}(t) \\ \\ &=\left(\beta+u_{1}-\delta\right) P_{1}(t)-(\beta+\bar{u}-\delta) P(t) x_{1}(t) \end{aligned} P(t)dtdx1(t)=dtdP1(t)dtdP(t)x1(t)=(β+u1δ)P1(t)(β+uˉδ)P(t)x1(t)
整理并除以 P ( t ) P(t) P(t)得到
d x 1 ( t ) d t = ( u 1 − u ˉ ) x 1 ( t ) \frac{\mathrm{d} x_{1}(t)}{\mathrm{d} t}=\left(u_{1}-\bar{u}\right) x_{1}(t) dtdx1(t)=(u1uˉ)x1(t)
该方程一阶常微分方程,即长期中策略1在种群中比例的动态变化规律,称为策略1的“复制动态”。该方程正是生物进化发展的根本内在机制,也是生物进化博弈分析的核心内容。为了复制动态的内涵,两边除以 x 1 ( t ) x_1(t) x1(t)
d x 1 ( t ) d t / x 1 ( t ) = u 1 − u ˉ \frac{\mathrm{d} x_{1}(t)}{\mathrm{d} t} / x_{1}(t)=u_{1}-\bar{u} dtdx1(t)/x1(t)=u1uˉ
意义:策略1种群比例的增长率等于该策略得益与种群平均得益之差。差值大于0该策略占比趋向于增长,小于0趋向于衰减。这种复制动态反映了特定生物基因种群比例发展变化的基本规律。生物的产生、发展和灭绝,以及生物多样性等背后都有这种内在机制在起作用。只要正确建立基因策略博弈的适应度得益函数,就可以根据上述复制动态方程计算特定基因的增长率,判断种群频数变化趋势。


将前文争配偶权的 u 1 = x 1 + 1 u_1 =x_1+1 u1=x1+1, u ˉ = 4 x 1 − 2 x 1 2 \bar u = 4x_1-2x_1^2 uˉ=4x12x12代入复制动态方程
d x 1 ( t ) d t = ( u 1 − u ˉ ) x 1 ( t ) = ( x 1 + 1 − 4 x 1 + 2 x 1 2 ) x 1 = ( 1 − 3 x 1 + 2 x 1 2 ) x 1 = ( 1 − 2 x 1 ) ( 1 − x 1 ) x 1 \begin{aligned} \frac{\mathrm{d} x_{1}(t)}{\mathrm{d} t} &=\left(u_{1}-\bar{u}\right) x_{1}(t)=\left(x_{1}+1-4 x_{1}+2 x_{1}^{2}\right) x_{1} \\ &=\left(1-3 x_{1}+2 x_{1}^{2}\right) x_{1}=\left(1-2 x_{1}\right)\left(1-x_{1}\right) x_{1} \end{aligned} dtdx1(t)=(u1uˉ)x1(t)=(x1+14x1+2x12)x1=(13x1+2x12)x1=(12x1)(1x1)x1
该复制动态微分方程非线性,可以通过等式右边函数的正负性分析变化趋势。右边函数等于0意味着 x 1 x_1 x1不变,也称为动态系统“不动点”或“稳态”,记为 x ∗ x^{*} x。基因种群比例达到稳态或初始处于稳态,均会维持不变。特别地,

  • x ∗ = 0 x^{*} =0 x=0表明基因策略1消失
  • x ∗ = 1 x^{*} =1 x=1表明基因策略1统治
  • x ∗ ∈ ( 0 , 1 ) x^{*} \in(0,1) x(0,1)表明两种基因共存

当初始比例 x 1 x_1 x1不是稳态,则 x 1 x_1 x1随时间变化而变化。要使 x 1 x_1 x1趋于稳态,必须满足:

  • 当干扰使 x 1 x_1 x1低于时 x ∗ x^{*} x , d x / d t dx/dt dx/dt必须大于0;
  • 当干扰使 x 1 x_1 x1大于时 x ∗ x^{*} x , d x / d t dx/dt dx/dt必须小于0;

上文已求出基因策略1复制动态方程
d x 1 ( t ) d t = ( 1 − 2 x 1 ) ( 1 − x 1 ) x 1 \frac{\mathrm{d} x_{1}(t)}{\mathrm{d} t} =\left(1-2 x_{1}\right)\left(1-x_{1}\right) x_{1} dtdx1(t)=(12x1)(1x1)x1
令方程右边为0,得到稳态解 x 1 = 0 , 1 , 0.5 x_1 =0,1,0.5 x1=0,1,0.5。当 x 1 = 0.5 x_1=0.5 x1=0.5时策略基因1的比例收敛为0.5。原因是:

  • x 1 x_1 x1的初始值低于0.5, d x 1 / d t > 0 dx_1/dt>0 dx1/dt>0,故 x 1 x_1 x1增加;
  • x 1 x_1 x1的初始值高于0.5, d x 1 / d t < 0 dx_1/dt<0 dx1/dt<0,故 x 1 x_1 x1减少;
    在这里插入图片描述

-END-

参考文献

[1]Smith J M, Price G R. The logic of Animal Conflict [J]. Nature, 1973, 246: 15-8.
[2]Smith J M. The Theory of Games and the Evolution of Animal Conflicts [J]. J Theor Biol, 1974, 47: 209-21.
[3]D.Taylor P, Jonker L B. Evolutionarily Stable Strategies and Game Dynamics [J]. Math Biosci, 1978, 40: 145-56.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值