【三方演化博弈】模型构建与模型求解

温欣2030

已于 2024-09-16 21:10:59 修改

阅读量5.6k

点赞数 24

分类专栏：【科研&办公工具】文章标签：演化博弈博弈论

于 2024-09-16 21:10:40 首次发布

本文链接：https://blog.csdn.net/wxfighting/article/details/142305779

版权

【科研&办公工具】专栏收录该内容

21 篇文章

订阅专栏

一、背景介绍

接下来以这篇文献为例，介绍一下包括三方演化博弈模型的构建以及代码的撰写。

在这里插入图片描述
知网论文：低碳经济下环境NGO参与企业碳减排的演化博弈分析

二、收益矩阵计算

2.1 博弈主体策略

企业：采取K1，不采取K2
政府：调控M1，不调控M2
环境NGO：监督N1，不监督N2

2.2 概率

企业：采取x，不采取1-x
政府：调控y，不调控1-y
环境NGO：监督z，不监督1-z

2.3 具体公式

企业收益=收入+补贴-成本
政府收益=收入-补贴-成本
环境NGO=收入+补贴-成本

2.4 计算过程

（1）企业

1、采取K1：低碳生产
E1：企业采取低碳生产获得的收益
C1：企业采取低碳生产所支付的低碳设备及技术等成本
S1：政府调控时对采取低碳生产的企业给予的补贴

2．不采取K2：传统生产
E2：企业采取传统生产获得的收益
C2：企业按照传统生产所付出的成本
G1：政府调控时对采取传统生产的企业实施的罚款
G2：环境NGO实行监督策略时使传统生产的企业遭受的损失

（2）政府

E3：企业低碳生产给政府带来的潜在收益
C4：政府在企业传统生产时需付出高能耗带来的环境污染治理成本

1、调控M1：耗费人力等监督成本

C3政府采取调控策略时付出的人力、物力、财力等成本

2、不调控M2：对企业不干预

（3）环境NGO

1、监督N1：对企业监督
C5：环境NGo对企业进行监督产生的监督成本
S2：环境NGo实行监督策略获得来自政府的资助
S3：环境NGo实行监督策略获得来自公众的资助

2、不监督N2：对企业监督

根据上述的变量可以得到下面的收益矩阵：

首先，由于有3个主体，每个主体有两种做法，因此最多有2^3种情况。
其次，根据2.3的公式计算三个主体的不同收益

	企业收益	政府收益	环境NGO
K1,M1,N1 （企业采取，政府调控，NGO监督）	E1+S1-C1	E3-C3-S1-S2	S3+S2-C5
K1,M1,N2 （企业采取，政府调控，NGO不监督）	E1+S1-C1	E3-C3-S1	0
K1,M2,N1 （企业采取，政府不调控，NGO监督）	E1-C1	E3-S2	S3+S2-C5
K1,M2,N2 （企业采取，政府不调控，NGO不监督）	E1-C1	E3	0
K2,M1,N1 （企业不采取，政府调控，NGO监督）	E2-C2-G1-G2	-C3-C4-S2+G1	S3+S2-C5
K2,M1,N2 （企业不采取，政府调控，NGO不监督）	E2-C2-G1	-C3-C4+G1	0
K2,M2,N1 （企业不采取，政府不调控，NGO监督）	E2-C2-G2	-C4-S2	S3+S2-C5
K2,M2,N2 （企业不采取，政府不调控，NGO不监督）	E2-C2	-C4	0

三、期望与复制动态方程

3.1 企业平均期望

设企业采用“采取”策略的期望收益为V11，采用“不采取”策略的期望收益为V12，平均期望收益为V1，则有：

$V_{11} =E（采取）\\= \sum_{} 企业采取时的收益值 \times 政府应对策略概率 \times 环境NGO应对策略 \\=(E1+S1-C1)\times y \times z +(E1+S1-C1 )\times y \times (1-z)+\\( E1-C1 )\times (1-y)\times z+(E1-C1)\times(1-y)\times(1-z)$

$V_{12} =E（不采取）\\= \sum_{} 企业不采取时的收益值 \times 政府应对策略概率 \times 环境NGO应对策略 \\=(E2-C2-G1-G2)\times y \times z +(E2-C2-G1)\times y \times (1-z)+\\( E2-C2-G2 )\times (1-y)\times z+(E2-C2)\times(1-y)\times(1-z)$

$V_{1} =E（企业）\\= 企业采取对应概率 \times E（采取） + 企业不采取对应概率\times E（不采取）$

$F（x）=\frac{dx}{dt} \quad=x(V_{11}-V_1) \\=x[V_{11}-xV_{11}-(1-x)V_{12}]=x(1-x)(V_{11}-V_{12})$

F（x）是复制动态方程，有一个比较固定的公式是x（V11-V1）

下面讲一下这个固定公式：x（V11-V1）是怎么来的：

这是复制动态方程的一种固定表达形式，用于描述连续时间情形下种群群体状态的变化。

首先，如何描述种群群体状态？以种群中不同个体的数量或者不同个体占总体的比例来表示。具体来说，以这个式子（dx/dt = x(V11-V1) ）为例，x指的是企业选择“采取”策略的概率（演化博弈论中x指的是企业这个“种群”中选择“采取”策略的个体占总体的比例）。

其次，如何描述种群群体状态的变化？用连续两代之间种群中个体数量（或者占总体的比例）的变化来描述，也就是复制动态方程。在这个例子中，x代表企业种群中这一代选择“采取”策略的个体所占比例，dx/dt代表企业种群中下一代选择“采取”策略的个体所占比例。所以原式就很好理解，dx/dt就是x乘上一个变化率(V11-V1)，描述了这一代到下一代群体状态的变化。这个变化率在演化博弈论中是用超额收益（就是选择某一纯策略的个体相比总体的收益之差）来定义的。容易理解，变化率为正，即选择“采取”策略的企业获得的收益大于所有企业获得的平均收益时，其他原先选择“不采取”策略的企业会转而选择“采取”策略，这将导致下一代选择“采取”策略的企业数量增加（或占所有企业的比例上升）。这其实就是“演化”的含义。最终随着和其他博弈主体的不断互动，x会趋于一个稳定值不再变化（如果该博弈能够达到稳定）。

关于复制动态方程的思想，复制动态和生态学思想的联系，其他的复制动态方程形式，我建议参考乔根·W·威布尔的《演化博弈论》（格致出版社、上海人民出版社，当代经济学系列丛书）中3-4章节的内容。

3.2 政府平均期望

政府选择“调控”策略的期望收益为 V21 、选择“不调控”策略的期望收益为 V22 ，平均期望收益为 V2

$V_{21} =E（采取）\\= \sum_{} 政府采取时的收益值 \times 企业应对策略概率 \times 环境NGO应对策略 \\=(E3-C3-S1-S2)\times x \times z +(E3-C3-S1 )\times x \times (1-z)+\\( -C3-C4-S2+G1 )\times (1-x)\times z+( -C3-C4+G1)\times(1-x)\times(1-z)$

$V_{22} =E（不采取）\\= \sum_{} 政府不采取时的收益值 \times 企业应对策略概率 \times 环境NGO应对策略 \\=(E3-S2)\times x \times z +(E3)\times x \times (1-z)+\\( -C4-S2 )\times (1-x)\times z+(-C4)\times(1-x)\times(1-z)$

$V_{2} =E（政府）\\= 政府采取对应概率 \times E（采取） + 政府不采取对应概率\times E（不采取）\\=yV_{21}+(1-y)V_{22}$

$F（x）=\frac{dy}{dt} \quad=y(V_{21}-V_2)$

3.3 环境NGO平均期望

环境NGO选择“监督”策略的期望收益为 V31 、选择“不监督”策略的期望收益为V32 ，平均期望收益为V3

$V_{31} =E（采取）\\= \sum_{} 环境NGO采取时的收益值 \times 政府应对策略概率 \times 企业应对策略 \\=(S3+S2-C5 )\times y \times x +(S3+S2-C5 )\times y \times (1-x)+\\(S3+S2-C5 )\times (1-y)\times x+(S3+S2-C5)\times(1-y)\times(1-x)$