【三方演化博弈】模型构建与模型求解

一、背景介绍

接下来以这篇文献为例,介绍一下包括三方演化博弈模型的构建以及代码的撰写。

在这里插入图片描述
知网论文:低碳经济下环境NGO参与企业碳减排的演化博弈分析

二、收益矩阵计算

2.1 博弈主体策略

企业:采取K1,不采取K2
政府:调控M1,不调控M2
环境NGO:监督N1,不监督N2

2.2 概率

企业:采取x,不采取1-x
政府:调控y,不调控1-y
环境NGO:监督z,不监督1-z

2.3 具体公式

企业收益=收入+补贴-成本
政府收益=收入-补贴-成本
环境NGO=收入+补贴-成本

2.4 计算过程

(1)企业

1、采取K1:低碳生产
E1:企业采取低碳生产获得的收益
C1:企业采取低碳生产所支付的低碳设备及技术等成本
S1:政府调控时对采取低碳生产的企业给予的补贴

2.不采取K2:传统生产
E2:企业采取传统生产获得的收益
C2:企业按照传统生产所付出的成本
G1:政府调控时对采取传统生产的企业实施的罚款
G2:环境NGO实行监督策略时使传统生产的企业遭受的损失

(2)政府

E3:企业低碳生产给政府带来的潜在收益
C4:政府在企业传统生产时需付出高能耗带来的环境污染治理成本

1、调控M1:耗费人力等监督成本

C3政府采取调控策略时付出的人力、物力、财力等成本

2、不调控M2:对企业不干预

(3)环境NGO

1、监督N1:对企业监督
C5:环境NGo对企业进行监督产生的监督成本
S2:环境NGo实行监督策略获得来自政府的资助
S3:环境NGo实行监督策略获得来自公众的资助

2、不监督N2:对企业监督

根据上述的变量可以得到下面的收益矩阵:

首先,由于有3个主体,每个主体有两种做法,因此最多有2^3种情况。
其次,根据2.3的公式计算三个主体的不同收益

企业收益政府收益环境NGO
K1,M1,N1 (企业采取,政府调控,NGO监督)E1+S1-C1E3-C3-S1-S2S3+S2-C5
K1,M1,N2 (企业采取,政府调控,NGO不监督)E1+S1-C1E3-C3-S10
K1,M2,N1 (企业采取,政府不调控,NGO监督)E1-C1E3-S2S3+S2-C5
K1,M2,N2 (企业采取,政府不调控,NGO不监督)E1-C1E30
K2,M1,N1 (企业不采取,政府调控,NGO监督)E2-C2-G1-G2-C3-C4-S2+G1S3+S2-C5
K2,M1,N2 (企业不采取,政府调控,NGO不监督)E2-C2-G1-C3-C4+G10
K2,M2,N1 (企业不采取,政府不调控,NGO监督)E2-C2-G2-C4-S2S3+S2-C5
K2,M2,N2 (企业不采取,政府不调控,NGO不监督)E2-C2-C40

三、期望与复制动态方程

3.1 企业平均期望

设企业采用“采取”策略的期望收益为V11,采用“不采取”策略的期望收益为V12,平均期望收益为V1,则有:

V 11 = E (采取) = ∑ 企业采取时的收益值 × 政府应对策略概率 × 环境 N G O 应对策略 = ( E 1 + S 1 − C 1 ) × y × z + ( E 1 + S 1 − C 1 ) × y × ( 1 − z ) + ( E 1 − C 1 ) × ( 1 − y ) × z + ( E 1 − C 1 ) × ( 1 − y ) × ( 1 − z ) V_{11} =E(采取)\\= \sum_{} 企业采取时的收益值 \times 政府应对策略概率 \times 环境NGO应对策略 \\=(E1+S1-C1)\times y \times z +(E1+S1-C1 )\times y \times (1-z)+\\( E1-C1 )\times (1-y)\times z+(E1-C1)\times(1-y)\times(1-z) V11=E(采取)=企业采取时的收益值×政府应对策略概率×环境NGO应对策略=(E1+S1C1)×y×z+(E1+S1C1)×y×(1z)+(E1C1)×(1y)×z+(E1C1)×(1y)×(1z)

V 12 = E (不采取) = ∑ 企业不采取时的收益值 × 政府应对策略概率 × 环境 N G O 应对策略 = ( E 2 − C 2 − G 1 − G 2 ) × y × z + ( E 2 − C 2 − G 1 ) × y × ( 1 − z ) + ( E 2 − C 2 − G 2 ) × ( 1 − y ) × z + ( E 2 − C 2 ) × ( 1 − y ) × ( 1 − z ) V_{12} =E(不采取)\\= \sum_{} 企业不采取时的收益值 \times 政府应对策略概率 \times 环境NGO应对策略 \\=(E2-C2-G1-G2)\times y \times z +(E2-C2-G1)\times y \times (1-z)+\\( E2-C2-G2 )\times (1-y)\times z+(E2-C2)\times(1-y)\times(1-z) V12=E(不采取)=企业不采取时的收益值×政府应对策略概率×环境NGO应对策略=(E2C2G1G2)×y×z+(E2C2G1)×y×(1z)+(E2C2G2)×(1y)×z+(E2C2)×(1y)×(1z)

V 1 = E (企业) = 企业采取对应概率 × E (采取) + 企业不采取对应概率 × E (不采取) V_{1} =E(企业)\\= 企业采取对应概率 \times E(采取) + 企业不采取对应概率\times E(不采取) V1=E(企业)=企业采取对应概率×E(采取)+企业不采取对应概率×E(不采取)

F ( x ) = d x d t = x ( V 11 − V 1 ) = x [ V 11 − x V 11 − ( 1 − x ) V 12 ] = x ( 1 − x ) ( V 11 − V 12 ) F(x)=\frac{dx}{dt} \quad=x(V_{11}-V_1) \\=x[V_{11}-xV_{11}-(1-x)V_{12}]=x(1-x)(V_{11}-V_{12}) Fx=dtdx=x(V11V1)=x[V11xV11(1x)V12]=x(1x)(V11V12)


F(x)是复制动态方程,有一个比较固定的公式是x(V11-V1)

下面讲一下这个固定公式:x(V11-V1)是怎么来的:

这是复制动态方程的一种固定表达形式,用于描述连续时间情形下种群群体状态的变化。

首先,如何描述种群群体状态?以种群中不同个体的数量或者不同个体占总体的比例来表示。具体来说,以这个式子(dx/dt = x(V11-V1) )为例,x指的是企业选择“采取”策略的概率(演化博弈论中x指的是企业这个“种群”中选择“采取”策略的个体占总体的比例)。

其次,如何描述种群群体状态的变化?用连续两代之间种群中个体数量(或者占总体的比例)的变化来描述,也就是复制动态方程。在这个例子中,x代表企业种群中这一代选择“采取”策略的个体所占比例,dx/dt代表企业种群中下一代选择“采取”策略的个体所占比例。所以原式就很好理解,dx/dt就是x乘上一个变化率(V11-V1),描述了这一代到下一代群体状态的变化。这个变化率在演化博弈论中是用超额收益(就是选择某一纯策略的个体相比总体的收益之差)来定义的。容易理解,变化率为正,即选择“采取”策略的企业获得的收益大于所有企业获得的平均收益时,其他原先选择“不采取”策略的企业会转而选择“采取”策略,这将导致下一代选择“采取”策略的企业数量增加(或占所有企业的比例上升)。这其实就是“演化”的含义。最终随着和其他博弈主体的不断互动,x会趋于一个稳定值不再变化(如果该博弈能够达到稳定)。

关于复制动态方程的思想,复制动态和生态学思想的联系,其他的复制动态方程形式,我建议参考乔根·W·威布尔的《演化博弈论》(格致出版社、上海人民出版社,当代经济学系列丛书)中3-4章节的内容。


3.2 政府平均期望

政府选择“调控”策略的期望收益为 V21 、选择“不调控”策略的期望收益为 V22 ,平均期 望收益为 V2

V 21 = E (采取) = ∑ 政府采取时的收益值 × 企业应对策略概率 × 环境 N G O 应对策略 = ( E 3 − C 3 − S 1 − S 2 ) × x × z + ( E 3 − C 3 − S 1 ) × x × ( 1 − z ) + ( − C 3 − C 4 − S 2 + G 1 ) × ( 1 − x ) × z + ( − C 3 − C 4 + G 1 ) × ( 1 − x ) × ( 1 − z ) V_{21} =E(采取)\\= \sum_{} 政府采取时的收益值 \times 企业应对策略概率 \times 环境NGO应对策略 \\=(E3-C3-S1-S2)\times x \times z +(E3-C3-S1 )\times x \times (1-z)+\\( -C3-C4-S2+G1 )\times (1-x)\times z+( -C3-C4+G1)\times(1-x)\times(1-z) V21=E(采取)=政府采取时的收益值×企业应对策略概率×环境NGO应对策略=(E3C3S1S2)×x×z+(E3C3S1)×x×(1z)+(C3C4S2+G1)×(1x)×z+(C3C4+G1)×(1x)×(1z)

V 22 = E (不采取) = ∑ 政府不采取时的收益值 × 企业应对策略概率 × 环境 N G O 应对策略 = ( E 3 − S 2 ) × x × z + ( E 3 ) × x × ( 1 − z ) + ( − C 4 − S 2 ) × ( 1 − x ) × z + ( − C 4 ) × ( 1 − x ) × ( 1 − z ) V_{22} =E(不采取)\\= \sum_{} 政府不采取时的收益值 \times 企业应对策略概率 \times 环境NGO应对策略 \\=(E3-S2)\times x \times z +(E3)\times x \times (1-z)+\\( -C4-S2 )\times (1-x)\times z+(-C4)\times(1-x)\times(1-z) V22=E(不采取)=政府不采取时的收益值×企业应对策略概率×环境NGO应对策略=(E3S2)×x×z+(E3)×x×(1z)+(C4S2)×(1x)×z+(C4)×(1x)×(1z)

V 2 = E (政府) = 政府采取对应概率 × E (采取) + 政府不采取对应概率 × E (不采取) = y V 21 + ( 1 − y ) V 22 V_{2} =E(政府)\\= 政府采取对应概率 \times E(采取) + 政府不采取对应概率\times E(不采取)\\=yV_{21}+(1-y)V_{22} V2=E(政府)=政府采取对应概率×E(采取)+政府不采取对应概率×E(不采取)=yV21+(1y)V22

F ( x ) = d y d t = y ( V 21 − V 2 ) F(x)=\frac{dy}{dt} \quad=y(V_{21}-V_2) Fx=dtdy=y(V21V2)

3.3 环境NGO平均期望

环境NGO选择“监督”策略的期望收益为 V31 、选择“不监督”策略的期望收益为V32 ,平均期 望收益为V3

V 31 = E (采取) = ∑ 环境 N G O 采取时的收益值 × 政府应对策略概率 × 企业应对策略 = ( S 3 + S 2 − C 5 ) × y × x + ( S 3 + S 2 − C 5 ) × y × ( 1 − x ) + ( S 3 + S 2 − C 5 ) × ( 1 − y ) × x + ( S 3 + S 2 − C 5 ) × ( 1 − y ) × ( 1 − x ) V_{31} =E(采取)\\= \sum_{} 环境NGO采取时的收益值 \times 政府应对策略概率 \times 企业应对策略 \\=(S3+S2-C5 )\times y \times x +(S3+S2-C5 )\times y \times (1-x)+\\(S3+S2-C5 )\times (1-y)\times x+(S3+S2-C5)\times(1-y)\times(1-x) V31=E(采取)=环境NGO采取时的收益值×政府应对策略概率×企业应对策略=(S3+S2C5)×y×x+(S3+S2C5)×y×(1x)+(S3+S2C5)×(1y)×x+(S3+S2C5)×(1y)×(1x)

V 32 = E (不采取) = ∑ 环境 N G O 不采取时的收益值 × 政府应对策略概率 × 企业应对策略 = 0 V_{32} =E(不采取)\\= \sum_{} 环境NGO不采取时的收益值 \times 政府应对策略概率 \times 企业应对策略 \\=0 V32=E(不采取)=环境NGO不采取时的收益值×政府应对策略概率×企业应对策略=0

V 3 = E (环境 N G O ) = 环境 N G O 采取对应概率 × E (采取) + 环境 N G O 不采取对应概率 × E (不采取) = z V 31 + ( 1 − z ) V 32 V_{3} =E( 环境NGO)\\= 环境NGO采取对应概率 \times E(采取) + 环境NGO不采取对应概率\times E(不采取)\\=zV_{31}+(1-z)V_{32} V3=E(环境NGO=环境NGO采取对应概率×E(采取)+环境NGO不采取对应概率×E(不采取)=zV31+(1z)V32

F ( x ) = d z d t = z ( V 31 − V 3 ) = z ( 1 − z ) ( S 2 + S 3 − C 5 ) F(x)=\frac{dz}{dt} \quad=z(V_{31}-V_3) \\=z(1-z)(S2+S3-C5) Fx=dtdz=z(V31V3)=z(1z)(S2+S3C5)

3.4 三方演化博弈的均衡点及稳定性分析

在这里插入图片描述

四、均衡点及稳定性分析

4.1 构建雅克比矩阵

在这里插入图片描述

4.2 均衡点

条件:F(x)=0 , F(y)=0 , F(z)=0 ,
得到对应的xyz的组合

4.3 雅可比矩阵的特征值

将求得的均衡点代入雅克比矩阵
求此时矩阵对应的特征值

4.4 判断均衡点的稳定性

当特征值均为负数时,那么均衡点是稳定的均衡点。

MATLAB计算三方演化博弈均衡点出现错误?

在这里插入图片描述
具体可以参考上面的链接和这篇文章。

五、总结

写一篇关于演化博弈相关的矩阵如下:

引言+文献综述
1、确立三个主体及策略
2、确立策略概率
3、计算收益矩阵
4、计算期望与复制动态方程
5、绘制相位图(部分文献做省略处理)
6、构建雅克比矩阵
7、计算均衡点
8、计算此时雅克比矩阵对应的特征值
9、判断均衡点的稳定性
10、仿真分析

海事机关、航运企业和高校三方演化博弈模型可以采用博弈论中的博弈模型来描述。具体来说,可以考虑使用博弈论中的博弈矩阵来描述各个参与方的利益和策略选择。 假设海事机关可以选择采取严格的管控措施或者放宽一些规定来减少对航运企业的影响;航运企业可以选择遵守海事机关的规定或者违反规定以获得更大的利益;高校可以选择提供更好的人才培养和科研成果,或者减少对海事行业的关注。 下面是一个简单的博弈矩阵,其中数字表示各参与方的收益: | | 海事机关采取严格管控 | 海事机关放松规定 | | :-----------------: | :-----------------------: | :---------------------: | | 航运企业遵守规定 | A: (5, 5, 5) | B: (0, 10, 5) | | 航运企业违反规定 | C: (0, 0, 10) | D: (0, 0, 5) | 在这个博弈矩阵中,每一个数字组合表示三方之间的利益收益,分别对应海事机关、航运企业和高校的收益。例如,A中的(5, 5, 5)表示海事机关、航运企业和高校分别获得5个单位的收益。 从这个博弈矩阵中可以看出,如果海事机关采取严格的管控措施,航运企业遵守规定,则三方之间都可以获得一定的收益,对于海上交通安全和生态环境的保护也更有保障;如果海事机关放松规定,航运企业可以获得更多的利润,但是对于海上交通安全和生态环境的保护则可能存在风险。 这个博弈矩阵只是一个简单的模型,实际情况可能更加复杂。在实际应用中,需要考虑更多的因素,如参与方的利益和策略选择的多样性、参与方之间的合作和竞争关系等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

温欣2030

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值