完全信息静态博弈
文章目录
博弈的标准式与纳什均衡
博弈的标准式
博弈的标准式表述包括(1)博弈的参与者(2)每一个参与者可供选择的战略集(3)针对所有参与者可能选择的战略组合,每一个参与者获得的收益
定义1:在一个n个人博弈的标准式表述中,参与者的战略空间为S1,…,Sn,收益函数为u1,…,un,我们用G={S1,…,Sn;u1,…,un}表示此博弈。
重复提出严格劣战略
以囚徒困境问题为例,假设有囚徒n个,对第i个囚徒来说,不论囚徒j选择什么策略,囚徒i选择沉默的收益都低于选择招认的收益,即对于第i个囚徒,沉默相比招认是劣战略。
严格劣战略的定义如下:
简单来说,如果不论其他参与者选用哪一种战略,对于参与者i,Si战略的收益恒高于Sj,那么就称Sj相对于Si是严格劣战略。
理性的参与者不会选择严格劣战略,因此我们可以把理性参与者不会选择的战略进行剔除,最后得到的一个或几个策略是比较优的。这个过程可称为“重复剔除严格劣战略”。但是这需要假定“参与者是理性的”这句话是共同知识(这包括所有参与者是理性的,所有参与者知道彼此是理性的以及接下来的无穷套娃),这是重复提出严格劣战略的缺陷之一。
另一个缺陷是这个方法对博弈结果的预测经常是不精确的,如果所有战略都经得住严格劣战略的重复提出,该方法对分析博弈将出现什么结果毫无帮助。(可以理解为在战略集中不存在严格的偏序关系)
纳什均衡的导出和定义
导出纳什均衡的途径之一是证明如果博弈论可以为博弈问题提供一个为一街,此节一定是纳什均衡,原因如下:假设博弈论预测的结果中,给每个参与者选定各自的战略,为使该预测是正确的,必须使参与者自愿选择理论给他推导出的战略。这样,每个参与者要选择的战略必须使针对参与者选择战略的最优反应。定义如下:
纳什均衡作为比重复提出严格劣战略更强的解的概念,理由如下:如果战略组合{Si}是一个i额纳什均衡,它一定不会被重复剔除严格劣战略所提出,但也可能有重复剔除严格劣战略无法剔除的战略组合,但与纳什均衡一点关系都没有。
证明:如果在一组标准式博弈中重复剔除严格劣战略且最后只剩下一组战略,那么这组战略金牛是该博弈唯一的纳什均衡
证明:一组标准是博弈中如果一个战略是纳什均衡,那么它不会被重复剔除严格劣战略所剔除。
以上证明见书12~13页,这里略过
应用举例
本节我们将通过模型说明:(1)如何把对一个问题的非正式描述转化为一个博弈的标准式表述(2)如何通过哦计算解出博弈的纳什均衡(3)重复提出严格劣战略
古诺双头垄断模型
令q1,q2分别表述企业1、2生产的同质产品的产量,市场中该产品的总供给Q=q1+q2,令P(Q) = a-Q表示市场出清时的价格(即Q<a时,P(Q)=a-Q;Q>a时,P(Q)=0);设企业i生产qi的总成本C(qi)=c*qi,即企业不存在固定成本,且生产每单位产品的边际成本为常数c,且满足c<a。两个企业进行产量的决策。
根据博弈的标准式,需要包括以下要素:博弈的参与人、每一参与人可以选择的战略,针对每一个可能出现的参与人的战略组合,每一参与人的收益。显然双头垄断模型中当然只有两个参与人,每个企业选择的战略是其产品产量,这里假定产品是连续可分割的,又产量不为负,每个企业的战略空间为[0,∞)。
考虑到Q≥a时,P(Q)=0,则企业产量不会超过a。接下来我们把企业i 的收益表示为其战略的函数:
π
i
(
q
i
,
q
j
)
=
q
i
[
p
(
q
i
+
q
j
)
−
c
]
=
q
i
[
a
−
(
q
i
+
q
j
)
−
c
]
\pi_i(q_i,q_j)=q_i[p(q_i+q_j)-c] = q_i[a-(q_i+q_j)-c]
πi(qi,qj)=qi[p(qi+qj)−c]=qi[a−(qi+qj)−c]
则根据纳什均衡的定义,我们需要选择参与者的最优反应,即最大化收益:
m
a
x
s
i
∈
S
i
u
i
(
s
i
,
s
j
∗
)
m
a
x
π
i
(
q
i
,
q
j
∗
)
=
m
a
x
q
i
[
a
−
(
q
i
+
q
j
∗
)
−
c
]
max_{s_i\in S_i} u_i(s_i,s_j^*) \\ max \space \pi_i(q_i,q_j^*) = max\space q_i[a-(q_i+q_j^*)-c]
maxsi∈Siui(si,sj∗)max πi(qi,qj∗)=max qi[a−(qi+qj∗)−c]
令一阶导为0,可得解为
q
i
1
2
(
a
−
q
j
∗
−
c
)
q_i \frac{1}{2} (a-q_j^*-c)
qi21(a−qj∗−c)
则有
q
1
=
1
2
(
a
−
q
2
∗
−
c
)
q
2
=
1
2
(
a
−
q
1
∗
−
c
)
q_1 =\frac{1}{2} (a-q_2^*-c) \\ q_2 =\frac{1}{2} (a-q_1^*-c)
q1=21(a−q2∗−c)q2=21(a−q1∗−c)
解上述方程可得
q
1
∗
=
q
2
∗
=
a
−
c
3
q_1^* = q_2^* = \frac{a-c}3
q1∗=q2∗=3a−c
还有两种求解最优反应的方法:一个是图形法,一个是运用重复剔除严格劣战略(但是仅限于二维情况能得到最优解)。这里不再详细说明。
贝特兰德的双头垄断模型
贝特兰德提出了另一种模型:企业在竞争时选择的是产品价格,而不像古诺模型中选择产量。我们考虑两种有差异的产品,如果企业1和企业2分别选择价格p1和p2,消费者对企业i的产品的需求为
q
i
(
p
i
,
p
j
)
=
a
−
p
i
+
b
p
j
q_i(p_i,p_j) = a - p_i +b p_j
qi(pi,pj)=a−pi+bpj
这里0<b<2,即企业i的产品为企业j的产品的替代品的情况,我们假定企业生产没有固定成本,产品的边际成本为c<a,两个企业同时行动。
同样的,我们先表示出企业i的利润:
π
i
(
p
i
,
p
j
)
=
q
i
(
p
i
,
p
j
)
[
p
i
−
c
]
=
[
a
−
p
i
+
b
p
j
]
[
p
i
−
c
]
\pi_i (p_i,p_j) = q_i(p_i,p_j)[p_i - c] = [a-p_i+bp_j][p_i - c]
πi(pi,pj)=qi(pi,pj)[pi−c]=[a−pi+bpj][pi−c]
我们最大化问题解可得
p
i
∗
=
1
2
(
a
+
b
p
j
∗
+
c
)
p_i^* = \frac{1}{2} (a+bp_j^*+c)
pi∗=21(a+bpj∗+c)
即
p
1
∗
=
1
2
(
a
+
b
p
2
∗
+
c
)
p
2
∗
=
1
2
(
a
+
b
p
1
∗
+
c
)
p_1^*= \frac{1}{2}(a+bp_2^*+c) \\ p_2^* = \frac{1}{2}(a+bp_1^*+c)
p1∗=21(a+bp2∗+c)p2∗=21(a+bp1∗+c)
最后解的
p
1
∗
=
p
2
∗
=
a
+
c
2
−
b
p_1^* = p_2^* = \frac{a+c}{2-b}
p1∗=p2∗=2−ba+c
最后要价仲裁
假定参与争议的双方一方为企业,一方为工会,争议由工资而起;首先双方同时开出自己希望的工资水平w1,w2;而后仲裁人在二者之中选择其中1个作为结果,假定仲裁人本升 对工资水平由自认为比较合理的方案x,x服从一定的概率分布,累计分布函数为F(x),概率密度函数为f(x),仲裁人最终选择随机变量的一个取值,并选择两个工资中比较接近该取值的一个作为仲裁结果。
显然,企业的目标是使期望工资最小化的仲裁结果,工会则设法使其最大化。若双方的要价(w1,w2)是这一企业和工会间博弈的那是均衡,则w1满足:
m
i
n
w
1
w
1
⋅
F
(
w
1
+
w
2
2
)
+
w
2
⋅
[
1
−
F
(
w
1
+
w
2
2
]
min_{w_1} \space w_1 \cdot F(\frac{w_1+w_2}{2}) + w_2 \cdot [1-F(\frac{w_1+w_2}{2}]
minw1 w1⋅F(2w1+w2)+w2⋅[1−F(2w1+w2]
m
a
x
w
2
w
1
⋅
F
(
w
1
+
w
2
2
)
+
w
2
⋅
[
1
−
F
(
w
1
+
w
2
2
]
max_{w_2} \space w_1 \cdot F(\frac{w_1+w_2}{2}) + w_2 \cdot [1-F(\frac{w_1+w_2}{2}]
maxw2 w1⋅F(2w1+w2)+w2⋅[1−F(2w1+w2]
求导可得:
(
w
1
−
w
2
)
⋅
1
2
f
(
w
1
+
w
2
2
)
=
F
(
w
1
+
w
2
2
)
(
w
1
−
w
2
)
⋅
1
2
f
(
w
1
+
w
2
2
)
=
1
−
F
(
w
1
+
w
2
2
)
(w_1-w_2) \cdot \frac{1}{2} f(\frac{w_1+w_2}{2}) = F(\frac{w_1+w_2}{2}) \\ (w_1-w_2) \cdot \frac{1}{2} f(\frac{w_1+w_2}{2}) = 1-F(\frac{w_1+w_2}{2})
(w1−w2)⋅21f(2w1+w2)=F(2w1+w2)(w1−w2)⋅21f(2w1+w2)=1−F(2w1+w2)
可得
F
(
w
1
+
w
2
2
)
=
1
2
F(\frac{w_1+w_2}{2}) = \frac{1}{2}
F(2w1+w2)=21
同时代入一阶条件可得到
w
1
−
w
2
=
1
f
(
w
1
+
w
2
2
)
w_1-w_2 = \frac{1}{f(\frac{w_1+w_2}{2})}
w1−w2=f(2w1+w2)1
公共财问题
考虑一个有n个村民的村庄,每年夏天,所有村民都要在公共的草地上放牧,村民i的放羊的头数为gi,每只羊的养殖成本为c,当草地上共有G头羊时,每只羊的 价值为v(G),当G>G_max时,青草数量不足,羊没有办法生存,价值为0.春天是,村民同时选择计划放养养的数量,假设羊是连续可分割的。村民i的战略就是选择放羊的数量gi,其战略空间为[0,∞)。
当村民i放羊gi只羊时,其获得的收益为:
g
i
⋅
v
(
g
1
+
⋯
+
g
i
−
1
+
g
i
+
g
i
+
1
+
⋯
+
g
n
)
−
c
g
i
g_i \cdot v(g_1+\cdots +g_{i-1} + g_i +g_{i+1} + \cdots +g_n) - cg_i
gi⋅v(g1+⋯+gi−1+gi+gi+1+⋯+gn)−cgi
最优化上面的式子,得到的结果为
v
(
g
i
+
g
−
i
)
+
g
i
v
′
(
g
i
+
g
−
i
)
−
c
=
0
v(g_i+g_{-i})+g_iv'(g_i+g_{-i})-c=0
v(gi+g−i)+giv′(gi+g−i)−c=0
将gi代入上式,并对i求和再除以n,得到
v
(
G
)
+
1
n
G
v
′
(
G
)
−
c
=
0
v(G)+\frac{1}{n} Gv'(G) - c = 0
v(G)+n1Gv′(G)−c=0
接下来考虑社会最优选择,应满足
m
a
x
G
⋅
v
(
G
)
−
G
⋅
c
max G\cdot v(G) - G\cdot c
maxG⋅v(G)−G⋅c
一阶条件为
v
(
G
)
+
G
v
′
(
G
)
−
c
=
0
v(G)+Gv'(G)-c = 0
v(G)+Gv′(G)−c=0比较社会最优选择和纳什均衡可以发现,纳什均衡时放羊的总数远大于社会最优,纳什均衡的情况下社会资源被过度的使用了。
混合战略与均衡的存在性
混合战略
首先说纯战略:纯战略是指参与者的一个动作,例如抛硬币赌正面还是背面,而参与者i的混合战略是指纯战略的概率分布,即硬币正面向上的概率为p,反面为1-p
混合战略的定义如下:
纳什均衡的存在性
这一节主要有4项内容:1.将纳什均衡的定义扩展到包含混合战略的情况;2.应用扩展后的定义求解硬币博弈和性别战博弈的纳什均衡;3.用图示的方法证明任何一个参与者有两个纯战略的的二人博弈都存在者纳什均衡,这里我们略过4.给出纳什定理,它保证了在任何有限博弈中,都存在着纳什均衡
扩展纳什均衡定义
定义如下:
这里所说的是134和135是如下两个式子:
v
1
(
P
1
∗
,
P
2
∗
)
≥
v
1
(
P
1
,
P
2
∗
)
v
2
(
P
1
∗
,
P
2
∗
)
≥
v
2
(
P
1
∗
,
P
2
)
v_1(P_1^*,P_2^*)\ge v_1 (P_1,P_2^*) \\v_2(P_1^*,P_2^*)\ge v_2 (P_1^*,P_2)
v1(P1∗,P2∗)≥v1(P1,P2∗)v2(P1∗,P2∗)≥v2(P1∗,P2)
即最大化每一方的收益
应用
图示法:假设双人博弈,(r,1-r)表示参与者1的策略;(q,1-q)表示参与者2的策略;我们可以画出一个横坐标为q,纵坐标为r的函数图。将两个函数放在一张图中,交点代表着纳什均衡
纳什定理
在n个参与者的标准式博弈G={S1,…,Sn;u1,u2,…,un},如果n是有限的,且对每个i,Si是有限的,则博弈存在至少一个纳什均衡
后续还会不断补充一些细节……