Minimax Theorem
本文目录
PNE or MNE
+----------------+----------------+ | L (q) | R (1 - q) | +----------------+----------------+----------------+ | U (p) | a c | e g | +----------------+----------------+----------------+ | D (1 - p) | b d | f h | +----------------+----------------+----------------+
注
( a − b > 0 ∧ f − e > 0 ) ∨ ( a − b < 0 ∧ f − e < 0 ) (a-b > 0 \wedge f-e > 0) \vee (a-b < 0 \wedge f-e < 0) (a−b>0∧f−e>0)∨(a−b<0∧f−e<0) 时, 一定有 f − e a − b + f − e ∈ ( 0 , 1 ) \frac{f-e}{a-b+f-e} \in (0,1) a−b+f−ef−e∈(0,1).
( c − g > 0 ∧ h − d > 0 ) ∨ ( c − g < 0 ∧ h − d < 0 ) (c-g > 0 \wedge h-d > 0) \vee (c-g < 0 \wedge h-d < 0) (c−g>0∧h−d>0)∨(c−g<0∧h−d<0) 时, 一定有 h − d c − g + h − d ∈ ( 0 , 1 ) \frac{h-d}{c-g+h-d} \in (0,1) c−g+h−dh−d∈(0,1).
收益函数和最优反应如下:
U 1 ( p , q ) = p [ q a + ( 1 − q ) e ] + ( 1 − p ) [ q b + ( 1 − q ) f ] = p [ ( a − b + f − e ) q − ( f − e ) ] + [ q ( b − f ) + f ] \begin{aligned} U_1(p, q) &= p \left[ qa + (1-q)e \right] + (1-p) \left[ qb + (1-q)f \right] \\ &= p \left[ (a-b+f-e)q - (f-e) \right] + \left[ q(b-f) + f \right] \\ \end{aligned} U1(p,q)=p[qa+(1−q)e]+(1−p)[qb+(1−q)f]=p[(a−b+f−e)q−(f−e)]+[q(b−f)+f]
{ p = { 1 , q > [ 0 , 1 ] , q = f − e a − b + f − e 0 , q < , a − b > 0 ∧ f − e > 0 p ≡ 1 , a − b > 0 ∧ f − e < 0 p = { 0 , q > [ 0 , 1 ] , q = f − e a − b + f − e 1 , q < , a − b < 0 ∧ f − e < 0 p ≡ 0 , a − b < 0 ∧ f − e > 0 p = { 0 , q < 1 [ 0 , 1 ] , q = 1 , a − b = 0 ∧ f − e > 0 p = { 1 , q < 1 [ 0 , 1 ] , q = 1 , a − b = 0 ∧ f − e < 0 p = { [ 0 , 1 ] , q = 0 1 , q > 0 , a − b > 0 ∧ f − e = 0 p = { [ 0 , 1 ] , q = 0 0 , q > 0 , a − b < 0 ∧ f − e = 0 p ≡ [ 0 , 1 ] , a − b = 0 ∧ f − e = 0 \begin{cases} &p = \begin{cases} 1, & \phantom{q} > \\ [0,1], & q = \frac{f-e}{a-b+f-e} \\ 0, & \phantom{q} < \\ \end{cases}, && a-b > 0 \wedge f-e > 0 \\ &p \equiv 1, && a-b > 0 \wedge f-e < 0 \\ &p = \begin{cases} 0, & \phantom{q} > \\ [0,1], & q = \frac{f-e}{a-b+f-e} \\ 1, & \phantom{q} < \\ \end{cases}, && a-b < 0 \wedge f-e < 0 \\ &p \equiv 0, && a-b < 0 \wedge f-e > 0 \\ &p = \begin{cases} 0, & q < 1 \\ [0,1], & q = 1 \\ \end{cases}, && a-b = 0 \wedge f-e > 0 \\ &p = \begin{cases} 1, & q < 1 \\ [0,1], & q = 1 \\ \end{cases}, && a-b = 0 \wedge f-e < 0 \\ &p = \begin{cases} [0,1], & q = 0 \\ 1, & q > 0 \\ \end{cases}, && a-b > 0 \wedge f-e = 0 \\ &p = \begin{cases} [0,1], & q = 0 \\ 0, & q > 0 \\ \end{cases}, && a-b < 0 \wedge f-e = 0 \\ &p \equiv [0, 1], && a-b = 0 \wedge f-e = 0 \\ \end{cases} ⎩ ⎨ ⎧p=⎩ ⎨ ⎧1,[0,1],0,q>q=a−b+f−ef−eq<,p≡1,p=⎩ ⎨ ⎧0,[0,1],1,q>q=a−b+f−ef−eq<,p≡0,p={0,[0,1],q<1q=1,p={1,[0,1],q<1q=1,p={[0,1],1,q=0q>0,p={[0,1],0,q=0q>0,p≡[0,1],a−b>0∧f−e>0a−b>0∧f−e<0a−b<0∧f−e<0a−b<0∧f−e>0a−b=0∧f−e>0a−b=0∧f−e<0a−b>0∧f−e=0a−b<0∧f−e=0a−b=0∧f−e=0
U 2 ( q , p ) = q [ p c + ( 1 − p ) d ] + ( 1 − q ) [ p g + ( 1 − p ) h ] = q [ ( c − g + h − d ) p − ( h − d ) ] + [ p ( g − h ) + h ] \begin{aligned} U_2(q, p) &= q \left[ pc + (1-p)d \right] + (1-q) \left[ pg + (1-p)h \right] \\ &= q \left[ (c-g+h-d)p - (h-d) \right] + \left[ p(g-h) + h \right] \\ \end{aligned} U2(q,p)=q[pc+(1−p)d]+(1−q)[pg+(1−p)h]=q[(c−g+h−d)p−(h−d)]+[p(g−h)+h]
{ q = { 1 , p > [ 0 , 1 ] , p = h − d c − g + h − d 0 , p < , c − g > 0 ∧ h − d > 0 q ≡ 1 , c − g > 0 ∧ h − d < 0 q = { 0 , p > [ 0 , 1 ] , p = h − d c − g + h − d 1 , p < , c − g < 0 ∧ h − d < 0 q ≡ 0 , c − g < 0 ∧ h − d > 0 q = { 0 , p < 1 [ 0 , 1 ] , p = 1 , c − g = 0 ∧ h − d > 0 q = { 1 , p < 1 [ 0 , 1 ] , p = 1 , c − g = 0 ∧ h − d < 0 q = { [ 0 , 1 ] , p = 0 1 , p > 0 , c − g > 0 ∧ h − d = 0 q = { [ 0 , 1 ] , p = 0 0 , p > 0 , c − g < 0 ∧ h − d = 0 q ≡ [ 0 , 1 ] , c − g = 0 ∧ h − d = 0 \begin{cases} &q = \begin{cases} 1, & \phantom{p} > \\ [0,1], & p = \frac{h-d}{c-g+h-d} \\ 0, & \phantom{p} < \\ \end{cases}, && c-g > 0 \wedge h-d > 0 \\ &q \equiv 1, && c-g > 0 \wedge h-d < 0 \\ &q = \begin{cases} 0, & \phantom{p} > \\ [0,1], & p = \frac{h-d}{c-g+h-d} \\ 1, & \phantom{p} < \\ \end{cases}, && c-g < 0 \wedge h-d < 0 \\ &q \equiv 0, && c-g < 0 \wedge h-d > 0 \\ &q = \begin{cases} 0, & p < 1 \\ [0,1], & p = 1 \\ \end{cases}, && c-g = 0 \wedge h-d > 0 \\ &q = \begin{cases} 1, & p < 1 \\ [0,1], & p = 1 \\ \end{cases}, && c-g = 0 \wedge h-d < 0 \\ &q = \begin{cases} [0,1], & p = 0 \\ 1, & p > 0 \\ \end{cases}, && c-g > 0 \wedge h-d = 0 \\ &q = \begin{cases} [0,1], & p = 0 \\ 0, & p > 0 \\ \end{cases}, && c-g < 0 \wedge h-d = 0 \\ &q \equiv [0, 1], && c-g = 0 \wedge h-d = 0 \\ \end{cases} ⎩ ⎨ ⎧q=⎩ ⎨ ⎧1,[0,1],0,p>p=c−g+h−dh−dp<,q≡1,q=⎩ ⎨ ⎧0,[0,1],1,p>p=c−g+h−dh−dp<,q≡0,q={0,[0,1],p<1p=1,q={1,[0,1],p<1p=1,q={[0,1],1,p=0p>0,q={[0,1],0,p=0p>0,q≡[0,1],c−g>0∧h−d>0c−g>0∧h−d<0c−g<0∧h−d<0c−g<0∧h−d>0c−g=0∧h−d>0c−g=0∧h−d<0c−g>0∧h−d=0c−g<0∧h−d=0c−g=0∧h−d=0
特别地 ¬ [ ( a − b = 0 ∧ f − e = 0 ) ∨ ( c − g = 0 ∧ h − d = 0 ) ] \neg[(a-b = 0 \wedge f-e = 0) \vee (c-g = 0 \wedge h-d = 0)] ¬[(a−b=0∧f−e=0)∨(c−g=0∧h−d=0)] 时, 可以画图分析如下:
统计PNE个数(即?P
)和MNE个数(即?M
)如下:
+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | a-b>0 | a-b>0 | a-b<0 | a-b<0 | a-b=0 | a-b=0 | a-b>0 | a-b<0 | a-b=0 | | & | & | & | & | & | & | & | & | & | | f-e>0 | f-e<0 | f-e<0 | f-e>0 | f-e>0 | f-e<0 | f-e=0 | f-e=0 | f-e=0 | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g>0 | | | | | | | | | | | & | 2P 1M | 1P 0M | 0P 1M | 1P 0M | 2P #M | 1P #M | 2P #M | 1P #M | 2P #M | | h-d>0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g>0 | | | | | | | | | | | & | 1P 0M | 1P 0M | 1P 0M | 1P 0M | 2P #M | 2P #M | 1P 0M | 1P 0M | 2P #M | | h-d<0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g<0 | | | | | | | | | | | & | 0P 1M | 1P 0M | 2P 1M | 1P 0M | 1P #M | 2P #M | 1P #M | 2P #M | 2P #M | | h-d<0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g<0 | | | | | | | | | | | & | 1P 0M | 1P 0M | 1P 0M | 1P 0M | 1P 0M | 1P 0M | 2P #M | 2P #M | 2P #M | | h-d>0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g=0 | | | | | | | | | | | & | 2P #M | 2P #M | 1P #M | 1P 0M | 2P 0M | 2P #M | 3P #M | 2P #M | 3P #M | | h-d>0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g=0 | | | | | | | | | | | & | 1P #M | 2P #M | 2P #M | 1P 0M | 2P #M | 3P #M | 2P #M | 2P 0M | 3P #M | | h-d<0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g>0 | | | | | | | | | | | & | 2P #M | 1P 0M | 1P #M | 2P #M | 3P #M | 2P #M | 2P 0M | 2P #M | 3P #M | | h-d=0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g<0 | | | | | | | | | | | & | 1P #M | 1P 0M | 2P #M | 2P #M | 2P #M | 2P 0M | 2P #M | 3P #M | 3P #M | | h-d=0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+ | c-g=0 | | | | | | | | | | | & | 2P #M | 2P #M | 2P #M | 2P #M | 3P #M | 3P #M | 3P #M | 3P #M | 4P #M | | h-d=0 | | | | | | | | | | +-------+-------+-------+-------+-------+-------+-------+-------+-------+-------+
分析如下:
-
不存在PNE
不存在PNE(即
0P
)仅限于两种情形, 而这两种情形恰好是 “纯策略最优反应” 完全不重合的两种情形. 因此我们得出结论: 只要 “纯策略最优反应” 有重合, 那么就一定存在PNE; 如果 “纯策略最优反应” 不重合, 那么就不存在PNE.由此我们得出结论: 不存在PNE(只存在MNE)当且仅当 “纯策略最优反应” 完全不重合. 这一命题总是成立.
以下是不存在PNE(即
0P
)的两种情形, 已经用中括号框出 “纯策略最优反应”.-
(
a
−
b
>
0
∧
f
−
e
>
0
)
∧
(
c
−
g
<
0
∧
h
−
d
<
0
)
(a-b > 0 \wedge f-e > 0) \wedge (c-g < 0 \wedge h-d < 0)
(a−b>0∧f−e>0)∧(c−g<0∧h−d<0)
+----------------+----------------+ | L (q) | R (1 - q) | +----------------+----------------+----------------+ | U (p) | [a] c | e [g] | +----------------+----------------+----------------+ | D (1 - p) | b [d] | [f] h | +----------------+----------------+----------------+
-
(
a
−
b
<
0
∧
f
−
e
<
0
)
∧
(
c
−
g
>
0
∧
h
−
d
>
0
)
(a-b < 0 \wedge f-e < 0) \wedge (c-g > 0 \wedge h-d > 0)
(a−b<0∧f−e<0)∧(c−g>0∧h−d>0)
+----------------+----------------+ | L (q) | R (1 - q) | +----------------+----------------+----------------+ | U (p) | a [c] | [e] g | +----------------+----------------+----------------+ | D (1 - p) | [b] d | f [h] | +----------------+----------------+----------------+
-
(
a
−
b
>
0
∧
f
−
e
>
0
)
∧
(
c
−
g
<
0
∧
h
−
d
<
0
)
(a-b > 0 \wedge f-e > 0) \wedge (c-g < 0 \wedge h-d < 0)
(a−b>0∧f−e>0)∧(c−g<0∧h−d<0)
-
不存在MNE
不存在MNE(即
0M
)没有 “覆盖整个概率测度空间” 的规律, 但是可以归纳出一些 “几乎完全覆盖整个概率测度空间” 的规律. 如果我们忽视所有 ? − ? = 0 ?-?=0 ?−?=0 的情形, 所有不存在MNE的情形 当且仅当 ( a − b > 0 ∧ f − e < 0 ) ∨ ( a − b < 0 ∧ f − e > 0 ) ∨ ( c − g > 0 ∧ h − d < 0 ) ∨ ( c − g < 0 ∧ h − d > 0 ) (a-b > 0 \wedge f-e < 0) \vee (a-b < 0 \wedge f-e > 0) \vee (c-g > 0 \wedge h-d < 0) \vee (c-g < 0 \wedge h-d > 0) (a−b>0∧f−e<0)∨(a−b<0∧f−e>0)∨(c−g>0∧h−d<0)∨(c−g<0∧h−d>0). 注意到:- 整个概率测度空间 Δ = Δ p × Δ q \Delta = \Delta_p \times \Delta_q Δ=Δp×Δq 是二维的, 所有等式约束相应的概率测度子空间都是一维甚至零维的, 而在二维测度空间中可数个一维或者零维子空间测度之和为零.
- ( a − b > 0 ∧ f − e < 0 ) ∨ ( a − b < 0 ∧ f − e > 0 ) ∨ ( c − g > 0 ∧ h − d < 0 ) ∨ ( c − g < 0 ∧ h − d > 0 ) (a-b > 0 \wedge f-e < 0) \vee (a-b < 0 \wedge f-e > 0) \vee (c-g > 0 \wedge h-d < 0) \vee (c-g < 0 \wedge h-d > 0) (a−b>0∧f−e<0)∨(a−b<0∧f−e>0)∨(c−g>0∧h−d<0)∨(c−g<0∧h−d>0) 的实际含义依次是: U严格占优D; D严格占优U; L严格占优R; R严格占优L.
由此我们得出结论: 不存在MNE(只存在PNE) 当且仅当 存在严格占优纯策略. 这一命题几乎总是成立. (这一命题成立的概率子空间的测度 ∣ Δ 成立 ∣ |\Delta_{\text{成立}}| ∣Δ成立∣ 等于 整个概率测度空间的测度 ∣ Δ ∣ |\Delta| ∣Δ∣)
以下是忽视所有 ? − ? = 0 ?-?=0 ?−?=0 的情形的子表, 已经用中括号框出不存在MNE(即
0M
)的情形.+-------+-------+-------+-------+ | a-b>0 | a-b>0 | a-b<0 | a-b<0 | | & | & | & | & | | f-e>0 | f-e<0 | f-e<0 | f-e>0 | +-------+-------+-------+-------+-------+ | c-g>0 | | ++++| | ++++| | & | 2P 1M | 1P[0M]| 0P 1M | 1P[0M]| | h-d>0 | | ++++| | ++++| +-------+-------+-------+-------+-------+ | c-g>0 | ++++| ++++| ++++| ++++| | & | 1P[0M]| 1P[0M]| 1P[0M]| 1P[0M]| | h-d<0 | ++++| ++++| ++++| ++++| +-------+-------+-------+-------+-------+ | c-g<0 | | ++++| | ++++| | & | 0P 1M | 1P[0M]| 2P 1M | 1P[0M]| | h-d<0 | | ++++| | ++++| +-------+-------+-------+-------+-------+ | c-g<0 | ++++| ++++| ++++| ++++| | & | 1P[0M]| 1P[0M]| 1P[0M]| 1P[0M]| | h-d>0 | ++++| ++++| ++++| ++++| +-------+-------+-------+-------+-------+
-
总结如下:
- 不存在PNE(只存在MNE) 当且仅当 “纯策略最优反应” 完全不重合. 这一命题总是成立.
- 不存在MNE(只存在PNE) 当且仅当 存在严格占优纯策略. 这一命题"几乎总是成立.
- (推论) “纯策略最优反应” 完全不重合时, 不存在严格占优纯策略; 存在严格占优纯策略时, “纯策略最优反应” 有重合. 这一命题"几乎总是成立.
- (推论) “纯策略最优反应” 有重合 而且 不存在严格占优纯策略时, 既存在PNE又存在MNE. 这一命题"几乎总是成立.
NE Equivalent Condition
选取
p
∗
p^*
p∗ 使得
min
q
U
(
p
∗
,
q
)
=
max
p
min
q
U
(
p
,
q
)
\min\limits_q U(p^*,q) = \max\limits_p \min\limits_q U(p,q)
qminU(p∗,q)=pmaxqminU(p,q)
选取
q
∗
q^*
q∗ 使得
max
p
U
(
p
,
q
∗
)
=
min
q
max
p
U
(
p
,
q
)
\max\limits_p U(p,q^*) = \min\limits_q \max\limits_p U(p,q)
pmaxU(p,q∗)=qminpmaxU(p,q)
max p min q U ( p , q ) = min q max p U ( p , q ) ⟹ MNE \max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q) \implies \text{MNE} pmaxqminU(p,q)=qminpmaxU(p,q)⟹MNE
由于
max
p
min
q
U
(
p
,
q
)
=
min
q
max
p
U
(
p
,
q
)
\max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q)
pmaxqminU(p,q)=qminpmaxU(p,q)
因此
min
q
U
(
p
∗
,
q
)
=
max
p
U
(
p
,
q
∗
)
\min\limits_q U(p^*,q) = \max\limits_p U(p,q^*)
qminU(p∗,q)=pmaxU(p,q∗)
-
由于 ∀ p ∈ Δ p \forall p \in \Delta_p ∀p∈Δp, U ( p , q ∗ ) ⩽ max p U ( p , q ∗ ) = min q U ( p ∗ , q ) ⩽ U ( p ∗ , q ∗ ) U(p,q^*) \leqslant \max\limits_p U(p,q^*) = \min\limits_q U(p^*,q) \leqslant U(p^*,q^*) U(p,q∗)⩽pmaxU(p,q∗)=qminU(p∗,q)⩽U(p∗,q∗)
因此 p ∗ p^* p∗ 是 q ∗ q^* q∗ 的最优反应 -
由于 ∀ q ∈ Δ q \forall q \in \Delta_q ∀q∈Δq, U ( p ∗ , q ) ⩾ min q U ( p ∗ , q ) = max p U ( p , q ∗ ) ⩾ U ( p ∗ , q ∗ ) U(p^*,q) \geqslant \min\limits_q U(p^*,q) = \max\limits_p U(p,q^*) \geqslant U(p^*,q^*) U(p∗,q)⩾qminU(p∗,q)=pmaxU(p,q∗)⩾U(p∗,q∗)
因此 q ∗ q^* q∗ 是 p ∗ p^* p∗ 的最优反应
因此 ( p ∗ , q ∗ ) (p^*,q^*) (p∗,q∗) 构成纳什均衡.
max p min q U ( p , q ) = min q max p U ( p , q ) ⟸ MNE \max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q) \impliedby \text{MNE} pmaxqminU(p,q)=qminpmaxU(p,q)⟸MNE
由于
U
(
p
,
q
)
⩽
max
p
U
(
p
,
q
)
U(p,q) \leqslant \max\limits_p U(p,q)
U(p,q)⩽pmaxU(p,q)
所以
min
q
U
(
p
,
q
)
⩽
min
q
max
p
U
(
p
,
q
)
\min\limits_q U(p,q) \leqslant \min\limits_q \max\limits_p U(p,q)
qminU(p,q)⩽qminpmaxU(p,q)
进而
max
p
min
q
U
(
p
,
q
)
⩽
min
q
max
p
U
(
p
,
q
)
\max\limits_p \min\limits_q U(p,q) \leqslant \min\limits_q \max\limits_p U(p,q)
pmaxqminU(p,q)⩽qminpmaxU(p,q)
亦即
min
q
U
(
p
∗
,
q
)
⩽
max
p
U
(
p
,
q
∗
)
\min\limits_q U(p^*,q) \leqslant \max\limits_p U(p,q^*)
qminU(p∗,q)⩽pmaxU(p,q∗) ※
-
由于 p ∗ p^* p∗ 是 q ∗ q^* q∗ 的最优反应
因此 ∀ p ∈ Δ p \forall p \in \Delta_p ∀p∈Δp, U ( p , q ∗ ) ⩽ U ( p ∗ , q ∗ ) U(p,q^*) \leqslant U(p^*,q^*) U(p,q∗)⩽U(p∗,q∗) -
由于 q ∗ q^* q∗ 是 p ∗ p^* p∗ 的最优反应
因此 ∀ q ∈ Δ q \forall q \in \Delta_q ∀q∈Δq, U ( p ∗ , q ) ⩾ U ( p ∗ , q ∗ ) U(p^*,q) \geqslant U(p^*,q^*) U(p∗,q)⩾U(p∗,q∗)
进而
∀
p
∈
Δ
p
\forall p \in \Delta_p
∀p∈Δp,
∀
q
∈
Δ
q
\forall q \in \Delta_q
∀q∈Δq,
U
(
p
∗
,
q
)
⩾
U
(
p
∗
,
q
∗
)
⩾
U
(
p
,
q
∗
)
U(p^*,q) \geqslant U(p^*,q^*) \geqslant U(p,q^*)
U(p∗,q)⩾U(p∗,q∗)⩾U(p,q∗)
亦即
min
q
U
(
p
∗
,
q
)
⩾
U
(
p
∗
,
q
∗
)
⩾
max
p
U
(
p
,
q
∗
)
\min\limits_q U(p^*,q) \geqslant U(p^*,q^*) \geqslant \max\limits_p U(p,q^*)
qminU(p∗,q)⩾U(p∗,q∗)⩾pmaxU(p,q∗) ※
进而
min
q
U
(
p
∗
,
q
)
⩾
U
(
p
∗
,
q
∗
)
=
max
p
U
(
p
,
q
∗
)
\min\limits_q U(p^*,q) \geqslant U(p^*,q^*) = \max\limits_p U(p,q^*)
qminU(p∗,q)⩾U(p∗,q∗)=pmaxU(p,q∗)
进而
max
p
min
q
U
(
p
,
q
)
=
min
q
max
p
U
(
p
,
q
)
\max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q)
pmaxqminU(p,q)=qminpmaxU(p,q)
Minimax Theorem Proof
-
minimax 定理的形式化
Δ p = { p ∣ p ≽ 0 , p 1 T = 1 } \Delta_p = \{p | p \succcurlyeq 0, p1^T=1 \} Δp={p∣p≽0,p1T=1}, Δ q = { q ∣ q ≽ 0 , q 1 T = 1 } \Delta_q = \{q | q \succcurlyeq 0, q1^T=1 \} Δq={q∣q≽0,q1T=1}, Δ = Δ p × Δ q \Delta = \Delta_p \times \Delta_q Δ=Δp×Δq
U : Δ → R U: \Delta \to \reals U:Δ→R, U U U 连续, 对 p p p 凹, 对 q q q 凸
要求证明 max p min q U ( p , q ) = min q max p U ( p , q ) \max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q) pmaxqminU(p,q)=qminpmaxU(p,q)能力所限, 只考虑欧几里得空间的情形
一般的情况, 简单列出, 不予证明Δ p , Δ q \Delta_p, \Delta_q Δp,Δq 是巴拿赫的空间的紧凸子集, Δ = Δ p × Δ q \Delta=\Delta_p \times \Delta_q Δ=Δp×Δq
U : Δ → R U: \Delta \to \reals U:Δ→R, U U U 对 Δ p \Delta_p Δp 上半连续, 对 Δ q \Delta_q Δq 下半连续, 下列条件满足其一- U U U 对 p p p 拟凹(quasi-convex), 对 q q q 拟凸(quasi-concave)
-
U
U
U 对
p
p
p 类凹(convex-like), 对
q
q
q 类凸(concave-like)
∀ p 1 , p 2 \forall{p_1, p_2} ∀p1,p2, ∀ t ∈ [ 0 , 1 ] \forall{t \in [0,1]} ∀t∈[0,1], ∃ p 0 \exists{p_0} ∃p0, t U ( p 1 , q ) + ( 1 − t ) U ( p 2 , q ) ⩽ U ( p 0 , q ) tU(p_1,q)+(1-t)U(p_2,q) \leqslant U(p_0,q) tU(p1,q)+(1−t)U(p2,q)⩽U(p0,q)
∀ q 1 , q 2 \forall{q_1, q_2} ∀q1,q2, ∀ t ∈ [ 0 , 1 ] \forall{t \in [0,1]} ∀t∈[0,1], ∃ q 0 \exists{q_0} ∃q0, t U ( p , q 1 ) + ( 1 − t ) U ( p , q 2 ) ⩾ U ( p , q 0 ) tU(p,q_1)+(1-t)U(p,q_2) \geqslant U(p,q_0) tU(p,q1)+(1−t)U(p,q2)⩾U(p,q0)
要求证明 max p min q U ( p , q ) = min q max p U ( p , q ) \max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q) pmaxqminU(p,q)=qminpmaxU(p,q)
-
minimax 定理的证明主要有两种方法
-
纯粹的拓扑方法, 主要使用布劳威尔不动点定理(Brouwer fixed-point theorem)
主要证明思路是:-
纳什均衡总是存在
(直接使用纳什一九五零年初次证明纳什均衡存在性的方法, 参考 John Nash, Non-Cooperative Games, Annals of Mathematics, Vol. 54, No. 2, September, 1951) -
如果纳什均衡 ( p ∗ , q ∗ ) (p^*,q^*) (p∗,q∗) 存在, 那么 max p min q U ( p , q ) = min q max p U ( p , q ) \max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q) pmaxqminU(p,q)=qminpmaxU(p,q).
-
-
纯粹的拓扑方法没有体现 minimax 问题的特殊性, 尤其没有体现 U ( p , q ) U(p,q) U(p,q) 的凹凸性, 是数学上的牛刀杀鸡, 因此数学家一直在探索尽可能初等的证明方法. 不使用布劳威尔不动点定理, 主要有两种代表性的证明方法:
-
偏向代数的拓扑方法, 主要使用哈恩-巴拿赫定理(Hahn–Banach theorem)
主要证明思路是:- 哈恩-巴拿赫定理(Hahn–Banach theorem) ⟹ 超平面分离定理(separating hyperplane theorem) ⟹ Slater条件(Slater’s Condition)
- 将 minimax 定理归结为一个凸优化问题的拉格朗日强对偶性(strong duality of lagrangian)
-
偏向分析的拓扑方法, 主要使用海涅-博雷尔定理(Heine–Borel theorem)
主要证明思路是:- 海涅-博雷尔定理(Heine–Borel theorem) ⟹ 一定条件下, 有限交集性质(finite intersection property)蕴含无穷交集性质
- U ( p , q ) U(p,q) U(p,q) 的水平集(level sets), 具有有限交集性质, 进而具有无穷交集性质
- 无穷交集的元素具有类似鞍点的性质, 这样就证明了 minimax 定理
-
-
Brouwer Fixed Point Theorem
能力所限, 只考虑欧几里得空间的情形
一般的情况, 简单列出, 不予讨论
欧几里得空间的布劳威尔不动点定理(Brouwer fixed-point theorem)
欧几里得空间的紧凸子集 X X X, 连续函数 f : X → X f: X \to X f:X→X, 则 ∃ x ∈ X \exists{x \in X} ∃x∈X, f ( x ) = x f(x) = x f(x)=x
欧几里得空间的布劳威尔不动点定理存在初等证明, 例如基于斯波那引理(Sperner’s lemma)的证明
欧几里得空间的角谷不动点定理(Kakutani fixed-point theorem)
欧几里得空间的紧凸子集 X X X, 映射 f : X → P ( X ) f: X \to \mathcal{P}(X) f:X→P(X), f ( x ) f(x) f(x) 是非空凸集, { ( x , z ) ∣ x ∈ f ( x ) } \{(x, z) | x \in f(x)\} {(x,z)∣x∈f(x)} 是闭集, 则 ∃ x ∈ X \exists{x \in X} ∃x∈X, x ∈ f ( x ) x \in f(x) x∈f(x)
简单列出, 不予讨论
巴拿赫空间的布劳威尔不动点定理(Brouwer fixed-point theorem)
又称勒雷-绍德尔不动点定理(Leray-Schauder fixed-point theorem)
巴拿赫的空间的紧凸子集 X X X, 连续函数 f : X → X f: X \to X f:X→X, 则 ∃ x ∈ X \exists{x \in X} ∃x∈X, f ( x ) = x f(x) = x f(x)=x
简单列出, 不予讨论
Δ = Δ p × Δ q \Delta=\Delta_p \times \Delta_q Δ=Δp×Δq 也是紧凸集
注意到 Δ p , Δ q \Delta_p, \Delta_q Δp,Δq 是紧凸子集, 显然
⟦ x ⟧ = { x x ⩾ 0 0 x < 0 \llbracket x \rrbracket = \begin{cases} x & x \geqslant 0 \\ 0 & x < 0 \\ \end{cases} [[x]]={x0x⩾0x<0
( e i ) k = { 1 k = i 0 k ≠ i (e_i)_k = \begin{cases} 1 & k = i \\ 0 & k \neq i \\ \end{cases} (ei)k={10k=ik=i
ϕ i ∗ : Δ → [ 0 , + ∞ ) \phi^*_i: \Delta \to [0, +\infty) ϕi∗:Δ→[0,+∞)
ϕ i p ( p , q ) = ⟦ U ( e i , q ) − U ( p , q ) ⟧ \phi^p_i(p,q) = \llbracket U(e_i, q) - U(p,q) \rrbracket ϕip(p,q)=[[U(ei,q)−U(p,q)]]
ϕ i q ( p , q ) = ⟦ − U ( p , e i ) + U ( p , q ) ⟧ \phi^q_i(p,q) = \llbracket - U(p, e_i) + U(p,q) \rrbracket ϕiq(p,q)=[[−U(p,ei)+U(p,q)]]
Ψ ∗ : Δ → Δ ∗ \Psi^*: \Delta \to \Delta_* Ψ∗:Δ→Δ∗
[ Ψ p ( p , q ) ] i = p i + ϕ i p ( p , q ) 1 + ∑ j ϕ j p ( p , q ) [\Psi^p(p,q)]_i = \frac{p_i + \phi^p_i(p,q)}{1 + \sum\limits_{j} \phi^p_j(p,q)} [Ψp(p,q)]i=1+j∑ϕjp(p,q)pi+ϕip(p,q)
[ Ψ q ( p , q ) ] i = q i + ϕ i q ( p , q ) 1 + ∑ j ϕ j q ( p , q ) [\Psi^q(p,q)]_i = \frac{q_i + \phi^q_i(p,q)}{1 + \sum\limits_{j} \phi^q_j(p,q)} [Ψq(p,q)]i=1+j∑ϕjq(p,q)qi+ϕiq(p,q)
Ψ : Δ → Δ \Psi: \Delta \to \Delta Ψ:Δ→Δ
Ψ ( p , q ) = ( Ψ p ( p , q ) , Ψ q ( p , q ) ) \Psi(p, q) = (\Psi^p(p,q), \Psi^q(p,q)) Ψ(p,q)=(Ψp(p,q),Ψq(p,q))
Ψ \Psi Ψ 是连续函数
连续函数有限次复合或者四则运算生成的函数仍是连续函数
⟦
⋅
⟧
\llbracket\cdot\rrbracket
[[⋅]],
U
U
U, 都是连续函数
ϕ
∗
\phi^*
ϕ∗,
Ψ
∗
\Psi^*
Ψ∗,
Ψ
\Psi
Ψ 因此也是连续函数
特别指出
Ψ
∗
\Psi^*
Ψ∗ 的所有分母非负
如果 p p p 是一个概率分布, 那么 Ψ p ( p , q ) \Psi^p(p,q) Ψp(p,q) 也是一个概率分布
如果 q q q 是一个概率分布, 那么 Ψ q ( p , q ) \Psi^q(p,q) Ψq(p,q) 也是一个概率分布
显然
Δ \Delta Δ 上 Ψ \Psi Ψ 存在不动点 ( p ∗ , q ∗ ) = Ψ ( p ∗ , q ∗ ) (p^*,q^*) = \Psi(p^*,q^*) (p∗,q∗)=Ψ(p∗,q∗)
注意到欧几里得空间的布劳威尔不动点定理, 显然
欧几里得空间中, 波雷尔紧(任何开覆盖存在有限开覆盖) ⟺ 自列紧(任何点列存在收敛子列) ⟺ 有界闭集
注: 紧集的根本定义是波雷尔紧
拓扑学基本定理, 不证
U U U 在 Δ \Delta Δ 上存在最大值和最小值, 因此也存在相应的最值点
注意到紧集通过连续函数形成的像(image)仍是紧集
前文已证
Δ
\Delta
Δ 是紧集, 因此
Δ
\Delta
Δ 通过连续函数
U
U
U 形成的像
U
(
Δ
)
=
{
u
∣
u
=
U
(
p
,
q
)
,
(
p
,
q
)
∈
Δ
}
U(\Delta) = \{u | u = U(p,q), (p,q) \in \Delta\}
U(Δ)={u∣u=U(p,q),(p,q)∈Δ} 也是紧集
注意到
U
(
Δ
)
⊆
R
U(\Delta) \subseteq \reals
U(Δ)⊆R, 根据欧几里得空间波雷尔紧集和有界闭集的等价性,
U
(
Δ
)
U(\Delta)
U(Δ) 是闭区间
因此
U
U
U 存在最值(闭区间端点), 进而也存在相应的最值点
不动点 ⟹ 纳什均衡
使用反证法
如果
(
p
∗
,
q
∗
)
(p^*,q^*)
(p∗,q∗) 是不动点, 但不是纳什均衡
- 如果存在
∃
p
+
\exists{p^+}
∃p+,
U
(
p
+
,
q
∗
)
>
U
(
p
∗
,
q
∗
)
U(p^+,q^*) > U(p^*,q^*)
U(p+,q∗)>U(p∗,q∗)
进而 ∃ i \exists{i} ∃i, ϕ i p ( p ∗ , q ∗ ) > 0 \phi^p_i(p^*, q^*) > 0 ϕip(p∗,q∗)>0 (否则 U ( p + , q ∗ ) = U ( ∑ j ( p + ) j e j , q ∗ ) ⩽ U ( p ∗ , q ∗ ) U(p^+,q^*) = U(\sum\limits_{j}(p^+)_je_j,q^*) \leqslant U(p^*,q^*) U(p+,q∗)=U(j∑(p+)jej,q∗)⩽U(p∗,q∗))
进而 Ψ p ( p ∗ , q ∗ ) ≠ p ∗ \Psi^p(p^*,q^*) \neq p^* Ψp(p∗,q∗)=p∗
进而 ( p ∗ , q ∗ ) (p^*,q^*) (p∗,q∗) 不是不动点, 矛盾! - 如果存在
∃
q
+
\exists{q^+}
∃q+,
U
(
p
∗
,
q
+
)
<
U
(
p
∗
,
q
∗
)
U(p^*,q^+) < U(p^*,q^*)
U(p∗,q+)<U(p∗,q∗)
进而 ∃ i \exists{i} ∃i, ϕ i p ( p ∗ , q ∗ ) > 0 \phi^p_i(p^*, q^*) > 0 ϕip(p∗,q∗)>0 (否则 U ( p ∗ , q + ) = U ( p ∗ , ∑ j ( q + ) j e j ) ⩾ U ( p ∗ , q ∗ ) U(p^*,q^+) = U(p^*,\sum\limits_{j}(q^+)_je_j) \geqslant U(p^*,q^*) U(p∗,q+)=U(p∗,j∑(q+)jej)⩾U(p∗,q∗))
进而 Ψ q ( p ∗ , q ∗ ) ≠ q ∗ \Psi^q(p^*,q^*) \neq q^* Ψq(p∗,q∗)=q∗
进而 ( p ∗ , q ∗ ) (p^*,q^*) (p∗,q∗) 不是不动点, 矛盾!
纳什均衡 ⟹ max p min q U ( p , q ) = min q max p U ( p , q ) \max\limits_p \min\limits_q U(p,q) = \min\limits_q \max\limits_p U(p,q) pmaxqminU(p,q)=qminpmaxU(p,q)
根据 [不动点 ⟹ 纳什均衡] 我们知道:
∀
p
\forall{p}
∀p,
U
(
p
,
q
∗
)
⩽
U
(
p
∗
,
q
∗
)
U(p,q^*) \leqslant U(p^*,q^*)
U(p,q∗)⩽U(p∗,q∗)
∀
q
\forall{q}
∀q,
U
(
p
∗
,
q
)
⩾
U
(
p
∗
,
q
∗
)
U(p^*,q) \geqslant U(p^*,q^*)
U(p∗,q)⩾U(p∗,q∗)
所以
U ( p , q ∗ ) ⩽ U ( p ∗ , q ) U(p,q^*) \leqslant U(p^*,q) U(p,q∗)⩽U(p∗,q)
由于 p , q p,q p,q 任取, 所以
max p U ( p , q ∗ ) ⩽ min q U ( p ∗ , q ) \max_{p} U(p,q^*) \leqslant \min_{q} U(p^*,q) maxpU(p,q∗)⩽minqU(p∗,q)
此时, 左侧再取min, 更小, 不影响不等式; 右侧再取max, 更大, 不影响不等式
min q ∗ max p U ( p , q ∗ ) ⩽ max p U ( p , q ∗ ) ⩽ min q U ( p ∗ , q ) ⩽ max p ∗ min q U ( p ∗ , q ) \min_{q^*}\max_{p} U(p,q^*) \leqslant \max_{p} U(p,q^*) \leqslant \min_{q} U(p^*,q) \leqslant \max_{p^*}\min_{q} U(p^*,q) minq∗maxpU(p,q∗)⩽maxpU(p,q∗)⩽minqU(p∗,q)⩽maxp∗minqU(p∗,q)
由于 min-max >= max-min 总是成立, 而此时我们有 min-max <= max-min, 因此 min-max == max-min
注: 由于 p ∗ , q ∗ p^*,q^* p∗,q∗ 实际上是 brouwer 得到的产物, 与 min-max 或者 max-min 的选取方式无关, 因此
min q max p U ( p , q ) ⩽ max p U ( p , q ∗ ) \min_{q}\max_{p} U(p,q) \leqslant \max_{p} U(p,q^*) minqmaxpU(p,q)⩽maxpU(p,q∗)
min q U ( p ∗ , q ) ⩽ max p min q U ( p , q ) \min_{q} U(p^*,q) \leqslant \max_{p}\min_{q} U(p,q) minqU(p∗,q)⩽maxpminqU(p,q)
前文写成 min q ∗ , max p ∗ \min_{q^*},\max_{p^*} minq∗,maxp∗只是为了方便阅读
Hahn Banach Thorem
能力所限, 只考虑欧几里得空间的情形
一般的情况, 简单列出, 不予证明
哈恩-巴拿赫定理(Hahn–Banach theorem)
X X X 是线性空间, Z Z Z 是 X X X 的线性子空间p : X → R p: X \to \reals p:X→R 是次线性泛函, 即:
- p ( x + y ) ⩽ p ( x ) + p ( y ) p(x+y) \leqslant p(x)+p(y) p(x+y)⩽p(x)+p(y)
- p ( t x ) = t p ( x ) p(tx) = tp(x) p(tx)=tp(x)
f Z : Z → R f_Z: Z \to \reals fZ:Z→R 是线性泛函, 即:
- f Z ( x + y ) ⩽ f Z ( x ) + f Z ( y ) f_Z(x+y) \leqslant f_Z(x)+f_Z(y) fZ(x+y)⩽fZ(x)+fZ(y)
- f Z ( t x ) = t f Z ( x ) f_Z(tx) = tf_Z(x) fZ(tx)=tfZ(x)
∀ x ∈ Z \forall{x \in Z} ∀x∈Z, f Z ( x ) ⩽ p ( x ) f_Z(x) \leqslant p(x) fZ(x)⩽p(x)
∃ f X : X → R \exists{f_X: X \to \reals} ∃fX:X→R, 是线性泛函, 而且满足:
- ∀ x ∈ Z \forall{x \in Z} ∀x∈Z, f X ( x ) = f Z ( x ) f_X(x) = f_Z(x) fX(x)=fZ(x)
- ∀ x ∈ X \forall{x \in X} ∀x∈X, f X ( x ) ⩽ p ( x ) f_X(x) \leqslant p(x) fX(x)⩽p(x)
哈恩-巴拿赫定理直接基于佐恩引理(Zorn’s lemma)证明
注: 佐恩引理等价于选择公理(Axiom of Choice), 是数学(ZFC set theory)的公理之一
超平面分离定理(separating hyperplane theorem)
X X X 是欧几里得, W W W 是 X X X 的凸子集, 固定任意 x 1 ∉ W x_1 \notin W x1∈/W
∃ ℓ : X → R \exists{\ell}: X \to \reals ∃ℓ:X→R, 是线性泛函, 而且满足:
- ℓ ( x 1 ) = 1 \ell(x_1) = 1 ℓ(x1)=1
- ∀ w ∈ W \forall{w \in W} ∀w∈W, ℓ ( w ) < 1 \ell(w) < 1 ℓ(w)<1
固定任意
w
0
∈
W
w_0 \in W
w0∈W, 定义
p
(
x
)
=
inf
r
{
r
∣
[
w
0
+
1
r
(
x
−
w
0
)
]
∈
W
}
p(x) = \inf\limits_r\{r | [w_0 + \frac{1}{r} (x-w_0)] \in W\}
p(x)=rinf{r∣[w0+r1(x−w0)]∈W}
易证
p
p
p 次线性
定义
Z
(
{
x
1
}
)
=
{
z
∣
z
=
t
1
x
1
+
(
1
−
t
1
)
w
0
}
Z(\{x_1\}) = \{z | z=t_1x_1+(1-t_1)w_0\}
Z({x1})={z∣z=t1x1+(1−t1)w0}
定义
f
Z
(
{
x
1
}
)
(
z
)
=
t
1
f_{Z(\{x_1\})}(z) = t_1
fZ({x1})(z)=t1, 如果
z
=
t
1
x
1
+
(
1
−
t
1
)
w
0
z=t_1x_1+(1-t_1)w_0
z=t1x1+(1−t1)w0
易证
f
Z
(
{
x
1
}
)
f_{Z(\{x_1\})}
fZ({x1}) 满足要求:
- f Z ( { x 1 } ) ( x 1 ) = 1 f_{Z(\{x_1\})}(x_1) = 1 fZ({x1})(x1)=1
- ∀ w ∈ W ∩ Z ( { x 1 } ) \forall{w \in W \cap Z(\{x_1\})} ∀w∈W∩Z({x1}), f Z ( { x 1 } ) ( w ) < 1 f_{Z(\{x_1\})}(w) < 1 fZ({x1})(w)<1
固定任意
x
2
∉
W
x_2 \notin W
x2∈/W, 使得
{
(
x
1
−
w
0
)
,
(
x
2
−
w
0
)
}
\{(x_1-w_0),(x_2-w_0)\}
{(x1−w0),(x2−w0)} 线性无关
定义
Z
(
{
x
1
,
x
2
}
)
=
{
z
∣
z
=
t
2
x
2
+
(
1
−
t
2
)
(
t
x
1
+
(
1
−
t
)
w
0
)
}
Z(\{x_1,x_2\}) = \{z | z=t_2x_2+(1-t_2)(tx_1+(1-t)w_0)\}
Z({x1,x2})={z∣z=t2x2+(1−t2)(tx1+(1−t)w0)}
根据哈恩-巴拿赫定理, 获得
f
Z
(
{
x
1
,
x
2
}
)
f_{Z(\{x_1,x_2\})}
fZ({x1,x2})
- f Z ( { x 1 } ) ( x 1 ) = 1 f_{Z(\{x_1\})}(x_1) = 1 fZ({x1})(x1)=1
- ∀ w ∈ W ∩ Z ( { x 1 , x 2 } ) \forall{w \in W \cap Z(\{x_1,x_2\})} ∀w∈W∩Z({x1,x2}), f Z ( { x 1 , x 2 } ) ( w ) < 1 f_{Z(\{x_1,x_2\})}(w) < 1 fZ({x1,x2})(w)<1
注: 此处的证明必须注意到
- p ( x 1 ) = 1 p(x_1) = 1 p(x1)=1
- ∀ w ∈ W ∩ Z ( { ⋯ } ) \forall{w \in W \cap Z(\{\cdots\})} ∀w∈W∩Z({⋯}), p ( w ) < 1 p(w) < 1 p(w)<1, f Z ( { ⋯ } ) ( w ) ⩽ p ( w ) < 1 f_{Z(\{\cdots\})}(w) \leqslant p(w) < 1 fZ({⋯})(w)⩽p(w)<1
与此同理, 扩展 Z ( { ⋯ } ) Z(\{\cdots\}) Z({⋯}), 直到 Z ( { ⋯ } ) = X Z(\{\cdots\}) = X Z({⋯})=X
Slater条件(Slater’s Condition)
未完待续, 参考 Stephen Boyd & Lieven Vandenberghe, “Convex Optimization” (https://web.stanford.edu/~boyd/cvxbook/), 式(5.41), 参考 Borwein M. Jonathan, “A very complicated proof of the minimax theorem” (Minimax Theory and its Applications 1.1 (2016): 21-27) |
---|
Heine Borel Theorem
能力所限, 只考虑欧几里得空间的情形
一般的情况, 简单列出, 不予证明
海涅-博雷尔定理(Heine–Borel theorem)
有限交集性质(finite intersection property) ⟹ 无穷交集性质
U ( p , q ) U(p,q) U(p,q) 的水平集(level sets), 具有有限交集性质, 进而具有无穷交集性质
未完待续, 参考 I. Joó, “A simple proof for von Neumann’s minimax theorem” (Acta Sci. Math 42 (1980): 91-94.), 参考 Bela Sz.-Nagy, “Introduction to real functions and orthogonal expansions” (https://archive.org/details/introductiontore00szok/page/40/mode/2up), 31-42页. |
---|