从jensen不等式到相对熵的非负性性
前言:在上上次博客我们证明观测到的归一化的频率就是最大似然估计的解时,我们用到了相对熵恒大于等于0的性质,那么本文就当是扩展一下知识,主要以证明和介绍为主。
首先我们简要介绍一下熵的概念。“熵”这一概念并不仅仅存在于物理化学中,还应用于信息论中。熵是结果不确定度的一种度量。shannon熵定义为:
H
(
x
)
=
−
∑
i
P
(
x
i
)
log
P
(
x
i
)
H ( x ) = - \sum _ { i } P \left( x _ { i } \right) \log P \left( x _ { i } \right)
H(x)=−∑iP(xi)logP(xi)
其中X为随机变量,它在K个事件
x
1
x_{1}
x1,
x
2
x_{2}
x2,
x
k
x_{k}
xk的离散集合上有概率P(
x
i
x_{i}
xi)
ps:我们可以试着证明一下当其实均匀分布时,它的熵值最大。(思路提示:可以用用最小二乘法。具体详见下篇文章。)
相对熵又称KL散度,信息散度,是两个概率分布间差异的非对称性度量。令P(X),Q(X)是随机变量X的概率分布,则在其实离散型随机变量的情况下,相对熵为:
H
(
P
∥
Q
)
=
∑
i
P
(
x
i
)
log
P
(
x
i
)
Q
(
x
i
)
H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }
H(P∥Q)=∑iP(xi)logQ(xi)P(xi)
故我们观察相对熵的形式可以发现,它可以看做是对数几率(计分矩阵中的分值)的期望,即将P(X)看做是在匹配模型M中的残基a,b的联配概率,而Q(X)看做是无关模型中的残基a,b的独立出现的概率。故相对熵可作为模型的期望分值。
回归本文的主题,即证明相对熵的正定性。因为证明的过程中用到了jensen
不等式,所以我们先证明一下jensen不等式。
jensen不等式在概率论、机器学习、测度论等有着广泛的应用。
证明之前我们先了解凸函数的性质:
t
f
(
x
1
)
+
(
1
−
t
)
f
(
x
2
)
≥
f
(
t
x
1
+
(
1
−
t
)
x
2
)
t f \left( x _ { 1 } \right) + ( 1 - t ) f \left( x _ { 2 } \right) \geq f \left( t x _ { 1 } + ( 1 - t ) x _ { 2 } \right)
tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2)
x
1
x_{1}
x1,
x
2
x_{2}
x2是凸函数上的任意两点,且t属于[0,1]
证明过程如下:
若对于任意的点集{
x
i
x_{i}
xi},若
λ
i
\lambda_{i}
λi>0,且
∑
i
λ
i
=
1
\sum _ { i } \lambda _ { i } = 1
∑iλi=1, 请证明凸函数f(x)满足:
f
(
∑
i
=
1
M
λ
i
x
i
)
≤
∑
i
=
1
M
λ
i
f
(
x
i
)
f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } \right) \leq \sum _ { i = 1 } ^ { M } \lambda _ { i } f \left( x _ { i } \right)
f(∑i=1Mλixi)≤∑i=1Mλif(xi)
数学归纳法进行证明:
当i=1或2时,由凸函数的性质一易知该不等式成立。
假设当i=M时,不等式成立。
现在证当i=M+1时,该不等式也成立。即证明:
f
(
∑
i
=
1
M
+
1
λ
i
x
i
)
≤
∑
i
=
1
M
+
1
λ
i
f
(
x
i
)
f \left( \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } x _ { i } \right) \leq \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } f \left( x _ { i } \right)
f(∑i=1M+1λixi)≤∑i=1M+1λif(xi) 我们首先处理不等号左边的式子:
f
(
∑
i
=
1
M
+
1
λ
i
x
i
)
f \left( \sum _ { i = 1 } ^ { M+1} \lambda _ { i } x _ { i } \right)
f(∑i=1M+1λixi) =
f
(
∑
i
=
1
M
λ
i
x
i
+
λ
M
+
1
x
M
+
1
)
f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } + \lambda _ { M + 1 } x _ { M+1 } \right)
f(∑i=1Mλixi+λM+1xM+1)
为了符合凸函数中t,(1-t)的形式,我们令
a
i
=
λ
i
1
−
λ
M
+
1
a _ { i } = \frac { \lambda _ { i } } { 1 - \lambda_{M+1}}
ai=1−λM+1λi
故
f
(
∑
i
=
1
M
+
1
λ
i
x
i
)
f \left( \sum _ { i = 1 } ^ { M+1} \lambda _ { i } x _ { i } \right)
f(∑i=1M+1λixi)=
f
(
λ
M
+
1
x
M
+
1
+
(
1
−
λ
M
+
1
)
∑
i
=
1
M
a
i
x
i
)
f \left( \lambda _ { M + 1 } x _ { M + 1 } + \left( 1 - \lambda _ { M + 1 } \right) \sum _ { i = 1 } ^ { M } \ a _ { i } x _ { i } \right)
f(λM+1xM+1+(1−λM+1)∑i=1M aixi)
所以根据凸函数的性质对等号右边的式子进一步处理可得:
f
(
∑
i
=
1
M
+
1
λ
i
x
i
)
≤
λ
M
+
1
f
(
x
M
+
1
)
+
(
1
−
λ
M
+
1
)
f
(
∑
i
=
1
M
a
i
x
i
)
f \left( \sum _ { i = 1 } ^ { M + 1 } \lambda _ { i } x _ { i } \right) \leq \lambda _ { M + 1 } f \left( x _ { M + 1 } \right) + \left( 1 - \lambda _ { M + 1 } \right) f \left( \sum _ { i = 1 } ^ { M } \ a _ { i } x _ { i } \right)
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1−λM+1)f(∑i=1M aixi)
根据我们的假设当i=M,不等式成立得:
f
(
∑
i
=
1
m
a
i
x
i
)
⩽
∑
i
=
1
M
a
i
f
(
x
i
)
f \left( \sum _ { i = 1 } ^ { m } a _ { i } x _ { i } \right) \leqslant \sum _ { i = 1 } ^ { M } a _ { i } f \left( x _ { i } \right)
f(∑i=1maixi)⩽∑i=1Maif(xi)
所以将上一个式子带入上上个式子中得:
f
(
∑
i
=
1
M
+
1
λ
i
x
i
)
≤
λ
M
+
1
f
(
x
M
+
1
)
+
(
1
−
λ
M
+
1
)
∑
i
=
1
M
a
i
f
(
x
i
)
f \left( \sum _ { i = 1 } ^ { M + 1 } \lambda _ { i } x _ { i } \right) \leq \lambda _ { M + 1 } f \left( x _ { M + 1 } \right) + \left( 1 - \lambda _ { M + 1 } \right) \sum _ { i = 1 } ^ { M } a _ { i } f \left( x _ { i } \right)
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1−λM+1)∑i=1Maif(xi)
又因为
a
i
=
λ
i
1
−
λ
M
+
1
a _ { i } = \frac { \lambda _ { i } } { 1 - \lambda_{M+1}}
ai=1−λM+1λi 代入得:
f
(
∑
i
=
1
M
+
1
λ
i
x
i
)
⩽
λ
M
+
1
f
(
x
M
+
1
)
+
∑
i
=
1
M
λ
i
f
(
x
i
)
f \left( \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } x _ { i } \right) \leqslant \lambda _ { M + 1 } f \left( x _ { M+1 } \right) + \sum _ { i = 1 } ^ { M }\lambda_{i} f \left( x _ { i } \right)
f(∑i=1M+1λixi)⩽λM+1f(xM+1)+∑i=1Mλif(xi)=
∑
i
=
1
M
+
1
λ
i
f
(
x
i
)
\sum _ { i = 1 } ^ { M+1 } \lambda _ { i } f \left( x _ { i } \right)
∑i=1M+1λif(xi)
因此当i=M+1时,jensen不等式亦成立。
综上,jensen不等式成立。同理可证,但函数为凹函数时,jensen不等式的符号相反。
jensen不等式可以用来证明均值不等式、Holder不等式以及柯西不等式。同时jensen不等式可以用来证明相对熵的正定性。
All right, 我们已经证明了jensen不等式成立,可以放心的使用啦。
相对熵的非负性性证明:
证明:
H
(
P
∥
Q
)
=
∑
i
P
(
x
i
)
log
P
(
x
i
)
Q
(
x
i
)
H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }
H(P∥Q)=∑iP(xi)logQ(xi)P(xi) >=0
即证:-
H
(
P
∥
Q
)
=
∑
i
P
(
x
i
)
log
P
(
x
i
)
Q
(
x
i
)
H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }
H(P∥Q)=∑iP(xi)logQ(xi)P(xi) <=0
即证:
∑
i
P
(
x
i
)
log
Q
(
x
i
)
+
∑
i
P
(
x
i
)
log
1
P
(
x
i
)
\sum _ { i } P \left( x _ { i } \right) \log Q \left( x _ { i } \right) + \sum _ { i } P \left( x _ { i } \right) \log \frac { 1 } { P \left( x _ { i } \right) }
∑iP(xi)logQ(xi)+∑iP(xi)logP(xi)1 <=0
因为将P(x)看做是自变量,故
log
1
P
(
x
i
)
\log \frac { 1 } { P \left( x _ { i } \right) }
logP(xi)1可看做是凹函数。
故在凹函数下,根据jensen不等式:
f
(
∑
i
=
1
M
λ
i
x
i
)
⩽
∑
i
=
1
M
λ
i
f
(
x
i
)
f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } \right) \leqslant \sum _ { i = 1 } ^ { M } \lambda _ { i } f \left( x _ { i } \right)
f(∑i=1Mλixi)⩽∑i=1Mλif(xi)
故:
∑
i
P
(
x
i
)
log
1
P
(
x
i
)
\sum _ { i } P \left( x _ { i } \right) \log \frac { 1 } { P \left( x _ { i } \right) }
∑iP(xi)logP(xi)1<=
log
1
\log1
log1=0
即可证:
-
H
(
P
∥
Q
)
=
∑
i
P
(
x
i
)
log
P
(
x
i
)
Q
(
x
i
)
H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }
H(P∥Q)=∑iP(xi)logQ(xi)P(xi) <=0
证得:
H
(
P
∥
Q
)
=
∑
i
P
(
x
i
)
log
P
(
x
i
)
Q
(
x
i
)
H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }
H(P∥Q)=∑iP(xi)logQ(xi)P(xi)>=0
参考资料:刘勇. 关于詹森不等式证明不等式问题[J]. 科教文汇(29期):136-136.