KL divergence 有2个定义,分别是对于random variable 和 continuous variable, 我们经常使用它作为两个概率分布之间不相似性的度量。
对于Random variable(随机变量),有
对于continuous variable(连续变量),有
我们在此做对于Random variable的定义的KL >= 0的证明
为了证明该不等式,我们需要用到Jensen’s inequality 若 𝑓(𝑥) 是区间 [𝑎,𝑏] 上的凸函数,
,则下列不等式成立。:
Jensen’s inequality 提到 that if φ(x) is a convex function of x, we have
φ
(
E
(
x
)
)
<
=
E
(
φ
(
x
)
)
φ(E(x))<= E(φ(x))
φ(E(x))<=E(φ(x))
将期望值展开后,是这样一个式子, 其中
∑
i
a
i
=
1
\sum_i a_i = 1
∑iai=1:
𝑓
(
𝑎
1
𝑥
1
+
𝑎
2
𝑥
2
+
⋯
+
𝑎
𝑛
𝑥
𝑛
)
≤
𝑎
1
𝑓
(
𝑥
1
)
+
𝑎
2
𝑓
(
𝑥
2
)
+
⋯
+
𝑎
𝑛
𝑓
(
𝑥
𝑛
)
𝑓(𝑎_1𝑥_1+𝑎_2𝑥_2+⋯+𝑎_𝑛𝑥_𝑛)≤𝑎_1𝑓(𝑥_1)+𝑎_2𝑓(𝑥_2)+⋯+𝑎_𝑛𝑓(𝑥_𝑛)
f(a1x1+a2x2+⋯+anxn)≤a1f(x1)+a2f(x2)+⋯+anf(xn)
K
L
(
p
∣
∣
q
)
=
∑
x
p
(
x
)
l
o
g
2
p
(
x
)
q
(
x
)
=
−
∑
x
p
(
x
)
l
o
g
2
q
(
x
)
p
(
x
)
KL(p||q) = \sum_{x}p(x)log_{2}\frac{p(x)}{q(x)} = -\sum_{x}p(x)log_{2}\frac{q(x)}{p(x)}
KL(p∣∣q)=x∑p(x)log2q(x)p(x)=−x∑p(x)log2p(x)q(x)
这里p(x) 即为
a
i
a_i
ai, q(x)/p(x) 即为
x
i
x_i
xi, thi 是log2
>
=
−
l
o
g
2
(
∑
x
p
(
x
)
q
(
x
)
p
(
x
)
)
=
−
l
o
g
2
(
∑
q
(
x
)
)
=
0
>=- log_{2}(\sum_{x}p(x)\frac{q(x)}{p(x)}) = -log_2(\sum q(x)) = 0
>=−log2(x∑p(x)p(x)q(x))=−log2(∑q(x))=0