相对熵——KL散度
相对熵又被成为KL散度,或信息散度,用来度量两个概率分布间的非对称性差异,在信息论中KL相对熵等于两个概率分布的信息熵的差值。
相对熵的公式
设
P
(
x
)
、
Q
(
x
)
P(x)、Q(x)
P(x)、Q(x)是离散随机变量
X
X
X中取值
x
x
x的两个概率分布函数,它们的结果分别为
p
p
p和
q
q
q,则
p
p
p对
q
q
q的相对熵如下:
D
K
L
=
∑
x
∈
X
P
(
x
)
l
o
g
P
(
x
)
Q
(
x
)
=
E
p
[
l
o
g
d
P
(
x
)
d
Q
(
x
)
]
D_{KL} = \sum_{x\in X}^{}P(x)log\frac{P(x)}{Q(x)}=E_p\left [ log\frac{dP(x)}{dQ(x)} \right ]
DKL=x∈X∑P(x)logQ(x)P(x)=Ep[logdQ(x)dP(x)]
由该式可知当两个分布相同时,相对熵为0并且相对熵具有不对称性。
相对熵与交叉熵之间的关系
将上式中的对数部分展开,可以看到相对熵与绝对熵之间的关系:
D
K
L
(
p
∣
∣
q
)
=
∑
x
∈
X
P
(
x
)
l
o
g
P
(
x
)
+
∑
x
∈
X
P
(
x
)
l
o
g
1
Q
(
x
)
=
−
H
(
p
)
+
H
c
r
o
s
s
(
p
,
q
)
=
H
c
r
o
s
s
(
p
,
q
)
−
H
(
p
)
D_{KL}(p||q)=\sum_{x \in X}^{}P(x)logP(x) + \sum_{x \in X}^{}P(x)log\frac{1}{Q(x)} \newline =-H(p)+H_{cross}(p, q)\newline =H_{cross}(p,q)-H(p)
DKL(p∣∣q)=x∈X∑P(x)logP(x)+x∈X∑P(x)logQ(x)1=−H(p)+Hcross(p,q)=Hcross(p,q)−H(p)
相对熵是交叉熵中去掉熵的部分。