熵(entropy)的定义:
(1)离散熵。 离散型随机变量
X
X
X,
X
X
X的熵为
H
(
X
)
=
−
∑
x
P
(
x
)
log
(
P
(
x
)
)
H(X)=-\sum_{x}P(x)\log(P(x))
H(X)=−x∑P(x)log(P(x))
熵的意义在于衡量了变量的不确定性。熵越大,不确定性越大,包含的信息量越大。太阳从东边出来的可能性为1,从西边为0,此时的熵为
1
∗
log
(
1
1
)
+
0
∗
log
(
1
0
)
=
0
1*\log(\frac{1}{1})+0*\log(\frac{1}{0})=0
1∗log(11)+0∗log(01)=0,此时变量是非常确定的,而且包含的信息量很小。硬币的正反可能性都是0.5,此时熵为
0.5
∗
log
(
1
0.5
)
+
0.5
∗
log
(
1
0.5
)
=
1
(
取
log
=
log
2
)
0.5*\log(\frac{1}{0.5})+0.5*\log(\frac{1}{0.5})=1(取\log=\log_{2})
0.5∗log(0.51)+0.5∗log(0.51)=1(取log=log2),此时两者的概率相同,不确定性最大。
有如下结论:
- 均匀分布时,熵最大, H ( X ) = log ∣ C ∣ H(X)=\log{|C|} H(X)=log∣C∣
- 确定分布 { 0 , 0 , 1 , . . . , 0 } \{0,0,1,...,0\} {0,0,1,...,0}时,熵最小, H ( X ) = 0 H(X)=0 H(X)=0
(2)微分熵。是从连续型变量的角度来定义,
H
(
X
)
=
−
∫
−
∞
∞
p
(
x
)
log
p
(
x
)
d
x
=
−
E
[
log
p
(
x
)
]
H(X)=-\int_{-\infty}^{\infty}p(x)\log{p(x)}dx=-E[\log{p(x)}]
H(X)=−∫−∞∞p(x)logp(x)dx=−E[logp(x)]
微分熵并不是严格意义上的信息熵,微分熵的值可正可负,值的范围不确定。但是可以通过微分熵的相对大小去映射熵的相对大小。
最大熵
当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的
具有最大熵的概率分布推得。可以认为最大熵模型是在已知情况下,对随机变量
X
X
X的一种状态的平衡分布,可看作一种自然法则。即假设我们没有对
X
=
0
X=0
X=0和
X
=
1
X=1
X=1的先验,根据最大熵模型,会得出
P
(
X
=
0
)
=
P
(
X
=
1
)
=
0.5
P(X=0)=P(X=1)=0.5
P(X=0)=P(X=1)=0.5,这也符合了一种存在的法则。
在已知均值和方差的情况下,采用最大熵模型,可以推出满足条件的高斯分布。说明高斯分布满足了在已知情况下,对未知的情况下进行的最大限度的平衡,符合自然法则。
互信息论
条件熵:给定随机变量
A
A
A后,
X
X
X的熵(剩余的不确定性)
H
(
X
∣
Y
)
=
∑
y
p
(
y
)
H
(
X
∣
Y
=
y
)
=
−
∑
y
p
(
y
)
∑
x
p
(
x
∣
y
)
log
p
(
x
∣
y
)
=
−
∑
y
∑
x
p
(
x
,
y
)
log
p
(
x
∣
y
)
H(X|Y)=\sum_{y}p(y)H(X|Y=y)\\ =-\sum_{y}p(y)\sum_{x}p(x|y)\log{p(x|y)}\\ =-\sum_{y}\sum_{x}p(x,y)\log{p(x|y)}
H(X∣Y)=y∑p(y)H(X∣Y=y)=−y∑p(y)x∑p(x∣y)logp(x∣y)=−y∑x∑p(x,y)logp(x∣y)
由上式可得,若
X
X
X和
Y
Y
Y独立,则
H
(
X
∣
Y
)
=
H
(
X
)
H(X|Y)=H(X)
H(X∣Y)=H(X)
联合熵:
H
(
X
,
Y
)
=
−
∑
y
∑
x
p
(
x
,
y
)
log
p
(
x
,
y
)
=
−
∑
y
∑
x
p
(
x
,
y
)
log
p
(
x
∣
y
)
p
(
y
)
=
H
(
X
∣
Y
)
+
H
(
Y
)
=
H
(
Y
∣
X
)
+
H
(
X
)
H(X,Y)=-\sum_{y}\sum_{x}p(x,y)\log p(x,y)\\ =-\sum_{y}\sum_{x}p(x,y)\log p(x|y)p(y) \\ =H(X|Y)+H(Y)=H(Y|X)+H(X)
H(X,Y)=−y∑x∑p(x,y)logp(x,y)=−y∑x∑p(x,y)logp(x∣y)p(y)=H(X∣Y)+H(Y)=H(Y∣X)+H(X)
若
X
和
Y
X和Y
X和Y独立,则
p
(
x
,
y
)
=
p
(
x
)
p
(
y
)
⇒
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
p(x,y)=p(x)p(y)\Rightarrow H(X,Y)=H(X)+H(Y)
p(x,y)=p(x)p(y)⇒H(X,Y)=H(X)+H(Y)
信息增益(Information gain,IG),也称为互信息量(MI, Mutual Information)
给定随机变量
Y
Y
Y后,
X
X
X所剩余的不确定性。可以看作是熵与条件熵的差值。
I
G
(
A
∣
X
)
=
I
G
(
X
∣
A
)
=
I
M
(
A
;
X
)
=
I
M
(
X
;
A
)
=
H
(
X
)
−
H
(
X
∣
A
)
=
H
(
A
)
−
H
(
A
∣
X
)
=
H
(
X
)
+
H
(
A
)
−
H
(
X
,
Y
)
IG(A|X)=IG(X|A)=IM(A;X)=IM(X;A)\\=H(X)-H(X|A)\\=H(A)-H(A|X)\\ =H(X)+H(A)-H(X,Y)
IG(A∣X)=IG(X∣A)=IM(A;X)=IM(X;A)=H(X)−H(X∣A)=H(A)−H(A∣X)=H(X)+H(A)−H(X,Y)
信息增益性质:
(1)非负性。
I
G
(
X
∣
Y
)
≥
0
IG(X|Y)\geq 0
IG(X∣Y)≥0
(2)对称性。
I
G
(
X
∣
Y
)
=
I
G
(
Y
∣
X
)
IG(X|Y)=IG(Y|X)
IG(X∣Y)=IG(Y∣X)
(3)在随机变量的可逆变换下,信息增益不变。
如有如下的可逆变换:
u
=
f
(
x
)
v
=
g
(
y
)
I
G
(
X
∣
Y
)
=
I
G
(
U
∣
V
)
u=f(x)\\ v=g(y)\\ IG(X|Y)=IG(U|V)
u=f(x)v=g(y)IG(X∣Y)=IG(U∣V)
(4)若离散型随机变量
X
,
Y
X,Y
X,Y的联合概率密度函数为
P
(
X
,
Y
)
P(X,Y)
P(X,Y),边缘分布概率函数为
P
(
X
)
P(X)
P(X)和
P
(
Y
)
P(Y)
P(Y),则:
I
(
X
;
Y
)
=
∑
y
∈
Y
∑
x
∈
X
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
I(X;Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}
I(X;Y)=y∈Y∑x∈X∑p(x,y)logp(x)p(y)p(x,y)
IM表现了两个变量的依赖程度,当变量
X
X
X和
Y
Y
Y相互独立时,有
p
(
x
)
p
(
y
)
=
p
(
x
,
y
)
p(x)p(y)=p(x,y)
p(x)p(y)=p(x,y),因而:
log
p
(
x
,
y
)
p
(
x
)
p
(
y
)
=
log
1
=
0
\log\frac{p(x,y)}{p(x)p(y)}=\log 1=0
logp(x)p(y)p(x,y)=log1=0
所以IM越大,标明变量
X
X
X和
Y
Y
Y关联程度越大,含有的公共信息越多。
交叉熵(cross-entropy)
对于一个分布
p
p
p,其熵为
H
(
p
)
=
−
∑
x
∈
X
p
(
x
)
log
p
(
x
)
H(p)=-\sum_{x\in X}p(x)\log{p(x)}
H(p)=−x∈X∑p(x)logp(x)
q
q
q是真实分布,
p
p
p是预测分布,则两分布的交叉熵为
H
(
q
,
p
)
=
−
∑
x
∈
X
q
(
x
)
log
p
(
x
)
H(q,p)=-\sum_{x\in X}q(x)\log{p(x)}
H(q,p)=−x∈X∑q(x)logp(x)
相对熵(KL-散度)
对于分布
q
q
q和
p
p
p, KL散度为:
D
K
L
(
q
∣
∣
p
)
=
∑
x
∈
X
q
(
x
)
log
q
(
x
)
p
(
x
)
D_{KL}(q||p)=\sum_{x\in X}q(x)\log{\frac{q(x)}{p(x)}}
DKL(q∣∣p)=x∈X∑q(x)logp(x)q(x)
可得到与交叉熵的关系:
D
K
L
(
q
∣
∣
p
)
=
H
(
q
,
p
)
−
H
(
q
)
D_{KL}(q||p)=H(q,p)-H(q)
DKL(q∣∣p)=H(q,p)−H(q)