8.1 概述
熵:不确定性的度量,类别不均匀程度的度量
最大熵:一种状态的平衡分布,可看作一种自然法则
互信息:随机变量相关性的度量
熵的相关定义:熵、条件熵、联合熵、相对熵、互信息
最大熵模型:求取类别后验概率分布p(y|x)
最小互信息模型:例如,独立成分分析
8.2 熵、最大熵
信息量(信息增益量):
-
I
(
x
k
)
=
l
o
g
(
1
p
k
)
=
−
l
o
g
p
k
I(x_{k})=log(\frac{1}{p_{k}})=-logp_{k}
I(xk)=log(pk1)=−logpk
- X = { x k ∣ k = 0 , ± 1 , . . . , ± N } , p k = P ( X = x k ) , 0 ≤ p k ≤ 1 , ∑ k = − N N p k = 1 X=\{x_{k}|k=0,\pm1,...,\pm N \},\ p_{k}=P(X=x_{k}),\ 0\le p_{k}\le 1,\ \sum_{k=-N}^{N}p_{k}=1 X={xk∣k=0,±1,...,±N}, pk=P(X=xk), 0≤pk≤1, ∑k=−NNpk=1
- 信息量性质:概率越小的状态,信息量越大
- p k = 1 , I ( x k ) = 0 p_{k}=1,\ I(x_{k})=0 pk=1, I(xk)=0
- 0 ≤ p k ≤ 1 , I ( x k ) ≥ 0 0\le p_{k}\le 1,\ I(x_{k})\ge 0 0≤pk≤1, I(xk)≥0
- p k < p i , I ( x k ) > I ( x i ) p_{k}<p_{i},\ I(x_{k})>I(x_{i}) pk<pi, I(xk)>I(xi)
信息熵:
- 信息量在全部数值域上的概率平均值
- 离散熵: H ( x ) = E [ I ( x ) ] = ∑ k = − N k = N p k I ( x k ) = − ∑ k = − N k = N p k l o g p k H(x)=E[I(x)]=\sum_{k=-N}^{k=N}p_{k}I(x_{k})=-\sum_{k=-N}^{k=N}p_{k}logp_{k} H(x)=E[I(x)]=∑k=−Nk=NpkI(xk)=−∑k=−Nk=Npklogpk
- 微分熵:
h
(
x
)
=
−
∫
−
∞
∞
p
x
(
x
)
l
o
g
p
x
(
x
)
d
x
=
−
E
[
l
o
g
p
x
(
x
)
]
h(x)=-\int_{-\infty }^{\infty}p_{x}(x)logp_{x}(x)dx=-E[logp_{x}(x)]
h(x)=−∫−∞∞px(x)logpx(x)dx=−E[logpx(x)]
- 微分熵不是严格意义上的信息熵
- 性质
- 平移不变 h ( X + c ) = h ( X ) h(X+c)=h(X) h(X+c)=h(X)
- 尺度变化
- h ( c X ) = h ( X ) + l o g ∣ c ∣ h(cX)=h(X)+log|c| h(cX)=h(X)+log∣c∣
- h ( A X ) = h ( X ) + l o g ∣ d e t ( A ) ∣ h(AX)=h(X)+log|det(A)| h(AX)=h(X)+log∣det(A)∣
- 其中,c为常数,A为矩阵,det(A)是矩阵A的行列式
8.3 互信息
条件信息量: L ( x ∣ y ) = l o g 1 p ( x ∣ y ) L(x|y)=log\frac{1}{p(x|y)} L(x∣y)=logp(x∣y)1
条件熵:
- 给定y,X的条件熵 H ( X ∣ y ) = ∑ x p ( x ∣ y ) l o g 1 p ( x ∣ y ) H(X|y)=\sum_{x}p(x|y)log\frac{1}{p(x|y)} H(X∣y)=∑xp(x∣y)logp(x∣y)1
- 给定Y,X的条件熵: H ( X ∣ Y ) = ∑ y p ( y ) H ( X ∣ y ) = ∑ y p ( y ) ∑ x p ( x ∣ y ) l o g 1 p ( x ∣ y ) = ∑ y ∑ x p ( x , y ) l o g 1 p ( x ∣ y ) H(X|Y)=\sum_{y}p(y)H(X|y)=\sum_{y}p(y)\sum_{x}p(x|y)log\frac{1}{p(x|y)}=\sum_{y}\sum_{x}p(x,y)log\frac{1}{p(x|y)} H(X∣Y)=∑yp(y)H(X∣y)=∑yp(y)∑xp(x∣y)logp(x∣y)1=∑y∑xp(x,y)logp(x∣y)1
联合熵:
- 联合熵密度: p ( x , y ) = p ( x ∣ y ) p ( y ) = p ( y ∣ x ) p ( x ) p(x,y)=p(x|y)p(y)=p(y|x)p(x) p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)
- 联合信息量: L ( x , y ) = l o g 1 p ( x , y ) L(x,y)=log\frac{1}{p(x,y)} L(x,y)=logp(x,y)1
- 联合微分熵:
H
(
X
,
Y
)
=
∑
y
∑
x
p
(
x
,
y
)
l
o
g
1
p
(
x
,
y
)
H(X,Y)=\sum_{y}\sum_{x}p(x,y)log\frac{1}{p(x,y)}
H(X,Y)=∑y∑xp(x,y)logp(x,y)1
- H ( X , Y ) = H ( X ∣ Y ) + H ( Y ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=H(X|Y)+H(Y)=H(Y|X)+H(X) H(X,Y)=H(X∣Y)+H(Y)=H(Y∣X)+H(X)
互信息:信息熵与条件熵的差
- 性质:
- 1、非负性
- 2、对称性
- 3、不变性
相对熵:是衡量两个分布的平均信息差异
互信息是一种相对熵
8.4 信息论优化模型
最大熵模型
最大互信息模型
最小互信息模型