信息论模型-熵问题和互信量

熵(entropy)的定义:

(1)离散熵。 离散型随机变量 X X X, X X X的熵为 H ( X ) = − ∑ x P ( x ) log ⁡ ( P ( x ) ) H(X)=-\sum_{x}P(x)\log(P(x)) H(X)=xP(x)log(P(x))
熵的意义在于衡量了变量的不确定性。熵越大,不确定性越大,包含的信息量越大。太阳从东边出来的可能性为1,从西边为0,此时的熵为 1 ∗ log ⁡ ( 1 1 ) + 0 ∗ log ⁡ ( 1 0 ) = 0 1*\log(\frac{1}{1})+0*\log(\frac{1}{0})=0 1log(11)+0log(01)=0,此时变量是非常确定的,而且包含的信息量很小。硬币的正反可能性都是0.5,此时熵为 0.5 ∗ log ⁡ ( 1 0.5 ) + 0.5 ∗ log ⁡ ( 1 0.5 ) = 1 ( 取 log ⁡ = log ⁡ 2 ) 0.5*\log(\frac{1}{0.5})+0.5*\log(\frac{1}{0.5})=1(取\log=\log_{2}) 0.5log(0.51)+0.5log(0.51)=1(log=log2),此时两者的概率相同,不确定性最大。
有如下结论:

  • 均匀分布时,熵最大, H ( X ) = log ⁡ ∣ C ∣ H(X)=\log{|C|} H(X)=logC
  • 确定分布 { 0 , 0 , 1 , . . . , 0 } \{0,0,1,...,0\} {0,0,1,...,0}时,熵最小, H ( X ) = 0 H(X)=0 H(X)=0

(2)微分熵。是从连续型变量的角度来定义,
H ( X ) = − ∫ − ∞ ∞ p ( x ) log ⁡ p ( x ) d x = − E [ log ⁡ p ( x ) ] H(X)=-\int_{-\infty}^{\infty}p(x)\log{p(x)}dx=-E[\log{p(x)}] H(X)=p(x)logp(x)dx=E[logp(x)]
微分熵并不是严格意义上的信息熵,微分熵的值可正可负,值的范围不确定。但是可以通过微分熵的相对大小去映射熵的相对大小。

最大熵

当根据不完整的信息作为依据进行推断时,应该由满足分布限制条件的
具有最大熵的概率分布推得。可以认为最大熵模型是在已知情况下,对随机变量 X X X的一种状态的平衡分布,可看作一种自然法则。即假设我们没有对 X = 0 X=0 X=0 X = 1 X=1 X=1的先验,根据最大熵模型,会得出 P ( X = 0 ) = P ( X = 1 ) = 0.5 P(X=0)=P(X=1)=0.5 P(X=0)=P(X=1)=0.5,这也符合了一种存在的法则。
在已知均值和方差的情况下,采用最大熵模型,可以推出满足条件的高斯分布。说明高斯分布满足了在已知情况下,对未知的情况下进行的最大限度的平衡,符合自然法则。

互信息论

条件熵:给定随机变量 A A A后, X X X的熵(剩余的不确定性)
H ( X ∣ Y ) = ∑ y p ( y ) H ( X ∣ Y = y ) = − ∑ y p ( y ) ∑ x p ( x ∣ y ) log ⁡ p ( x ∣ y ) = − ∑ y ∑ x p ( x , y ) log ⁡ p ( x ∣ y ) H(X|Y)=\sum_{y}p(y)H(X|Y=y)\\ =-\sum_{y}p(y)\sum_{x}p(x|y)\log{p(x|y)}\\ =-\sum_{y}\sum_{x}p(x,y)\log{p(x|y)} H(XY)=yp(y)H(XY=y)=yp(y)xp(xy)logp(xy)=yxp(x,y)logp(xy)
由上式可得,若 X X X Y Y Y独立,则 H ( X ∣ Y ) = H ( X ) H(X|Y)=H(X) H(XY)=H(X)

联合熵:
H ( X , Y ) = − ∑ y ∑ x p ( x , y ) log ⁡ p ( x , y ) = − ∑ y ∑ x p ( x , y ) log ⁡ p ( x ∣ y ) p ( y ) = H ( X ∣ Y ) + H ( Y ) = H ( Y ∣ X ) + H ( X ) H(X,Y)=-\sum_{y}\sum_{x}p(x,y)\log p(x,y)\\ =-\sum_{y}\sum_{x}p(x,y)\log p(x|y)p(y) \\ =H(X|Y)+H(Y)=H(Y|X)+H(X) H(X,Y)=yxp(x,y)logp(x,y)=yxp(x,y)logp(xy)p(y)=H(XY)+H(Y)=H(YX)+H(X)
X 和 Y X和Y XY独立,则 p ( x , y ) = p ( x ) p ( y ) ⇒ H ( X , Y ) = H ( X ) + H ( Y ) p(x,y)=p(x)p(y)\Rightarrow H(X,Y)=H(X)+H(Y) p(x,y)=p(x)p(y)H(X,Y)=H(X)+H(Y)

信息增益(Information gain,IG),也称为互信息量(MI, Mutual Information)
给定随机变量 Y Y Y后, X X X所剩余的不确定性。可以看作是熵与条件熵的差值。
在这里插入图片描述
I G ( A ∣ X ) = I G ( X ∣ A ) = I M ( A ; X ) = I M ( X ; A ) = H ( X ) − H ( X ∣ A ) = H ( A ) − H ( A ∣ X ) = H ( X ) + H ( A ) − H ( X , Y ) IG(A|X)=IG(X|A)=IM(A;X)=IM(X;A)\\=H(X)-H(X|A)\\=H(A)-H(A|X)\\ =H(X)+H(A)-H(X,Y) IG(AX)=IG(XA)=IM(A;X)=IM(X;A)=H(X)H(XA)=H(A)H(AX)=H(X)+H(A)H(X,Y)

在这里插入图片描述
信息增益性质:
(1)非负性。 I G ( X ∣ Y ) ≥ 0 IG(X|Y)\geq 0 IG(XY)0
(2)对称性。 I G ( X ∣ Y ) = I G ( Y ∣ X ) IG(X|Y)=IG(Y|X) IG(XY)=IG(YX)
(3)在随机变量的可逆变换下,信息增益不变。
如有如下的可逆变换:
u = f ( x ) v = g ( y ) I G ( X ∣ Y ) = I G ( U ∣ V ) u=f(x)\\ v=g(y)\\ IG(X|Y)=IG(U|V) u=f(x)v=g(y)IG(XY)=IG(UV)
(4)若离散型随机变量 X , Y X,Y X,Y的联合概率密度函数为 P ( X , Y ) P(X,Y) P(X,Y),边缘分布概率函数为 P ( X ) P(X) P(X) P ( Y ) P(Y) P(Y),则:
I ( X ; Y ) = ∑ y ∈ Y ∑ x ∈ X p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X;Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log\frac{p(x,y)}{p(x)p(y)} I(X;Y)=yYxXp(x,y)logp(x)p(y)p(x,y)
IM表现了两个变量的依赖程度,当变量 X X X Y Y Y相互独立时,有 p ( x ) p ( y ) = p ( x , y ) p(x)p(y)=p(x,y) p(x)p(y)=p(x,y),因而:
log ⁡ p ( x , y ) p ( x ) p ( y ) = log ⁡ 1 = 0 \log\frac{p(x,y)}{p(x)p(y)}=\log 1=0 logp(x)p(y)p(x,y)=log1=0
所以IM越大,标明变量 X X X Y Y Y关联程度越大,含有的公共信息越多。

交叉熵(cross-entropy)

对于一个分布 p p p,其熵为
H ( p ) = − ∑ x ∈ X p ( x ) log ⁡ p ( x ) H(p)=-\sum_{x\in X}p(x)\log{p(x)} H(p)=xXp(x)logp(x)
q q q是真实分布, p p p是预测分布,则两分布的交叉熵为
H ( q , p ) = − ∑ x ∈ X q ( x ) log ⁡ p ( x ) H(q,p)=-\sum_{x\in X}q(x)\log{p(x)} H(q,p)=xXq(x)logp(x)

相对熵(KL-散度)

对于分布 q q q p p p, KL散度为:
D K L ( q ∣ ∣ p ) = ∑ x ∈ X q ( x ) log ⁡ q ( x ) p ( x ) D_{KL}(q||p)=\sum_{x\in X}q(x)\log{\frac{q(x)}{p(x)}} DKL(qp)=xXq(x)logp(x)q(x)
可得到与交叉熵的关系:
D K L ( q ∣ ∣ p ) = H ( q , p ) − H ( q ) D_{KL}(q||p)=H(q,p)-H(q) DKL(qp)=H(q,p)H(q)

已标记关键词 清除标记
相关推荐
©️2020 CSDN 皮肤主题: 编程工作室 设计师:CSDN官方博客 返回首页