信息论模型-熵问题和互信量

最新推荐文章于 2023-12-18 22:18:19 发布

winycg

最新推荐文章于 2023-12-18 22:18:19 发布

阅读量937

点赞数

分类专栏： python机器学习

本文链接：https://blog.csdn.net/winycg/article/details/84943700

版权

python机器学习专栏收录该内容

37 篇文章 7 订阅

订阅专栏

熵(entropy)的定义：

（1）离散熵。 离散型随机变量 $X$ , $X$ 的熵为 $H(X)=-\sum_{x}P(x)\log(P(x))$
熵的意义在于衡量了变量的不确定性。熵越大，不确定性越大，包含的信息量越大。太阳从东边出来的可能性为1，从西边为0，此时的熵为 $1*\log(\frac{1}{1})+0*\log(\frac{1}{0})=0$ ，此时变量是非常确定的，而且包含的信息量很小。硬币的正反可能性都是0.5，此时熵为 $0.5*\log(\frac{1}{0.5})+0.5*\log(\frac{1}{0.5})=1(取\log=\log_{2})$ ，此时两者的概率相同，不确定性最大。
有如下结论：

均匀分布时,熵最大， $H(X)=\log{|C|}$
确定分布 ${0,0,1,...,0\}$ 时，熵最小， $H (X) = 0$

（2）微分熵。是从连续型变量的角度来定义，
$H(X)=-\int_{-\infty}^{\infty}p(x)\log{p(x)}dx=-E[\log{p(x)}]$
微分熵并不是严格意义上的信息熵，微分熵的值可正可负，值的范围不确定。但是可以通过微分熵的相对大小去映射熵的相对大小。

最大熵

当根据不完整的信息作为依据进行推断时，应该由满足分布限制条件的
具有最大熵的概率分布推得。可以认为最大熵模型是在已知情况下，对随机变量 $X$ 的一种状态的平衡分布，可看作一种自然法则。即假设我们没有对 $X = 0$ 和 $X = 1$ 的先验，根据最大熵模型，会得出 $P (X = 0) = P (X = 1) = 0.5$ ，这也符合了一种存在的法则。
在已知均值和方差的情况下，采用最大熵模型，可以推出满足条件的高斯分布。说明高斯分布满足了在已知情况下，对未知的情况下进行的最大限度的平衡，符合自然法则。

互信息论

条件熵：给定随机变量 $A$ 后， $X$ 的熵(剩余的不确定性)
$H(X|Y)=\sum_{y}p(y)H(X|Y=y)\\ =-\sum_{y}p(y)\sum_{x}p(x|y)\log{p(x|y)}\\ =-\sum_{y}\sum_{x}p(x,y)\log{p(x|y)}$
由上式可得，若 $X$ 和 $Y$ 独立，则 $H (X ∣ Y) = H (X)$

联合熵：
$H(X,Y)=-\sum_{y}\sum_{x}p(x,y)\log p(x,y)\\ =-\sum_{y}\sum_{x}p(x,y)\log p(x|y)p(y) \\ =H(X|Y)+H(Y)=H(Y|X)+H(X)$
若 $X 和 Y$ 独立，则 $p(x,y)=p(x)p(y)\Rightarrow H(X,Y)=H(X)+H(Y)$

信息增益（Information gain,IG),也称为互信息量(MI, Mutual Information)
给定随机变量 $Y$ 后， $X$ 所剩余的不确定性。可以看作是熵与条件熵的差值。
在这里插入图片描述
$IG(A|X)=IG(X|A)=IM(A;X)=IM(X;A)\\=H(X)-H(X|A)\\=H(A)-H(A|X)\\ =H(X)+H(A)-H(X,Y)$

在这里插入图片描述
信息增益性质：
（1）非负性。 $IG(X|Y)\geq 0$
（2）对称性。 $I G (X ∣ Y) = I G (Y ∣ X)$
（3）在随机变量的可逆变换下，信息增益不变。
如有如下的可逆变换：
$u=f(x)\\ v=g(y)\\ IG(X|Y)=IG(U|V)$
（4）若离散型随机变量 $X, Y$ 的联合概率密度函数为 $P (X, Y)$ ，边缘分布概率函数为 $P (X)$ 和 $P (Y)$ ,则：
$I(X;Y)=\sum_{y\in Y}\sum_{x\in X}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$
IM表现了两个变量的依赖程度，当变量 $X$ 和 $Y$ 相互独立时，有 $p (x) p (y) = p (x, y)$ ，因而：
$\log\frac{p(x,y)}{p(x)p(y)}=\log 1=0$
所以IM越大，标明变量 $X$ 和 $Y$ 关联程度越大，含有的公共信息越多。