机器学习的信息论基础

最新推荐文章于 2024-01-02 01:20:32 发布

置顶

SnailDove

最新推荐文章于 2024-01-02 01:20:32 发布

阅读量904

点赞数

分类专栏：机器学习信息论文章标签：机器学习信息论

本文链接：https://blog.csdn.net/you1314520me/article/details/82976420

版权

本文深入探讨了机器学习中的信息论基础，包括自信息的定义和性质，信息熵的计算及其在不确定性量化中的作用。通过实例解析了熵的最大值和最小值情况，并进一步介绍了信息熵在不同概率分布下的表现。此外，文章还阐述了联合熵、条件熵、互信息和相对熵等重要概念，揭示了它们在衡量变量间依赖关系和模型评估中的应用。

摘要由CSDN通过智能技术生成

因此欢迎点击本文原文和关注个人独立域名博客：SnailDove 本文会随着工作学习持续不定期更新

文章目录

自信息¹

在信息论中，自信息（英语：self-information），由克劳德·香农提出，是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它用信息的单位表示，例如 bit、nat或是hart，使用哪个单位取决于在计算中使用的对数的底。自信息的期望值就是信息论中的熵，它反映了随机变量采样时的平均不确定程度。

由定义，当信息被拥有它的实体传递给接收它的实体时，仅当接收实体不知道信息的先验知识时信息才得到传递。如果接收实体事先知道了消息的内容，这条消息所传递的信息量就是0。只有当接收实体对消息对先验知识少于100%时，消息才真正传递信息。

因此，一个随机产生的事件 $\omega _{n}$ 所包含的自信息数量，只与事件发生的机率相关。事件发生的机率越低，在事件真的发生时，接收到的信息中，包含的自信息越大。

$(\omega _{n})=f({P} (\omega _{n}))$

如果 $P{(\omega _{n})=1}$ ，那么 $I(\omega _{n})=0$ 。如果 $(\omega _{n})<1$ ，那么 $(\omega _{n})>0$ 。

此外，根据定义，自信息的量度是非负的而且是可加的。如果事件 $C$ 是两个独立事件 $A$ 和 $B$ 的交集，那么宣告 $C$ 发生的信息量就等于分别宣告事件 $A$ 和事件的信息量的 $B$ 和：

$\operatorname {I} (C)=\operatorname {I} (A\cap B)=\operatorname {I} (A)+\operatorname {I} (B)$

因为 $A$ 和 $B$ 是独立事件，所以 $C$ 的概率为

$\operatorname {P} (C)=\operatorname {P} (A\cap B)=\operatorname {P} (A)\cdot \operatorname {P} (B)$

应用函数 $f(\cdot )$ 会得到

${\begin{aligned}\operatorname {I} (C)&=\operatorname {I} (A)+\operatorname {I} (B)\f(\operatorname {P} (C))&=f(\operatorname {P} (A))+f(\operatorname {P} (B))\&=f{\big (}\operatorname {P} (A)\cdot \operatorname {P} (B){\big )}\\end{aligned}}$

所以函数 $f(\cdot )$ 有性质

$f(x\cdot y)=f(x)+f(y)$

而对数函数正好有这个性质，不同的底的对数函数之间的区别只差一个常数

$f(x)=K\log(x)$

由于事件的概率总是在0和1之间，而信息量必须是非负的，所以 $K < 0$ 。考虑到这些性质，假设事件 $\omega _{n}$ 发生的机率是 $P(\omega _{n})$ ，自信息 $I(\omega _{n})$ 的定义就是:

事件 $\omega _{n}$ 的概率越小, 它发生后的自信息量越大。

此定义符合上述条件。在上面的定义中，没有指定的对数的基底：如果以 2 为底，单位是bit。当使用以 e 为底的对数时，单位将是 nat。对于基底为 10 的对数，单位是 hart。

信息量的大小不同于信息作用的大小，这不是同一概念。信息量只表明不确定性的减少程度，至于对接收者来说，所获得的信息可能事关重大，也可能无足轻重，这是信息作用的大小。

信息熵²

熵的计算

如果有一枚理想的硬币，其出现正面和反面的机会相等，则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么，因此每一次抛硬币都是不可预测的。因此，使用一枚正常硬币进行若干次抛掷，这个事件的熵是一比特，因为结果不外乎两个——正面或者反面，可以表示为0, 1编码，而且两个结果彼此之间相互独立。若进行n次独立实验，则熵为n，因为可以用长度为n的比特流表示。[1]但是如果一枚硬币的两面完全相同，那个这个系列抛硬币事件的熵等于零，因为结果能被准确预测。现实世界里，我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量X，取三种可能值 $\begin{matrix}x_{1},x_{2},x_{3}\end{matrix}$ ，概率分别为 $\begin{matrix}{\frac {1}{2}},{\frac {1}{4}},{\frac {1}{4}}\end{matrix}$ ，那么编码平均比特长度是： $\begin{matrix}{\frac {1}{2}}\times 1+{\frac {1}{4}}\times 2+{\frac {1}{4}}\times 2={\frac {3}{2}}\end{matrix}$

最低0.47元/天解锁文章

SnailDove

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习的信息论基础

本文会随着工作学习持续不定期更新，欢迎点击本文原文链接，也欢迎关注个人独立域名博客自信息1在信息论中，自信息（英语：self-information），由克劳德·香农提出，是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它用信息的单位表示，例如 bit、nat或是hart，使用哪个单位取决于在计算中使用的对数的底。自信息的期望值就是信息论中的熵，它反映了随机变量采样时的平均不确定...
复制链接

扫一扫