机器学习的信息论基础

本文深入探讨了机器学习中的信息论基础,包括自信息的定义和性质,信息熵的计算及其在不确定性量化中的作用。通过实例解析了熵的最大值和最小值情况,并进一步介绍了信息熵在不同概率分布下的表现。此外,文章还阐述了联合熵、条件熵、互信息和相对熵等重要概念,揭示了它们在衡量变量间依赖关系和模型评估中的应用。
摘要由CSDN通过智能技术生成

因此欢迎点击本文原文 和 关注个人独立域名博客:SnailDove 本文会随着工作学习持续不定期更新

自信息1

信息论中,自信息(英语:self-information),由克劳德·香农提出,是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它用信息的单位表示,例如 bitnat或是hart,使用哪个单位取决于在计算中使用的对数的底。自信息的期望值就是信息论中的,它反映了随机变量采样时的平均不确定程度。

由定义,当信息被拥有它的实体传递给接收它的实体时,仅当接收实体不知道信息的先验知识时信息才得到传递。如果接收实体事先知道了消息的内容,这条消息所传递的信息量就是0。只有当接收实体对消息对先验知识少于100%时,消息才真正传递信息。

因此,一个随机产生的事件 ω n \omega _{n} ωn 所包含的自信息数量,只与事件发生的机率相关。事件发生的机率越低,在事件真的发生时,接收到的信息中,包含的自信息越大。

I ( ω n ) = f ( P ( ω n ) ) {I} (\omega _{n})=f({P} (\omega _{n})) I(ωn)=f(P(ωn))

如果 P ( ω n ) = 1 P{(\omega _{n})=1} P(ωn)=1 ,那么 I ( ω n ) = 0 I(\omega _{n})=0 I(ωn)=0。如果 P ( ω n ) &lt; 1 P (\omega _{n})&lt;1 P(ωn)<1 ,那么 I ( ω n ) &gt; 0 I (\omega _{n})&gt;0 I(ωn)>0

此外,根据定义,自信息的量度是非负的而且是可加的。如果事件 C C C 是两个独立事件 A A A B B B交集,那么宣告 C C C 发生的信息量就等于分别宣告事件 A A A 和事件的信息量的 B B B

{\displaystyle \operatorname {I} (C)=\operatorname {I} (A\cap B)=\operatorname {I} (A)+\operatorname {I} (B)}

因为 A A A B B B 是独立事件,所以 C C C 的概率为

{\displaystyle \operatorname {P} (C)=\operatorname {P} (A\cap B)=\operatorname {P} (A)\cdot \operatorname {P} (B)}

应用函数 f ( ⋅ ) f(\cdot ) f() 会得到

{\displaystyle {\begin{aligned}\operatorname {I} (C)&=\operatorname {I} (A)+\operatorname {I} (B)\f(\operatorname {P} (C))&=f(\operatorname {P} (A))+f(\operatorname {P} (B))\&=f{\big (}\operatorname {P} (A)\cdot \operatorname {P} (B){\big )}\\end{aligned}}}

所以函数 f ( ⋅ ) f(\cdot ) f() 有性质

{\displaystyle f(x\cdot y)=f(x)+f(y)}

而对数函数正好有这个性质,不同的底的对数函数之间的区别只差一个常数

{\displaystyle f(x)=K\log(x)}

由于事件的概率总是在0和1之间,而信息量必须是非负的,所以 K &lt; 0 K&lt;0 K<0 。考虑到这些性质,假设事件 ω n \omega _{n} ωn 发生的机率是 P ( ω n ) P(\omega _{n}) P(ωn) ,自信息 I ( ω n ) I(\omega _{n}) I(ωn) 的定义就是:

事件 ω n \omega _{n} ωn 的概率越小, 它发生后的自信息量越大。

此定义符合上述条件。在上面的定义中,没有指定的对数的基底:如果以 2 为底,单位是bit。当使用以 e 为底的对数时,单位将是 nat。对于基底为 10 的对数,单位是 hart。

信息量的大小不同于信息作用的大小,这不是同一概念。信息量只表明不确定性的减少程度,至于对接收者来说,所获得的信息可能事关重大,也可能无足轻重,这是信息作用的大小

信息熵2

熵的计算

如果有一枚理想的硬币,其出现正面和反面的机会相等,则抛硬币事件的熵等于其能够达到的最大值。我们无法知道下一个硬币抛掷的结果是什么,因此每一次抛硬币都是不可预测的。因此,使用一枚正常硬币进行若干次抛掷,这个事件的熵是一比特,因为结果不外乎两个——正面或者反面,可以表示为0, 1编码,而且两个结果彼此之间相互独立。若进行n独立实验,则熵为n,因为可以用长度为n比特流表示。[1]但是如果一枚硬币的两面完全相同,那个这个系列抛硬币事件的熵等于零,因为结果能被准确预测。现实世界里,我们收集到的数据的熵介于上面两种情况之间。

另一个稍微复杂的例子是假设一个随机变量X,取三种可能值 x 1 , x 2 , x 3 \begin{matrix}x_{1},x_{2},x_{3}\end{matrix} x1,x2,x3,概率分别为 1 2 , 1 4 , 1 4 \begin{matrix}{\frac {1}{2}},{\frac {1}{4}},{\frac {1}{4}}\end{matrix} 21,41,41,那么编码平均比特长度是: 1 2 × 1 + 1 4 × 2 + 1 4 × 2 = 3 2 \begin{matrix}{\frac {1}{2}}\times 1+{\frac {1}{4}}\times 2+{\frac {1}{4}}\times 2={\frac {3}{2}}\end{matrix} 21×1+41×2+41</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值