信息论知识:互信息、交叉熵、KL散度

本文介绍了信息论中的关键概念,包括自信息、香农熵、联合熵、条件熵、互信息和KL散度。自信息是单个事件的信息量,香农熵衡量整个分布的不确定性。互信息描述了已知一个随机变量如何减少另一个随机变量的不确定性,而KL散度衡量了两个概率分布的差异。交叉熵则结合了熵和相对熵,用于评估模型预测分布与真实分布的匹配程度。
摘要由CSDN通过智能技术生成

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。消息说:‘‘今天早上太阳升起’’ 信息量是如此之少以至于没有必要发送,但一条消息说:‘‘今天早上有日食’’ 信息量就很丰富。

我们想要通过这种基本想法来量化信息。定义三个性质

  • 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件应该没有信息量。
  • 较不可能发生的事件具有更高的信息量。
  • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

在两元随机变量情况下,可以使用下图帮助理解和记忆

自信息

为了满足上述三个性质,我们定义一个事件 x = x 的自信息(self-information):

I(x)=logP(x) I ( x ) = − l o g P ( x ) ,log为自然对数

I(x) 的单位是奈特(nats),1 nats是以1/e 的概率观测到一个事件时获得的信息量。如果是以2的对数计算,单位就是比特(bit)或香农(shannons)。

香农熵

自信息只处理单个的输出,用香农熵(Shannon entropy)来对整个概率分布中的不确定性总量进行量化:

H(X)=E(I(x))=xXP(x)logP(x) H ( X ) = E ( I ( x ) ) = − ∑ x ∈ X P ( x ) l o g P ( x )

一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量。

联合熵 joint entropy

联合熵:表示随机变量X,Y同时发生的不确定性。

H(X,Y)=xX,yYP(x,y)logP(x,y) H ( X , Y ) = − ∑ x ∈ X , y ∈ Y P ( x , y ) l o g P ( x , y )

对于多变量:

性质

非负性: H(X,Y)0 H ( X , Y ) ≥ 0

大于单个变量的熵 H(X,Y)max[H(X),H(Y)] H ( X , Y ) ≥ m a x [ H ( X ) , H ( Y ) ]

H(X,Y)H(X)+H(Y) H ( X , Y ) ≤ H ( X ) + H ( Y )

条件熵

条件熵:在已知一个变量发生的条件下,另一个变量发生所新增加的不确定性:

H(Y|X=x) H ( Y | X = x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值