熵与交叉熵

目录

信息熵:

联合熵:

条件熵:

相对熵:(KL散度)


信息熵:

信源所含有的信息量称为信息熵,定义为信源发出的所有可能消息的平均不确定性,为自信息的统计平均。(自信息:某个消息X出现的不确定性的大小)

含义:①信源的平均不确定性的大小②信源输出消息平均所含的信息量

联合熵:

二维随机变量XY的联合熵定义为联合自信息的数学期望,表征XY的不确定性

条件熵:

条件熵定义为给定条件下Y的条件概率分布的熵对X的数学期望

其中,联合熵=信息熵+条件熵。

熵是服从某一特定概率分布事件的理论最小平均编码长度。只要我们知道了任何事件的概率分布,我们就可以计算它的熵;那如果我们不知道事件的概率分布,又想计算熵,该怎么做呢?那我们来对熵做一个估计吧,熵的估计的过程自然而然的引出了交叉熵。

相对熵:(KL散度)

如果我们对于同一个随机变量 x 有两个单独的概率分布😋 P(x) 和😌 Q(x),我们可以使用KL散度来衡量这两个分布之间的差距

即用P描述目标问题,和用Q描述目标问题,之间的信息增量

而P往往表示样本的真实分布,比如[1,0,0]表示样本属于第一类;Q用来表示模型所预测的分布,比如[0.8,0.1,0.1]也可以描述样本属于第一类,但不够完美,离真实值有一定差距。

如果我们可以用P来描述样本就好了,所以Q需要用一些信息增量才可以达到P。

此时就需要训练Q,使之Q等价于P,也就不再需要信息增量。

KL散度的公式为:

,其中n为个数。DKL越小,证明P和Q越接近

对DKL进行变形得到:

可以发现前面其实就是P的熵,而后面则定义为交叉熵

DKL(p||q)=H(p,q)−H(p)(当用非真实分布 q(x) 得到的平均码长比真实分布 p(x) 得到的平均码长多出的比特数就是相对熵),即在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值