对信息量、熵、相对熵、交叉熵的简单理解

1.信息量:显而易见的事情。信息量较小,不常发生的事情,信息量较大。

假设X是离散随机变量,其取值范围为I,概率分布P(x) = Pr(X = x),x\epsilonI,则定义事件X = x0的信息量为I(X0) = -log(P(x0))

2.:对于某个事件,有n种可能,每一种可能性都有一个概率P(x),熵用来表示所有信息量的期望,即H(x)=-{\sum_{i=1}^{n}}P(xi)logP((xi))

3.相对熵(KL散度):对于同一个随机变量X,有两个单独的概率P(X)和Q(X),我们可以用KL散度来衡量两个分布的差异。

在机器学习中,P往往用来表示样本的真实分布,Q用来表示模型所预测的分布。KL散度的计算公式:D_{kl}(p||q) = {\sum_{i=0}^{n}}P(x_{i})log(\frac{P(x_{i})}{Q(x_{i})})

D_{kl}的值越小,表示q分布与p分布越接近。

4.交叉熵:一般用来求目标与预测值之间的差值。

相对熵的变形: 

D_{kl}(p||q) = {\sum_{i=0}^{n}}P(x_{i})log(\frac{P(x_{i})}{Q(x_{i})}) = {\sum_{i=0}^{n}}P(x_{i})log(P(x_{i}))-{\sum_{i=0}^{n}}P(x_{i})log(Q(x_{i})) =-H(P(x_{i})+[-{\sum_{i=0}^{n}}P(x_{i})log(Q(x_{i}))]

在机器学习中,如果要评估label与predicts之间的差距,使用KL散度,前一部分的-H(P(x))不变,因此,只需要关注交叉熵即可。一般在机器学习中,直接使用交叉熵做损失函数评估模型。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值