pytorch学习笔记(十)————交叉熵

pytorch学习笔记(九)————交叉熵

(1)熵的定义
在这里插入图片描述
熵(Entropy)代表事件所包含的不确定性,也叫作惊喜度。熵越高则代表事件的不确定性越高,具体原因可参考博客:https://blog.csdn.net/am290333566/article/details/81187124
举个例子:
在这里插入图片描述
1.假如有四个事件,发生的概率都是0.25,也就是说这四个事件发生的概率一样,很难在一开始就预测到哪个事件会发生,包含的不确定性因素非常大。所以此时计算出的信息熵非常高。
2.若四个事件有三个发生概率小,一个事件发生概率大,那么我们可以大胆的预测这个概率大的事件会发生,因此不确定性小,信息熵也就小。
(2)引入交叉熵
在这里插入图片描述
考虑一种情况,对于一个样本集,存在两个概率分布 p ( x ) p(x) p(x) q ( x ) q(x) q(x),其中 p ( x ) p(x) p(x) 为真实分布, q ( x ) q(x) q(x)为非真实分布。基于真实分布 p ( x ) p(x) p(x)我们可以计算这个样本集的信息熵也就是编码长度的期望为:
H ( p , q ) = − ∑ x p ( x ) log ⁡ p ( x ) H(p,q)=-\sum_{x}\limits{p(x)\log p(x)} H(p,q)=xp(x)logp(x)
回顾一下负对数项表征了所含的信息量,如果我们用非真实分布 q ( x ) q(x) q(x) 来代表样本集的信息量的话,那么:
H ( p , q ) = − ∑ x p ( x ) log ⁡ q ( x ) H(p,q)=-\sum_{x}\limits{p(x)\log q(x)} H(p,q)=xp(x)logq(x)
因为其中表示信息量的项来自于非真实分布 q ( x ) q(x) q(x),而对其期望值的计算采用的是真实分布 p ( x ) p(x) p(x),所以称其为交叉熵 (Cross Entropy)。
进一步我们在定义信息熵与交叉熵的差为KL散度。KL散度的物理意义表示真实分布和预测分布之间的差别,KL散度越大,分布差别越大,反之越小。
对于一位热编码而言,输入的值要么为0要么为1, 1 log ⁡ 1 = 0 , 0 log ⁡ 0 = 0 1\log1=0,0\log0=0 1log1=00log0=0
因此真实分布的熵 H ( p ) = 0 H(p)=0 H(p)=0
所以在分类问题中,交叉熵大小等于KL散度,通过优化以最小化交叉熵,即可使得预测分布越来越接近真实分布
(3)二分类问题中的交叉熵
在这里插入图片描述
假设进行猫狗分类问题,输出对象不是猫就是狗,因此它们的概率和为1。
P表示真实分布,Q表示预测分布
经过推导我们得到二分类的交叉熵公式:
H ( P , Q ) = − ( y log ⁡ ( p ) + ( 1 − y ) log ⁡ ( 1 − p ) ) H(P,Q)=-(y\log(p)+(1-y)\log(1-p)) H(P,Q)=(ylog(p)+(1y)log(1p))
其中y是真实值label,p是猫的预测值
(4)交叉熵问题举例
在这里插入图片描述
从图中两个例子对比我们可以看到,预测分布越接近真实分布,交叉熵就越低,这也进一步证实了我们之前的观点。
(5)为什么不使用MSE?
在这里插入图片描述
使用sigmoid+MSE搭配容易造成梯度离散,使得loss收敛慢。实验证明在一班情况下采用交叉熵收敛快可以取得更好的效果。当然事无绝对,在某些特殊的场合,由于MSE容易求导的特性,使得MSE的性能更优。
(5)pytorch中的交叉熵
在这里插入图片描述
在pytorch中CrossEntropyLoss就是把Softmax–Log–NLLLoss合并成一步。
参考:https://blog.csdn.net/qq_22210253/article/details/85229988

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值