二分类任务为什么常见用softmax而不是sigmoid

在搭建深度学习模型处理二分类任务的时候,我们常常想到的是定义模型一个输出,然后sigmoid激活输出结果,映射到0-1之间,然后二分类交叉熵损失函数进行训练即可,但是我常常看到的很多别人写的工程代码中,二分类他们都是定义2个输出,然后softmax映射成0和1的概率,再用多分类的交叉熵损失函数进行训练,我就很奇怪为啥要这样,直到最近在跑一个任务,搭建的模型非常复杂,用的一个输出后面接sigmoid,然后。。。。。就出锅了,原因很简单,数据爆炸了,一个输出的内容为-1000到1000多这样的范围(在深度模型训练这种范围数据波动很常见),然后对sigmoid的计算而言,就直接数据爆炸了,要么全0要么全1,导致模型根本没法训练,而输出2个节点后面接softmax会好很多,因为计算方式不一样,导致softmax对这种数据爆炸问题会相对鲁棒性更好,我直接修改成softmax训练模型,很快就收敛了,扎心了,也算一个很大的收获了,以后尽量用softmax了。。。。。。。。。

  • 5
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值