浅谈L1、L2 和Smooth L1 loss

梯度问题

  • 当预测框和GT差别过大时,梯度值不至于过大
  • 当预测框和GT差别很小的,梯度值足够小

下面(1)(2)(3)分别是L2,L1,Smooth L1的损失函数
在这里插入图片描述
下面(1)(2)(3)分别是L2,L1,Smooth L1损失函数对X求导的结果表达式
在这里插入图片描述

  • 观察(4),当 X增大时 L2 损失对 X 的导数也增大。这就导致训练初期,预测值与groud truth差异过于大时,损失函数对预测值的梯度十分大,训练不稳定。
  • 观察(5),L1对X的导数为常数,这就导致训练后期,预测值与GT差异很小的时候,仍会保持梯度绝对值为1,而learning rate保持不变的时候,损失函数将在最小值附近波动,难以收敛到最高的精度
  • 观察(6),Smooth L1在X比较小的时候,梯度也会很小,而在X比较大的时候,对X的梯度绝对值达到上限1,也不会太大以至于破坏网络参数,Smooth L1完美避开了L1 和L2损失的缺陷。

总结:对于误差较大的异常样本,mse损失远大于mae,使用mse的话模型会给予异常值更大的权值,全力减少异常值造成的误差,导致模型整体表现下降。因此,训练数据追踪异常值较多时,mae较好。但mae在极值点梯度会发现跃迁,即使很小的损失也会造成较大的误差,为了解决这个问题,可以在极值附近动态减少学习率。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

liiiiiiiiiiiiike

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值