浅谈L1、L2 和Smooth L1 loss

liiiiiiiiiiiiike

已于 2022-10-15 20:05:52 修改

阅读量683

点赞数

分类专栏：深度学习文章标签：算法计算机视觉机器学习

于 2022-03-24 10:16:30 首次发布

本文链接：https://blog.csdn.net/weixin_45074568/article/details/123703705

版权

深度学习专栏收录该内容

73 篇文章 37 订阅

订阅专栏

梯度问题

当预测框和GT差别过大时，梯度值不至于过大
当预测框和GT差别很小的，梯度值足够小

下面（1）（2）（3）分别是L2，L1，Smooth L1的损失函数
在这里插入图片描述
下面（1）（2）（3）分别是L2，L1，Smooth L1损失函数对X求导的结果表达式

观察（4），当 X增大时 L2 损失对 X 的导数也增大。这就导致训练初期，预测值与groud truth差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。
观察（5），L1对X的导数为常数，这就导致训练后期，预测值与GT差异很小的时候，仍会保持梯度绝对值为1，而learning rate保持不变的时候，损失函数将在最小值附近波动，难以收敛到最高的精度
观察（6）,Smooth L1在X比较小的时候，梯度也会很小，而在X比较大的时候，对X的梯度绝对值达到上限1，也不会太大以至于破坏网络参数，Smooth L1完美避开了L1 和L2损失的缺陷。

总结：对于误差较大的异常样本，mse损失远大于mae，使用mse的话模型会给予异常值更大的权值，全力减少异常值造成的误差，导致模型整体表现下降。因此，训练数据追踪异常值较多时，mae较好。但mae在极值点梯度会发现跃迁，即使很小的损失也会造成较大的误差，为了解决这个问题，可以在极值附近动态减少学习率。

liiiiiiiiiiiiike

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
浅谈L1、L2 和Smooth L1 loss

梯度问题当预测框和GT差别过大时，梯度值不至于过大当预测框和GT差别很小的，梯度值足够小下面（1）（2）（3）分别是L2，L1，Smooth L1的损失函数下面（1）（2）（3）分别是L2，L1，Smooth L1损失函数对X求导的结果表达式观察（4），当 X增大时 L2 损失对 X 的导数也增大。这就导致训练初期，预测值与groud truth差异过于大时，损失函数对预测值的梯度十分大，训练不稳定。观察（5），L1对X的导数为常数，这就导致训练后期，预测值与GT差异很小的时候，仍会保
复制链接

扫一扫