l1,l2 weight decay

最新推荐文章于 2023-03-18 16:56:36 发布

xxiaozr

最新推荐文章于 2023-03-18 16:56:36 发布

阅读量1.5k

点赞数

分类专栏：卷积网络文章标签： l1 范数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xxiaozr/article/details/53260386

版权

卷积网络专栏收录该内容

10 篇文章 0 订阅

订阅专栏

机器学习的问题就是在规则化参数的同时最小化误差，最小化误差是为了让我们的模型拟合训练数据，而规则化参数是防止我们的模型过分拟合训练数据

L1范数（稀疏规则算子，向量中各元素的绝对值的和）：可以实现稀疏

为什么要实现稀疏？

一般来说Xi的大部分元素（也就是特征）和Yi(最终输出)没有关系或者不提供任何信息，在训练时考虑这些会获得更小的训练误差但是在预测时考虑了这些没用的信息，干扰了正确的预测。稀疏规则化就可以去掉没有信息的特征，也就是把这些特征对应的权重置为零。

模型更容易解释

L2范数（岭回归，权重衰减，向量中各元素的平方和的平方根）：防止过拟合

L2范数规则项最小可以使得W的每个元素都很小，越小的参数说明模型越简单，越简单的模型越不容易产生过拟合

L2范数有助于处理condition number不好的情况，condition number是一个矩阵的稳定性或者敏感度的度量

L2范数不但可以防止过拟合还可以让优化求解变得稳定和快速。

总结：L1会趋向于产生少量的特征，而其他的特征都是零，L2会选择更多的特征，这写特征都会接近于零。

weight-decay是对weight的稀疏度进行限制

L1,L2 loss 还可以对图片中的元素进行最小化，而不是限制weight ，这样会获得图像的 low-frequency 的特性信息，会获得大概的轮廓。

L1 loss 没有 L2 loss 对异常值敏感，L2 loss 需要更小心的调节学习率来避免梯度爆炸 ---fast rcnn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。