公式角度理解:L1比L2范数更具有稀疏性的理解

看了很多文章,一直没法从几何角度理解为什么L1比L2更有稀疏性,无奈。先这样理解吧。

在这里插入图片描述
在这里插入图片描述
补充一下:图中:[。。。] 表示的是原来的均方误差损失函数对权重的偏导。可以延申为任意损失函数对权重的偏导。

对比:加了L1正则项的权重更新过程 和 没加正则项的权重更新过程,从更新公式可以看出,加了L1正则项的更新会使得权重w更加接近0.

对比:加了L2正则项的权重更新过程 和 没加正则项的权重更新过程,从更新公式可以看出,加了L2正则项的更新会使得权重w进行缩放,缩放倍数(1-2lamdaC),一般情况下 1>(1-2lamdaC)>0, 这样看就可以理解为什么L2能缩小、均摊权重了。
但如果(1-2lamdaC)< -1 呢?
1:lamda很大,C很小,学习步长很高,正则项没什么惩罚作用。基本等同于没有L2项
2:lamda很小,C很大,学习步长很低,正则惩罚很高。所以更新过程基本等同于:
w_(t+1) = (1-2lamdaC)*w_t
且 |w_(t+1)| > |w_t| 权重越发变大
但从原方程看,当C趋向于无穷大时,w的最优解趋向于0。所以,怎么理解?可以理解为梯度下降的缺点?,梯度下降需要设定合理的步长,否则容易发散,得不到最有解。所以如果用梯度下降更新权重时,发现损失值越来越大,除了由于学习率太大外,也可能是由于L2惩罚项权重太高。(待实验测试验证)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值