看了很多文章,一直没法从几何角度理解为什么L1比L2更有稀疏性,无奈。先这样理解吧。
补充一下:图中:[。。。] 表示的是原来的均方误差损失函数对权重的偏导。可以延申为任意损失函数对权重的偏导。
对比:加了L1正则项的权重更新过程 和 没加正则项的权重更新过程,从更新公式可以看出,加了L1正则项的更新会使得权重w更加接近0.
对比:加了L2正则项的权重更新过程 和 没加正则项的权重更新过程,从更新公式可以看出,加了L2正则项的更新会使得权重w进行缩放,缩放倍数(1-2lamdaC),一般情况下 1>(1-2lamdaC)>0, 这样看就可以理解为什么L2能缩小、均摊权重了。
但如果(1-2lamdaC)< -1 呢?
1:lamda很大,C很小,学习步长很高,正则项没什么惩罚作用。基本等同于没有L2项
2:lamda很小,C很大,学习步长很低,正则惩罚很高。所以更新过程基本等同于:
w_(t+1) = (1-2lamdaC)*w_t
且 |w_(t+1)| > |w_t| 权重越发变大
但从原方程看,当C趋向于无穷大时,w的最优解趋向于0。所以,怎么理解?可以理解为梯度下降的缺点?,梯度下降需要设定合理的步长,否则容易发散,得不到最有解。所以如果用梯度下降更新权重时,发现损失值越来越大,除了由于学习率太大外,也可能是由于L2惩罚项权重太高。(待实验测试验证)