一文看懂L1正则化使得学习模型稀疏化的底层逻辑（泰勒展开数学推导）

ilLanduo

已于 2024-03-05 09:42:31 修改

阅读量571

点赞数 12

分类专栏：最优化 L1正则化文章标签：学习机器学习人工智能

于 2024-03-05 09:37:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_59737997/article/details/136469117

版权

最优化同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

文章通过数学分析解释了L1正则化如何促使学习模型在特征权重上产生稀疏解，通过Hessian矩阵的特性，指出非零特征权重的保持和零权重的推导，揭示了L1正则化的稀疏化机制。

摘要由CSDN通过智能技术生成

设w*为学习模型原损失函数的最优解，对原损失函数J(w;X,y)在w*附近进行泰勒展开：

已知极值点为w*，则J(w;X,y)对w*的一阶偏导为0，故原式可写为：

令J(w;X,y)对w*的二阶偏导等于Hessian矩阵H：

并且我们假设w中的特征两两互不影响，则Hessian矩阵H变为对角阵：H=diag(H1,1,H2,2, H3,3 ,…, Hn,n)，此时有：

故此时我们可以对特征权重分别独立进行求解，对于wi特征，得到新的目标函数如下：

（1）

根据高等数学对极值定义，对等式两边同时求导得：

（2）

我们可以得到以下两个结论：

（1）(1)式中含有Hessian矩阵的二次函数关于wi*是对称的，且第一项为常数，因此为了要使整体函数值达到最小则必有： $\left | \omega _{i} \right |< \left | \omega _{i}^{*} \right |$

（2）sign(wi)=sign(wi*)或者wi=0。①当wi*=0时，要使(1)式值最小，则必有wi=0。②当wi*≠0时，要使(1)式值最小，根据二次函数图像的性质，必有sign(wi)=sign(wi*)

接下来可以对(2)式进行求解：

（3）

此时我们可以将目标函数的解分为两种情况进行讨论：

1） $\left | \omega _{i}^{*} \right |\leq \frac{\lambda }{H_{i,i}}$ 时，有sign(wi)≠sign(wi*)，由结论（2）可知此时wi=0。这样也就导致产生了稀疏解。相对应的wi特征对学习模型最终的表现影响不明显。

2） $\left | \omega _{i}^{*} \right |> \frac{\lambda }{H_{i,i}}$ 时，有sign(wi)=sign(wi*)，根据(3)式可以得到wi的最终取值并不为零，L1正则化在该特征上只能起到限制参数大小的作用。

因此可以将学习模型中特征权重参数wi的解写为如下形式：

至此，L1正则化使得学习模型稀疏化的原因已经论述完毕。

关注

12
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

ilLanduo CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

187万+: 周排名

25万+: 总排名

2207: 访问

: 等级

58: 积分

28: 粉丝

37: 获赞

2: 评论

25: 收藏

私信

关注

热门文章

分类专栏

最优化 2篇
L1正则化 2篇

最新评论

一文看懂L1正则化使得学习模型稀疏化的底层逻辑（泰勒展开数学推导）
CSDN-Ada助手: 很高兴看到您写了这篇关于L1正则化的博客，通过泰勒展开数学推导，深入探讨了学习模型稀疏化的底层逻辑。这种深入的理解对于我们学习和应用机器学习算法都是非常有帮助的。希望您能继续分享更多关于机器学习领域的知识和经验。除了L1正则化，您可能也可以考虑研究一下L2正则化，它也是一种常用的正则化方法，可以帮助防止过拟合问题。此外，了解交叉验证、模型评估指标等内容也可以进一步完善您的机器学习知识体系。希望您在探索和学习的过程中能够不断充实自己，提升专业能力。期待您更多的精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
一文看懂L1正则化使得学习模型稀疏化（拉格朗日）
CSDN-Ada助手: 恭喜你开始了博客创作，标题看起来非常吸引人！L1正则化是一个很有趣的话题，你的解释也很清晰易懂。接下来，也许可以考虑加入一些具体的案例或者实际应用，让读者更直观地理解L1正则化的作用。期待你的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

一文看懂L1正则化使得学习模型稀疏化（拉格朗日）

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。