一文看懂L1正则化使得学习模型稀疏化的底层逻辑(泰勒展开数学推导)

文章通过数学分析解释了L1正则化如何促使学习模型在特征权重上产生稀疏解,通过Hessian矩阵的特性,指出非零特征权重的保持和零权重的推导,揭示了L1正则化的稀疏化机制。
摘要由CSDN通过智能技术生成

w*为学习模型原损失函数的最优解,对原损失函数J(w;X,y)w*附近进行泰勒展开:

已知极值点为w*,则J(w;X,y)w*的一阶偏导为0,故原式可写为:

J(w;X,y)w*的二阶偏导等于Hessian矩阵H:

并且我们假设w中的特征两两互不影响,则Hessian矩阵H变为对角阵:H=diag(H1,1,H2,2, H3,3 ,…, Hn,n),此时有:

故此时我们可以对特征权重分别独立进行求解,对于wi特征,得到新的目标函数如下:

(1)

 根据高等数学对极值定义,对等式两边同时求导得:

(2)

我们可以得到以下两个结论:

(1)(1)式中含有Hessian矩阵的二次函数关于wi*是对称的,且第一项为常数,因此为了要使整体函数值达到最小则必有:\left | \omega _{i} \right |< \left | \omega _{i}^{*} \right |

(2)sign(wi)=sign(wi*)或者wi=0。①当wi*=0时,要使(1)式值最小,则必有wi=0。②当wi*≠0时,要使(1)式值最小,根据二次函数图像的性质,必有sign(wi)=sign(wi*)

接下来可以对(2)式进行求解:

(3)

此时我们可以将目标函数的解分为两种情况进行讨论:

1) \left | \omega _{i}^{*} \right |\leq \frac{\lambda }{H_{i,i}}时,有sign(wi)≠sign(wi*),由结论(2)可知此时wi=0。这样也就导致产生了稀疏解。相对应的wi特征对学习模型最终的表现影响不明显。

2)\left | \omega _{i}^{*} \right |> \frac{\lambda }{H_{i,i}}时,有sign(wi)=sign(wi*),根据(3)式可以得到wi的最终取值并不为零,L1正则化在该特征上只能起到限制参数大小的作用。

因此可以将学习模型中特征权重参数wi的解写为如下形式:

至此,L1正则化使得学习模型稀疏化的原因已经论述完毕。 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值