设w*为学习模型原损失函数的最优解,对原损失函数J(w;X,y)在w*附近进行泰勒展开:
已知极值点为w*,则J(w;X,y)对w*的一阶偏导为0,故原式可写为:
令J(w;X,y)对w*的二阶偏导等于Hessian矩阵H:
并且我们假设w中的特征两两互不影响,则Hessian矩阵H变为对角阵:H=diag(H1,1,H2,2, H3,3 ,…, Hn,n),此时有:
故此时我们可以对特征权重分别独立进行求解,对于wi特征,得到新的目标函数如下:
(1)
根据高等数学对极值定义,对等式两边同时求导得:
(2)
我们可以得到以下两个结论:
(1)(1)式中含有Hessian矩阵的二次函数关于wi*是对称的,且第一项为常数,因此为了要使整体函数值达到最小则必有:
(2)sign(wi)=sign(wi*)或者wi=0。①当wi*=0时,要使(1)式值最小,则必有wi=0。②当wi*≠0时,要使(1)式值最小,根据二次函数图像的性质,必有sign(wi)=sign(wi*)
接下来可以对(2)式进行求解:
(3)
此时我们可以将目标函数的解分为两种情况进行讨论:
1) 时,有sign(wi)≠sign(wi*),由结论(2)可知此时wi=0。这样也就导致产生了稀疏解。相对应的wi特征对学习模型最终的表现影响不明显。
2)时,有sign(wi)=sign(wi*),根据(3)式可以得到wi的最终取值并不为零,L1正则化在该特征上只能起到限制参数大小的作用。
因此可以将学习模型中特征权重参数wi的解写为如下形式:
至此,L1正则化使得学习模型稀疏化的原因已经论述完毕。