Orthant Based Proximal Stochastic Gradient Method for `1-Regularized Optimization

基于投影的近似随机梯度法

解决问题

目的是为了解决大规模数据和高维特征的情况下的 L 1 L^1 L1正则化问题。

动机

由于L1正则化存在非光滑性,传统的优化方法难以直接求解,因此需要采用特殊的优化方法。而作者引入正交多面体的思想是为了充分利用L1正则化问题中的稀疏性,将其转化为在正交多面体上的最小化问题,从而使得问题可以更加高效地求解。

创新点

这篇文章的创新点包括:

  1. 引入正交多面体投影算法:将L1正则化问题转化为正交多面体上的最小化问题,从而克服了L1正则化方法的缺点。

  2. 引入单调性约束:通过引入单调性约束,使得目标函数在优化过程中具有单调性,从而可以保证算法能够收敛到全局最优解。

  3. 提出了基于坐标下降法的正交多面体投影算法:利用坐标下降法对权重向量进行更新,并利用正交多面体投影算法对每个权重向量进行投影和L1正则化,从而实现了对L1正则化问题的高效求解。

  4. 提出了基于随机梯度下降法的正交多面体投影算法:利用随机梯度下降法对权重向量进行更新,并利用正交多面体投影算法对每个权重向量进行投影和L1正则化,从而实现了对大规模数据集的高效求解。

建立的数学模型

目标函数

这篇论文的目标是解决L1正则化的优化问题,即在损失函数的基础上加上L1范数正则项的问题,形式化表示为:

m i n i m i z e f ( w ) + λ ∣ ∣ w ∣ ∣ 1 minimize f(w) + λ||w||_1 minimizef(w)+λ∣∣w1,

其中,f(w)是损失函数,λ是正则项的系数, ∣ ∣ w ∣ ∣ 1 ||w||_1 ∣∣w1是w的L1范数。

主要步骤

第一步,获得一个可以预测解集合的近似随机梯度。
第二步,借助象限投影的方法去加速提升稀疏水平。

步骤一

Prox-SG Step的更新公式是:
在这里插入图片描述
其中,prox是一个近端算子(proximal operator),η是学习率,g是一个先验分布(如L1正则化项),fi(wt)是损失函数的随机梯度。

近端算子是一个重要的数学工具,它的作用是在一个函数上进行投影操作,将其映射到一个满足某些约束条件的集合上。在L1正则化问题中,我们使用L1范数作为约束条件,这相当于将所有权重的绝对值之和限制为一个常数。为了满足这个条件,我们可以使用近端算子将权重的绝对值进行投影,并将其缩放到所需范围内。

Proximal operator的公式为:
在这里插入图片描述

总结

Prox-SG步骤的更新公式的作用是根据当前梯度估计和学习率,对当前权重进行更新,并进行L1正则化。这个步骤的更新公式包括两部分:首先是根据当前梯度和学习率计算出一个更新量,然后将这个更新量应用于当前权重,再进行L1正则化。整个步骤的目的是通过随机梯度下降法进行权重的更新,并通过L1正则化来实现权重稀疏化。这样可以使模型具有更好的泛化能力和更好的可解释性,同时避免过拟合的问题。

步骤二

在这里插入图片描述
在这里插入图片描述
其中的投影操作表示如下:
在这里插入图片描述

两个步骤的对比分析

在该论文中,Prox-SG Step和Orthant Step都是用来更新优化目标函数的参数,其中Prox-SG Step主要是通过对L1正则化项进行投影操作,得到更新的参数,从而降低目标函数的值。而Orthant Step则主要是通过对更新后的参数进行正交化,使得参数具有一定的结构性,从而提高算法的稳定性和收敛速度。

具体来说,Prox-SG Step的作用是通过L1正则化项进行投影操作,将更新后的参数映射到L1球面内,从而实现对参数的压缩和稀疏化。这个过程可以看作是一种软阈值滤波的过程,能够有效地去除噪声和冗余信息,提高模型的泛化能力和可解释性。

相比之下,Orthant Step的作用则是通过将更新后的参数正交化,使得参数的取值具有一定的结构性,从而提高算法的稳定性和收敛速度。具体来说,Orthant Step可以将参数分为正半轴和负半轴两部分,并将它们分别更新,从而避免了参数在更新过程中出现过大的摆动和震荡,从而提高了算法的收敛速度和稳定性。

需要注意的是,Prox-SG Step和Orthant Step并不是相互独立的步骤,它们之间是有一定的依赖关系的。具体来说,在每一次迭代中,Prox-SG Step会先对参数进行投影操作,得到更新后的参数,然后再将它们送入Orthant Step中进行正交化处理,从而得到最终的更新参数。因此,Prox-SG Step和Orthant Step之间是一种前后顺序的关系,相互协作,共同实现优化目标函数的效果。

实验结果

在论文的实验部分,作者对比了OBProx-SG和其他几种算法在多个数据集和任务上的性能。实验结果表明,OBProx-SG在准确率和收敛速度方面都优于其他算法,特别是在大规模数据集上表现更为突出。此外,作者还进行了超参数敏感性分析,表明OBProx-SG对于学习率和正则化参数的选择相对鲁棒。因此,该算法被证明在实践中是非常有效的。

回顾

在整个解决L1正则化系数问题时,我觉得有用的地方就是,首先是利用Prox-SGD是对每一个参数进行处理,然后就是Orthant Step针对每一个维度进行关于符号的投影处理,如果当前维度的符号与上一轮迭代权重参数符号相同就保留,反之,就赋予0值。这一点在做类似稀疏化问题的时候很有参考意义。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值