Orthant Based Proximal Stochastic Gradient Method for `1-Regularized Optimization

最新推荐文章于 2024-08-12 19:38:15 发布

weixin_45674607

最新推荐文章于 2024-08-12 19:38:15 发布

阅读量197

点赞数

分类专栏：论文阅读文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/weixin_45674607/article/details/129189050

版权

论文阅读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

基于投影的近似随机梯度法

基于投影的近似随机梯度法

解决问题

目的是为了解决大规模数据和高维特征的情况下的 $L^1$ 正则化问题。

动机

由于L1正则化存在非光滑性，传统的优化方法难以直接求解，因此需要采用特殊的优化方法。而作者引入正交多面体的思想是为了充分利用L1正则化问题中的稀疏性，将其转化为在正交多面体上的最小化问题，从而使得问题可以更加高效地求解。

创新点

这篇文章的创新点包括：

引入正交多面体投影算法：将L1正则化问题转化为正交多面体上的最小化问题，从而克服了L1正则化方法的缺点。
引入单调性约束：通过引入单调性约束，使得目标函数在优化过程中具有单调性，从而可以保证算法能够收敛到全局最优解。
提出了基于坐标下降法的正交多面体投影算法：利用坐标下降法对权重向量进行更新，并利用正交多面体投影算法对每个权重向量进行投影和L1正则化，从而实现了对L1正则化问题的高效求解。
提出了基于随机梯度下降法的正交多面体投影算法：利用随机梯度下降法对权重向量进行更新，并利用正交多面体投影算法对每个权重向量进行投影和L1正则化，从而实现了对大规模数据集的高效求解。

建立的数学模型

目标函数

这篇论文的目标是解决L1正则化的优化问题，即在损失函数的基础上加上L1范数正则项的问题，形式化表示为：

$minimize f(w) + λ||w||_1$ ,

其中，f(w)是损失函数，λ是正则项的系数， $w||_1$ 是w的L1范数。

主要步骤

第一步，获得一个可以预测解集合的近似随机梯度。
第二步，借助象限投影的方法去加速提升稀疏水平。

步骤一

Prox-SG Step的更新公式是:
在这里插入图片描述
其中，prox是一个近端算子(proximal operator)，η是学习率，g是一个先验分布(如L1正则化项)，fi(wt)是损失函数的随机梯度。

近端算子是一个重要的数学工具，它的作用是在一个函数上进行投影操作，将其映射到一个满足某些约束条件的集合上。在L1正则化问题中，我们使用L1范数作为约束条件，这相当于将所有权重的绝对值之和限制为一个常数。为了满足这个条件，我们可以使用近端算子将权重的绝对值进行投影，并将其缩放到所需范围内。

Proximal operator的公式为:
在这里插入图片描述

总结

Prox-SG步骤的更新公式的作用是根据当前梯度估计和学习率，对当前权重进行更新，并进行L1正则化。这个步骤的更新公式包括两部分：首先是根据当前梯度和学习率计算出一个更新量，然后将这个更新量应用于当前权重，再进行L1正则化。整个步骤的目的是通过随机梯度下降法进行权重的更新，并通过L1正则化来实现权重稀疏化。这样可以使模型具有更好的泛化能力和更好的可解释性，同时避免过拟合的问题。

步骤二

在这里插入图片描述

其中的投影操作表示如下：

两个步骤的对比分析

在该论文中，Prox-SG Step和Orthant Step都是用来更新优化目标函数的参数，其中Prox-SG Step主要是通过对L1正则化项进行投影操作，得到更新的参数，从而降低目标函数的值。而Orthant Step则主要是通过对更新后的参数进行正交化，使得参数具有一定的结构性，从而提高算法的稳定性和收敛速度。

具体来说，Prox-SG Step的作用是通过L1正则化项进行投影操作，将更新后的参数映射到L1球面内，从而实现对参数的压缩和稀疏化。这个过程可以看作是一种软阈值滤波的过程，能够有效地去除噪声和冗余信息，提高模型的泛化能力和可解释性。

相比之下，Orthant Step的作用则是通过将更新后的参数正交化，使得参数的取值具有一定的结构性，从而提高算法的稳定性和收敛速度。具体来说，Orthant Step可以将参数分为正半轴和负半轴两部分，并将它们分别更新，从而避免了参数在更新过程中出现过大的摆动和震荡，从而提高了算法的收敛速度和稳定性。

需要注意的是，Prox-SG Step和Orthant Step并不是相互独立的步骤，它们之间是有一定的依赖关系的。具体来说，在每一次迭代中，Prox-SG Step会先对参数进行投影操作，得到更新后的参数，然后再将它们送入Orthant Step中进行正交化处理，从而得到最终的更新参数。因此，Prox-SG Step和Orthant Step之间是一种前后顺序的关系，相互协作，共同实现优化目标函数的效果。

实验结果

在论文的实验部分，作者对比了OBProx-SG和其他几种算法在多个数据集和任务上的性能。实验结果表明，OBProx-SG在准确率和收敛速度方面都优于其他算法，特别是在大规模数据集上表现更为突出。此外，作者还进行了超参数敏感性分析，表明OBProx-SG对于学习率和正则化参数的选择相对鲁棒。因此，该算法被证明在实践中是非常有效的。

回顾

在整个解决L1正则化系数问题时，我觉得有用的地方就是，首先是利用Prox-SGD是对每一个参数进行处理，然后就是Orthant Step针对每一个维度进行关于符号的投影处理，如果当前维度的符号与上一轮迭代权重参数符号相同就保留，反之，就赋予0值。这一点在做类似稀疏化问题的时候很有参考意义。

weixin_45674607

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Orthant Based Proximal Stochastic Gradient Method for `1-Regularized Optimization

Prox-SG步骤的更新公式的作用是根据当前梯度估计和学习率，对当前权重进行更新，并进行L1正则化。这个步骤的更新公式包括两部分：首先是根据当前梯度和学习率计算出一个更新量，然后将这个更新量应用于当前权重，再进行L1正则化。整个步骤的目的是通过随机梯度下降法进行权重的更新，并通过L1正则化来实现权重稀疏化。这样可以使模型具有更好的泛化能力和更好的可解释性，同时避免过拟合的问题。
复制链接

扫一扫

专栏目录