机器学习（优化算法三）——坐标轴下降

最新推荐文章于 2025-01-17 22:00:26 发布

张连海

最新推荐文章于 2025-01-17 22:00:26 发布

阅读量6.3k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/zhanglianhai555/article/details/104111282

版权

机器学习专栏收录该内容

33 篇文章

订阅专栏

本文深入探讨了坐标轴下降法(Coordinate Descent，CD)的原理与应用，这是一种用于求解多变量函数最小值的迭代算法，不同于梯度下降法，它沿坐标轴方向进行优化，特别适用于Lasso回归等场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

Lasso回归采用的是坐标轴下降法(Coordinate Descent， CD)是一种迭代法，通过启发式的方法一步步的迭代求解函数的最小值，和梯度下降法(GD)不同的是，坐标轴下降法是沿着坐标轴的方向去下降，而不是采用梯度的负方向下降。

示意图大致如下：
在这里插入图片描述

坐标轴下降法利用EM算法的思想，在参数更新过程中，每次均先固定 m-1 个参数值，求解剩下的一个参数的局部最优解；然后进行迭代式的更新操作。

坐标轴下降法的核心思想是多变量函数 $F (X)$ 可以通过每次沿着一个方向优化来获取最小值；其数学依据是：对于一个可微凸函数f(θ)，其中θ为n*1的向量，如果对于一个解 $θ=(θ_1 ,θ_2 ,...,θ_n )$ ，使得 $f (θ)$ 在每一个坐标轴 $θ_i (i=1,2,..,n)$ 上都能达到最小值，则 $θ=(θ_1 ,θ_2 ,...,θ_n)$ 就是的 $f (θ)$ 全局的最小值点。

在坐标轴下降法中，优化方向从算法的一开始就固定了，即沿着坐标的方向进行变化。在算法中，循环最小化各个坐标方向的目标函数。即：如果 $x^k$ 给定，那么 $x^{k+1}$ 的第i维度为:
$X_i^{k+1} = \argmin\limits_{y\in R} f \left( x_1^{k+1},..., x_{i-1}^{k+1},y, x_{i+1}^k,...,x_n^k \right)$
因此，从一个初始的 $x_0$ 求得函数 $F (X)$ 的局部最优解，可以迭代获取 $x_0、x_1、x_2...$ 的序列，从而可以得到:
$F(X^0) \geq F(X^1) \geq F(X^2) \geq ...$

算法过程

给 θ 向量随机选取一个初值，记做 $θ_0$ ；
对于第 k 轮的迭代，从 $θ_1^k$ 开始计算， $θ_n^k$ 到为止，计算公式如下：
$\begin{aligned} \theta_1^k \,\,\,\ &= \,\,\,\, \argmin \limits_{\theta_1} J \left( \theta _1,\theta_2^{k-1},\theta_3^{k-1},...,\theta_n^{k-1}\right) \\ \theta_2^k \,\,\,\ &= \,\,\,\, \argmin \limits_{\theta_2} J \left( \theta _1^k,\theta_2,\theta_3^{k-1},...,\theta_n^{k-1}\right) \\......\\ \theta_n^k \,\,\,\ &= \,\,\,\, \argmin \limits_{\theta_n} J \left( \theta _1^k,\theta_2^k,\theta_3^k,...,\theta_n \right) \end{aligned}$

检查 $θ_k$ 和 $θ_{k−1}$ 向量在各个维度上的变化情况，如果所有维度的变化情况都比较小的话，那么认为结束迭代，否则继续 k+1 轮的迭代。