近端梯度法（Proximal Gradient Descent）

最新推荐文章于 2024-10-22 21:09:35 发布

JimmyCM

最新推荐文章于 2024-10-22 21:09:35 发布

阅读量2.6w

点赞数 41

分类专栏：数学理论凸优化及其应用

本文链接：https://blog.csdn.net/zbwgycm/article/details/83060251

版权

数学理论同时被 2 个专栏收录

13 篇文章

订阅专栏

凸优化及其应用

11 篇文章

订阅专栏

总目录

一、凸优化基础（Convex Optimization basics）

凸优化基础（Convex Optimization basics）

二、一阶梯度方法（First-order methods）

三、对偶

近端梯度法（Proximal Gradient Descent）

在凸优化问题中，对于可微分的目标函数，我们可以通过梯度下降法（gradient descent）迭代求解最优解，而对于不可微分的目标函数，通过引入次梯度（subgradient）也可以迭代求解最优解，然而比起梯度下降法，次梯度法的速度比较缓慢。为此，针对于一些整体不可微分但却可以分解的目标函数来说，我们可以使用一种更快的算法——近端梯度法。

1. 可分解的目标函数

考虑一个目标函数可以分解为如下形式的两个函数：
$\tag{1}$

其中， $g (x)$ 是凸函数且是可微分的， $h (x)$ 也是凸函数但可能不可微分。使用近端梯度下降，可以实现 $O(1/\epsilon)$ 的收敛率（ $\epsilon=f(x^{(k)})-f(x^*)$ ，即当前迭代结果与最优解之间的偏差）。通过对近端梯度法加速，可以达到 $O(1/\sqrt\epsilon)$ 收敛速率。

2. 梯度下降法回顾

对于一个可微分的凸函数 $f (z)$ ，假设起始点在 $x$ ，则可以做二阶泰勒展开：
$f(z)\approx f(x)+\nabla f(x)^T(z-x)+\frac{1}{2}\nabla^2f(x)\|z-x\|^2_2 \tag{2}$

通过替换 $\nabla^2f(x)=\frac{1}{t}I$ ，可以得到
$f(z)\approx f(x)+\nabla f(x)^T(z-x)+\frac{1}{2t}\|z-x\|^2_2 \tag{3}$

最小化上述二次近似
$x^+=\arg\min_zf(x)+\nabla f(x)^T(z-x)+\frac{1}{2t}\|z-x\|^2_2 \tag{4}$

可以得到下一个点的位置
$z=x^+=x-t\nabla f(x) \tag{5}$

这就是我们常见的梯度下降的迭代更新策略。

3. 近端投影

如果 $f$ 不可微，但可以分解为上述的两个函数 $g$ 和 $h$ ，则我们仍然可以使用平滑部分 $g$ 的二次近似来定义向最小值走的一步：
$\begin{aligned} x^+&=\arg\min_a g(z)+h(z) \\ &\approx \arg\min_z g(x)+\nabla g(x)^T(z-x)+\frac{1}{2t}\|z-x\|^2_2+h(z) \tag{6} \end{aligned}$

式（6）可以写成：
$x^+=\arg\min_z\frac{1}{2t}\|z-(x-t\nabla g(x))\|^2_2+h(z):=prox_{h,t}(x-t\nabla g(x)) \tag{7}$

其中，近端函数 $p r o x$ 定义为
$prox_{h,t}(x)=\arg\min_z\frac{1}{2t}\|z-x\|^2_2+h(z) \tag{8}$

4. 近端梯度下降

使用近端函数，我们可以定义一个迭代过程，叫做迭代梯度下降。其过程如下：
首先，选择一个初始点 $x^{(0)}$ ，然后重复：
$x^{(i)}=prox_{h,t_i}(x^{(i-1)}-t_i\nabla g(x^{(i-1)})), i=1,2,3,... \tag{9}$

使用该方法有几个优点：

对于许多 $h$ 函数，其近端投影 $prox_{h,t}$ 有解析解；
$prox_{t}$ 仅仅依赖于 $h$ ，因此可以被用于不同的 $g$ 函数；
$g$ 可以是任意复杂的函数，只要我们能计算其梯度；

4.1 例子：迭代软阈值算法（ISTA）

考虑下面lasso问题：
$\min_{\beta \in \mathcal{R}^p}\frac{1}{2}\|y-X\beta\|^2_2+\lambda\|\beta\|_1 \tag{10}$

令 $g(\beta)=\frac{1}{2}\|y-X\beta\|^2_2$ ， $h(\beta)=\|\beta\|_1$ 。对于目标函数的近端映射可以用软阈值法来计算：
$prox_{h,t}(\beta)=\arg\min_z \frac{1}{2t}\|\beta-z\|^2_2+\lambda\|z\|_1=S_{\lambda t}(\beta) \tag{11}$

其中， $S_{\lambda t}(\beta)$ 有解析解，相当于软阈值算子：
$[S_{\lambda t}]_i=\left\{ \begin{aligned} \beta_i-\lambda t, && \beta_i>\lambda t \\ 0, && -\lambda t\leq \beta_i \leq \lambda t\\ \beta_i+\lambda t, && \beta_i < -\lambda t \end{aligned} \right. \tag{12}$

而 $g(\beta)$ 的梯度为 $X^T(X\beta-y)$ ，因此，我们可以得到近端梯度下降更新策略：
$\beta^+=S_{\lambda t}(\beta-tX^T(X\beta-y)) \tag{13}$

5. 特殊情况

近端梯度下降相当于梯度下降法的一种推广，因此也被称为复合梯度下降（composite gradient descent）或者广义梯度下降（generalized gradient descent）。下面几个特殊的情况可以看出为什么称之为广义梯度下降。

5.1 梯度下降

当 $h (x) = 0$ 时，近端映射函数变为：
$prox_t(x)=\arg\min_z\frac{1}{2t}\|x-z\|^2_2=x \tag{14}$

因此，更新策略变为
$x^{(k)}=x^{(k-1)}-t_k\nabla g(x^{(k-1)}), k=1,2,3,... \tag{15}$

即正常的梯度下降法。

5.2 投影梯度下降

当 $h(x)=I_c$ ， $I_c$ 为集合 $C$ 的指示函数时，近端映射函数变为：
$\begin{aligned} prox_t(x) &= \arg\min_z\frac{1}{2t}\|x-z\|^2_2+I_c \\ &=\arg\min_{z\in C}\frac{1}{2t}\|x-z\|^2_2 \\ &=P_C(x) \end{aligned} \tag{16}$