最优化学习笔记：无约束优化算法（3）

最新推荐文章于 2024-07-15 23:46:30 发布

C-ccc

最新推荐文章于 2024-07-15 23:46:30 发布

阅读量781

点赞数 9

分类专栏：最优化文章标签：学习笔记算法

本文链接：https://blog.csdn.net/weixin_66626616/article/details/140125905

版权

最优化专栏收录该内容

12 篇文章 0 订阅

订阅专栏

6.3 次梯度算法

上一节讨论了梯度下降法，使用该方法的前提为目标函数 $f (x)$ 是一阶可微的。在实际应用中经常会遇到不可微的函数，对于这类函数我们无法在每个点处求出梯度，但往往它们的最优值都是在不可微点处取到的。为了能处理这种情形，这一节介绍次梯度算法。

回顾定义 2.21 (次梯度) 设 $f$ 为适当凸函数， $x$ 为定义域 $\mathbf{dom}f$ 中的一点. 若向量 $g\in\mathbb{R}^n$ 满足
$f(y)\geqslant f(x)+g^\mathrm{T}(y-x),\quad\forall y\in\mathbf{dom}f,$

则称 $g$ 为函数 $f$ 在点 $x$ 处的一个次梯度，进一步地，称集合
$\partial f(x)=\{g\:|\:g\in\mathbb{R}^n,f(y)\geqslant f(x)+g^\text{T}(y-x),\forall y\in\textbf{dom}\:f\}$

为 $f$ 在点 $x$ 处的次微分.

6.3.1 次梯度算法结构

在问题 $\min_{x\in\mathbb{R}^{n}}f(x)$ 中假设 $f (x)$ 为凸函数，但不一定可微。对凸函数可以在定义域的内点处定义次梯度 $g\in\partial f(x)$ 。为了极小化一个不可微的凸函数 $f$ ，可类似梯度法构造如下次梯度算法的迭代格式：
$x^{k+1}=x^{k}-\alpha_{k}g^{k},\quad g^{k}\in\partial f(x^{k})\qquad(6.3.1)$

其中 $\alpha_k>0$ 为步长。它通常有如下四种选择：
(1) 固定步长 $\alpha_k=\alpha$ ；
(2) 固定 $x^{k+1}-x^k\|$ ，即 $\alpha_k\|g^k\|$ 为常数；
(3) 消失步长 $\alpha_k\to 0$ 且 $\displaystyle\sum_{k=0}^{\infty}\alpha_k=+\infty$ ；
(4) 选取 $\alpha_k$ 使其满足某种线搜索准则。

步长选取在次梯度法中的影响非常大，下面将讨论在不同步长取法下次梯度算法的收敛性质。

6.3.2 收敛性分析

本小节讨论次梯度算法的收敛性。首先我们列出 $f (x)$ 所要满足的基本假设。

假设 6.1 对无约束优化问题 $\min_{x\in\mathbb{R}^{n}} f(x)$ ，目标函数 $f (x)$ 满足：
(1) $f$ 为凸函数；
(2) $f$ 至少存在一个有限的极小值点 $x^*$ ，且 $f(x^*)>-\infty$ ；
(3) $f$ 为利普希茨连续的，即
$\begin{aligned}|f(x)-f(y)|\leqslant G\|x-y\|,\quad\forall\:x,y\in\mathbb{R}^n\end{aligned}$

其中 $G > 0$ 为利普希茨常数.

对于次梯度算法，我们假设 $f (x)$ 本身是利普希茨连续的，这等价于 $f (x)$ 的次梯度有界。实际上有如下引理：

引理 6.2 设 $f (x)$ 为凸函数，则 $f (x)$ 是 G-利普希茨连续的当且仅当 $f (x)$ 的次梯度是有界的，即
$\lVert g\rVert\leqslant G,\quad\forall\:g\in\partial f(x),x\in\mathbb{R}^n.$

证明.
先证充分性. 假设对任意次梯度 $g$ 都有 $\|g\|\leqslant G$ , 取 $g_y\in\partial f(y),g_{x}\in\partial f(x)$ , 由次梯度的定义得出
$g_{x}^{\mathrm{T}}(x-y)\geqslant f(x)-f(y)\geqslant g_{y}^{\mathrm{T}}(x-y).$

再由柯西不等式，
$\begin{aligned}g_x^\mathrm{T}(x-y)&\leqslant\|g_x\|\|x-y\|\leqslant G\|x-y\|,\\g_y^\mathrm{T}(x-y)&\geqslant-\|g_y\|\|x-y\|\geqslant-G\|x-y\|.\end{aligned}$

结合上面两个不等式最终有
$\begin{aligned}|f(x)-f(y)|\leqslant G\|x-y\|.\end{aligned}$

再证必要性. 设 $f (x)$ 是 G-利普希茨连续的，反设存在 $x$ 和 $g\in\partial f(x)$ 使得 $\|g\|>G$ , 取 $y=x+\frac{g}{\|g\|}$ , 则根据次梯度的定义，
$\begin{gathered} f(y) \geqslant f(x)+g^{\mathrm{T}}(y-x)=f(x)+\|g\|>f(x)+G, \end{gathered}$

这与 $f (x)$ 是 $G$ -利普希茨连续的矛盾，因此必要性成立. 得证.

1. 不同步长下的收敛性
次梯度法不是一个下降方法，即无法保证 $f(x^{k+1})<f(x^k)$ , 收敛性分析的关键是分析 $f (x)$ 历史迭代的最优点所满足的性质. 实际上有如下定理。

定理 6.5 (次梯度算法的收敛性) 在假设 6.1 的条件下，设 $\{\alpha_k>0\}$ 为任意步长序列， ${x^k\}$ 是由算法 (6.3.1) 产生的迭代序列，则对任意的 $k\geqslant 0$ ，有
$2\left(\sum_{i=0}^k\alpha_i\right)(\hat{f}^k-f^*)\leqslant\|x^0-x^*\|^2+\sum_{i=0}^k\alpha_i^2G^2\qquad(6.3.2)$

其中 $x^*$ 是 $f (x)$ 的一个全局极小值点， $f^*=f(x^*),\hat{f}^k$ 为前 $k$ 次迭代 $f (x)$ 的最小值，即
$\hat{f}^{k}=\operatorname*{min}_{0\leqslant i\leqslant k}f(x^{i}).$

证明. 该证明的关键是估计迭代点 $x^k$ 与最小值点 $x^*$ 之间的距离满足的关系.
根据迭代格式 $x^{k+1}=x^{k}-\alpha_{k}g^{k},\quad g^{k}\in\partial f(x^{k})$ , 有
$\begin{aligned} \|x^{i+1}-x^{*}\|^{2}& =\|x^{i}-\alpha_{i}g^{i}-x^{*}\|^{2} \\ &=\|x^{i}-x^{*}\|^{2}-2\alpha_{i}\left\langle g^{i},x^{i}-x^{*}\right\rangle+\alpha_{i}^{2}\|g^{i}\|^{2} \\ &\leqslant\|x^{i}-x^{*}\|^{2}-2\alpha_{i}(f(x^{i})-f^{*})+\alpha_{i}^{2}G^{2}. \end{aligned}\qquad(6.3.3)$

这里最后一个不等式是根据次梯度的定义和 $\|g^i\|\leqslant G$ . 将 (6.3.3) 式移项，等价于
$\begin{aligned}2\alpha_{i}(f(x^{i})-f^{*})\leqslant\|x^{i}-x^{*}\|^{2}-\|x^{i+1}-x^{*}\|^{2}+\alpha_{i}^{2}G^{2}.\end{aligned}\qquad(6.3.4)$

对(6.3.4)式两边关于 $i$ 求和 (从 0 到 $k$ ), 有
$\begin{gathered} 2\sum_{i=0}^{k}\alpha_{i}(f(x^{i})-f^{*}) \leqslant\|x^0-x^*\|^2-\|x^{k+1}-x^*\|^2+G^2\sum_{i=0}^k\alpha_i^2 \\ \leqslant\|x^{0}-x^{*}\|^{2}+G^{2}\sum_{i=0}^{k}\alpha_{i}^{2}. \end{gathered}$

根据 $\hat{f}^k$ 的定义容易得出
$\sum_{i=0}^k\alpha_i(f(x^i)-f^*)\geqslant\left(\sum_{i=0}^k\alpha_i\right)(\hat{f}^k-f^*).$
结合以上两式得证.

定理 6.5 揭示了次梯度算法的一些关键性质：次梯度算法的收敛性非常依赖于步长的选取；次梯度算法是非单调算法，可以配套非单调线搜索准则 (6.1.5) 和 (6.1.6) 一起使用。根据定理 6.5 可以直接得到不同步长取法下次梯度算法的收敛性。

推论 6.2 在假设 6.1 的条件下，次梯度算法的收敛性满足 ( $\hat{f}^k$ 的定义和定理 6.5 中的定义相同)：
(1) 取 $\alpha_i=t$ 为固定步长，则
$\hat{f}^{k}-f^{*}\leqslant\frac{\|x^{0}-x^{*}\|^{2}}{2kt}+\frac{G^{2}t}{2}$

(2) 取 $\alpha_i$ 使得 $x^{i+1}-x^i\|$ 固定，即 $\alpha_i\|g^i\|=s$ 为常数，则
$\hat{f}^k-f^*\leqslant\frac{G\|x^0-x^*\|^2}{2ks}+\frac{Gs}2$

(3) 取 $\alpha_i$ 为消失步长，即 $\alpha_i\to 0$ 且 $\displaystyle\sum_{i=0}^\infty\alpha_i=+\infty$ ，则
$\hat{f}^k-f^*\leqslant\frac{\|x^0-x^*\|^2+G^2\displaystyle\sum_{i=0}^k\alpha_i^2}{2\displaystyle\sum_{i=0}^k\alpha_i}$

进一步可得 $\hat{f}^k$ 收敛到 $f^*.$

从推论 6.2 可以看到，和梯度法不同，只有当 $\alpha_k$ 取消失步长时 $\hat{f}^k$ 才具有收敛性。一个常用的取法是 $\alpha_k=\frac{1}{k}$ 这样不但可以保证其为消失步长，还可以保证 $\displaystyle\sum_{i=0}^{\infty}\alpha_i^2$ 有界。

2. 收敛速度和步长的关系
在推论 6.2 中，通过适当选取步长 $\alpha_i$ 可以获得对应次梯度算法的收敛速度。假设 $\|x^0-x^*\|\leqslant R$ ，即初值和最优解之间的距离有上界，并且总迭代步数 $k$ 是给定的，根据推论 6.2 的第一个结论，
$\hat{f}^k-f^*\leqslant\frac{\lVert x^0-x^*\rVert^2}{2kt}+\frac{G^2t}{2}\leqslant\frac{R^2}{2kt}+\frac{G^2t}{2}$

在固定步长下，由平均值不等式得知当 $t$ 满足

$\frac{R^2}{2kt}=\frac{G^2t}{2},\quad\text{即 }t=\frac{R}{G\sqrt{k}}$

时，右端达到最小，k 步后得到的上界是
$\hat{f}^k-f^*\leqslant\frac{GR}{\sqrt{k}}$

以上分析表明要使得目标函数值达到 $\varepsilon$ 的精度，即 $\hat{f}^k-f^*\leqslant\varepsilon$ ，必须取迭代步数 $k=\mathcal{O}\left(\displaystyle\frac{1}{\varepsilon^2}\right)$ 且固定步长 $\alpha_k$ 要满足 $t=\mathcal{O}\left(\displaystyle\frac{1}{\sqrt{k}}\right)$ 。这里的固定步长依赖于最大迭代步数。从上面的取法中还可以看出对于满足假设 6.1 的函数 $f$ ，最大迭代步数可以作为判定迭代点是否最优的一个终止准则。
类似地，根据推论 6.2 的第二个结论以及平均值不等式，在固定 $x^{i+1}-$ $x^i\|$ 的条件下可以取 $s=\displaystyle\frac{R}{\sqrt{k}}$ ，同样会得到估计
$\hat{f}^k-f^*\leqslant\frac{GR}{\sqrt{k}}$