凸优化学习笔记_chapter9_牛顿法收敛性分析

最新推荐文章于 2022-02-10 14:41:53 发布

xiaofei473

最新推荐文章于 2022-02-10 14:41:53 发布

阅读量2.8k

点赞数 1

分类专栏：凸优化笔记总结文章标签：机器学习算法线性代数动态规划自动驾驶

本文链接：https://blog.csdn.net/xiaofei473/article/details/105883107

版权

凸优化笔记总结专栏收录该内容

9 篇文章 7 订阅

订阅专栏

一、牛顿法计算步骤

首先给出牛顿法求解无约束优化问题的一般步骤：

给定起始点 $x\in\mathbf{dom}f$ ，阈值 $\epsilon>0$ 。

1.计算牛顿步（方向）和减少量
$\Delta x_\mathrm{nt}:=-\nabla^2f(x)^{-1}\nabla f(x);\quad \lambda^2:=\nabla f(x)^\mathrm{T}\nabla^2f(x)^{-1}\nabla f(x)\tag{1}$

2.若 $\lambda^2/2<\epsilon$ ，停止迭代；

3.线搜索：利用backtracking等方法计算步长 $t$ ；

4.更新： $x:=x+t\Delta x_\mathrm{nt}$ ，返回第1步。

二、牛顿法收敛性分析

一般来说，设计的算法为了能够在理论上有所保证，适当的收敛性分析是必要的（类似于控制系统的稳定性分析，没有稳定性分析不太好，过于强调稳定性分析也不太好，不可走极端）用 $x^{(0)}$ 表示迭代起始点，定义集合 $S=\{x\in\mathbf{dom}f\vert f(x)\leq f(x^{(0)})\}$ ，牛顿法有如下假设：

假设1： $f$ 二阶连续可微，强凸，即存在 $m > 0$ ， $M > 0$ 使得对 $x\in S$ ， $mI\preceq \nabla^2f(x)\preceq MI$ ；

假设2： $\nabla^2f(x)$ 在 $S$ 上为Lipschitz连续，即存在 $L$ 使得对 $x,y\in S$ ， $\Vert\nabla^2f(x)-\nabla^2f(y)\Vert_2\leq L\Vert x-y\Vert_2$ 。

在这两个假设前提下，牛顿法的收敛性质可描述为：存在 $0<\eta\leq m^2/L$ 和 $\gamma>0$ 使得

若 $\Vert\nabla f(x^{(k)})\Vert_2\geq\eta$ （damped Newton phase），则
$f(x^{(k+1)})-f(x^{(k)})\leq-\gamma\tag{2}$
若 $\Vert f(x^{(k)})\Vert_2<\eta$ （pure Newton phase），则利用backtracking方法选取 $t^{(k)}=1$ ，且
$\frac{L}{2m^2}\Vert \nabla f(x^{(k+1)})\Vert_2\leq\left(\frac{L}{2m^2}\Vert \nabla f(x^{(k)})\Vert_2\right)^2\tag{3}$

证明：假设1和假设2分别为damped Newton phase和pure Newton phase打造，确切来说damped Newton phase利用了假设1，而pure Newton phase利用了假设1和假设2，需要分阶段证明，首先对于damped Newton phase，主要证明两个性质。

性质1： 每一次迭代时利用backtracking方法计算步长 $t$ 能够在有限步内终止；

性质2： 利用backtracking方法得到的步长使得目标函数的值下降，具体下降程度由式(2)给出。

对于damped Newton phase的性质1，首先注意到
$\lambda(x)^2=-\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}=\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x)\Delta x_\mathrm{nt}\geq m\Vert\Delta x_\mathrm{nt}\Vert_2^2\tag{4}$

然后考虑根据 $f(x+t\Delta x_\mathrm{nt})$ ，根据假设1和泰勒展开有
$\begin{aligned} f(x+t\Delta x_\mathrm{nt})&\leq f(x)+t\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}+\frac{M}{2}t^2\Vert\Delta x_\mathrm{nt}\Vert_2^2\\ &\leq f(x)-t\lambda(x)^2+\frac{M}{2m}t^2\lambda(x)^2 \end{aligned}\tag{5}$

选取步长 $\hat{t}=m/M$ ，考虑到backtracking方法中的 $\alpha<1/2$ ，则根据式(5)可知
$f(x+\hat{t}\Delta x_\mathrm{nt})\leq f(x)-\frac{m}{2M}\lambda(x)^2\leq f(x)-\alpha\hat{t}\lambda(x)^2\tag{6}$

因此存在步长 $t\geq\beta m/M$ 使得backtracking方法终止。

进一步对于damped Newton phase的性质2，注意到
$\lambda(x)^2=\nabla f(x)^\mathrm{T}\nabla^2f(x)^{-1}\nabla f(x)\geq\frac{1}{M}\Vert\nabla f(x)\Vert_2^2\tag{7}$

结合式(6)和(7)可知，对于damped Newton phase， $f(x+t\Delta x_\mathrm{nt})$ 相比于 $f (x)$ 下降的程度为
$\begin{aligned} f(x+t\Delta x_\mathrm{nt})-f(x)&\leq-\alpha t\lambda(x)^2\\ &\leq-\alpha \beta\frac{m}{M}\lambda(x)^2\\ &\leq-\alpha\beta\frac{m}{M^2}\Vert\nabla f(x)\Vert_2^2\\ &\leq-\alpha\beta\eta^2\frac{m}{M^2}\tag{8} \end{aligned}$

比较式(2)和(8)，取 $\gamma=\alpha\beta\eta^2\frac{m}{M^2}$ 可使得damped Newton phase的收敛性成立。

然后对于pure Newton phase，也是主要证明两个性质。

性质3： 每一次迭代时利用backtracking方法时，步长 $t$ 取为1能够满足退出条件；

性质4： 目标函数的梯度值下降，具体下降程度由式(3)给出。

对于性质3，令 $\tilde{f}(t)=f(x+t\Delta x_\mathrm{nt})$ ，则 $\tilde{f}''(t)=\Delta x_\mathrm{nt}^\mathrm{T}\nabla^2f(x+t\Delta x_\mathrm{nt})\Delta x_\mathrm{nt}$ ，结合假设2可知
$\vert \tilde{f}''(t)-\tilde{f}''(0)\vert\leq tL\Vert\Delta x_\mathrm{nt}\Vert_2^3\tag{9}$

考虑到 $\tilde{f}''(0)=\lambda(x)^2$ 和式(4)，由式(9)可得
$\tilde{f}''(t)\leq\tilde{f}''(0)+tL\Vert\Delta x_\mathrm{nt}\Vert_2^3\leq\lambda(x)^2+t\frac{L}{m^{3/2}}\lambda(x)^3\tag{10}$

考虑到 $\tilde{f}'(0)=\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}=-\lambda(x)^2$ ，对式(10)从0到 $t$ 积分1次有
$\tilde{f}'(t)\leq\tilde{f}'(0)+t\lambda(x)^2+t^2\frac{L}{2m^{3/2}}\lambda(x)^3\leq-\lambda(x)^2+t\lambda(x)^2+t^2\frac{L}{2m^{3/2}}\lambda(x)^3\tag{11}$

对式(11)从0到 $t$ 积分1次有
$\tilde{f}(t)\leq\tilde{f}(0)-t\lambda(x)^2+\frac{t^2}{2}\lambda(x)^2+t^3\frac{L}{6m^{3/2}}\lambda(x)^3\tag{12}$

对式(12)取 $t = 1$ 可得
$f(x+\Delta x_\mathrm{nt})\leq f(x)-\frac{1}{2}\lambda(x)^2+\frac{L}{6m^{3/2}}\lambda(x)^3\tag{13}$

取 $\eta=\min\{m^2/L,3(1-2\alpha)m^2/L\}$ （类似于控制系统稳定性分析中的增益系数，完全是人为构造出来的），则有
$\begin{aligned} \lambda(x)^2&=\nabla f(x)^\mathrm{T}\nabla^2f(x)^{-1}\nabla f(x)\\ &\leq\frac{1}{m}\Vert\nabla f(x)\Vert_2^2\\ &\leq\frac{1}{m}\eta^2\\ &\Rightarrow\lambda(x)\leq\frac{3(1-2\alpha)m^{3/2}}{L}\tag{14} \end{aligned}$

结合式(13)和(14)可知
$\begin{aligned} f(x+\Delta x_\mathrm{nt})&\leq f(x)-\lambda(x)^2\left(\frac{1}{2}-\frac{L\lambda(x)}{6m^{3/2}}\right)\\ &\leq f(x)-\alpha\lambda(x)^2\\ &=f(x)+\alpha\nabla f(x)^\mathrm{T}\Delta x_\mathrm{nt}\tag{15} \end{aligned}$

由式(15)可知步长 $t$ 取为1能够满足backtracking方法的退出条件，注意这里步长 $t$ 不需要像damped Newton phase那样自乘 $\beta$ 才退出，因为backtracking方法中步长 $t$ 的初值就是1，然后根本不用进while迭代计算就退出了。

进一步对于pure Newton phase的性质4，注意到 $\nabla f(x)+\nabla^2 f(x)\Delta x_\mathrm{nt}=0$ ，因此
$\begin{aligned} \Vert\nabla f(x+\Delta x_\mathrm{nt})\Vert_2&=\Vert\nabla f(x+\Delta x_\mathrm{nt})-\nabla f(x)-\nabla^2 f(x)\Delta x_\mathrm{nt}\Vert_2\\ &=\left\Vert\int_0^1(\nabla^2f(x+t\Delta x_\mathrm{nt})-\nabla^2f(x))\Delta x_\mathrm{nt}\mathrm{d}t\right\Vert_2\\ &\leq\frac{L}{2}\Vert\Delta x_\mathrm{nt}\Vert_2^2\\ &=\frac{L}{2}\Vert\nabla^2f(x)^{-1}\nabla f(x)\Vert_2^2\\ &\leq\frac{L}{2m^2}\Vert\nabla f(x)\Vert_2^2 \end{aligned}\tag{16}$

比较式(3)和(16)可知性质4成立，牛顿法的整个收敛性证明完成。

三、牛顿法收敛性含义

我们进一步看看牛顿法的收敛性意味着什么。

设 $f (x)$ 的最优值为 $p^*$ ，首先在damped Newton phase，每次迭代后 $f (x)$ 的值至少减小 $\gamma$ ，因此damped Newton phase的迭代步数不超过 $\frac{f(x^{(0)}-p^*)}{\gamma}$ 。

然后对于pure Newton phase，由式(3)可知一旦进入pure Newton phase，此后一直都是pure Newton phase，且对 $l\geq k$ ，有
$\frac{L}{2m^2}\Vert \nabla f(x^{(l)})\Vert_2\leq\left(\frac{L}{2m^2}\Vert \nabla f(x^{(k)})\Vert_2\right)^{2^{l-k}}\leq\left(\frac{1}{2}\right)^{2^{l-k}}\tag{17}$

由假设1可知对任意 $x,y\in S$ ，
$f(y)\geq f(x)+\nabla f(x)^\mathrm{T}(y-x)+\frac{m}{2}\Vert y-x\Vert_2^2\tag{18}$

固定 $x$ ，将式(18)右端视为关于 $y$ 的凸函数，其在 $x-(1/m)\nabla f(x)$ 处取极小值，因此有
$f(y)\geq f(x)+\nabla f(x)^\mathrm{T}(-\frac{1}{m}\nabla f(x))+\frac{m}{2}\Vert\frac{1}{m}\nabla f(x)\Vert_2^2=f(x)-\frac{1}{2m}\Vert\nabla f(x)\Vert_2^2\tag{19}$

由于式(19)对任意 $x,y\in S$ 都成立，因此有
$p^*\geq f(x)-\frac{1}{2m}\Vert\nabla f(x)\Vert_2^2\tag{20}$

结合式(17)和(20)可知
$f(x^{(l)})-p^*\leq\frac{1}{2m}\Vert\nabla f(x^{(l)})\Vert_2^2\leq \frac{2m^3}{L^2}\left(\frac{1}{2}\right)^{2^{l-k+1}}$

因此要想使 $f(x)-p^*\leq\epsilon$ ，在pure Newton phase中需要的迭代步数不超过 $\log_2(\log_2(\epsilon_0/\epsilon))$ ，其中 $\epsilon_0=2m^3/L^2$ ，这一迭代速度是很快的，特别地，6次迭代就可以使得 $\epsilon\approx 5\times 10^{-20}\epsilon_0$ ，因此在大部分场合，牛顿法需要的迭代步数不超过 $\frac{f(x^{(0)}-p^*)}{\gamma}+6$ 。