非线性优化：最速下降法、牛顿法、GN法、LM法

Jason.Li_0012

已于 2022-02-25 23:42:13 修改

阅读量2.5k

点赞数 2

分类专栏：《视觉SLAM十四讲》笔记文章标签：算法

于 2022-02-15 15:54:40 首次发布

本文链接：https://blog.csdn.net/weixin_45929038/article/details/122946529

版权

《视觉SLAM十四讲》笔记专栏收录该内容

21 篇文章 19 订阅

订阅专栏

非线性优化

对于一个最小非线性二乘问题：
$\min_xF(x)=\frac{1}{2}\begin{Vmatrix}f(x)\end{Vmatrix}^2_2$
式中求取函数 $f (x)$ 的L2范数的平方和的一半的最小值，L2范数指对各项取平方和后开方运算。

求解目标函数最小，转化为使其导数为零时的自变量 $x$ 取值：
$\frac{dF}{dx}=0$
一般采用迭代法求解，从一个初始值开始，不断迭代更新变量，使得目标函数取值下降：
$\begin{aligned} 1.&给定初始值x_0\\ 2.&对于第k次迭代，寻找增量\Delta x_k使得\begin{Vmatrix}f(x_k+\Delta x_k)\end{Vmatrix}^2_2达到极小值\\ 3.&若\Delta x_k足够小，则满足条件停止\\ 4.&反之，x_{k+1}=x_k+\Delta x_k，继续迭代下一轮\\ \end{aligned}$
求解增量 $\Delta x_k$ 的方式，通常有如下几种：最速下降法、牛顿法、高斯-牛顿法及列文伯格-马夸尔特法等。

最速下降法

考虑第 $k$ 次迭代，将目标函数进行一阶泰勒展开：
$F(x_k+\Delta x_k)\approx F(x_k)+J(x_k)^T\Delta x_k$
矩阵 $J(x_k)$ 为函数 $F (x)$ 关于 $x$ 的一阶导数，称为雅可比矩阵（Jacobian Matrix）。

此时可以选取增量如下：
$\Delta x^*=arg\min\Bigl(F(x_k)+J(x_k)^T\Delta x_k\Bigr)$
右侧对$\Delta x_k $求导取零：
$\Delta x^*=-J(x_k)$
通常，还需要进一步定义一个步长 $\lambda$ ，从而沿着方向梯度方向前进，使得目标函数在一阶线性近似下得到下降。最速下降法过于贪心，导致其下降路线容易形成锯齿路线（走格子边缘），从而增加迭代次数。

牛顿法

考虑第 $k$ 次迭代，将目标函数进行二阶泰勒展开：
$F(x_k+\Delta x_k)\approx F(x_k)+J(x_k)^T\Delta x_k+\frac{1}{2}\Delta x_k^TH(x_k)\Delta x_k$
矩阵 $H(x_k)$ 为函数 $F (x)$ 关于 $x$ 的二阶导数，称为海森矩阵（Hessian Matrix），此时取增量如下：
$\Delta x^*=arg\min\Bigl( F(x_k)+J(x_k)^T\Delta x_k+\frac{1}{2}\Delta x_k^TH(x_k)\Delta x_k\Bigr)$
同样，右侧求导取零：
$H(x_k)\Delta x_k=-J(x_k)$
求解上述线性方程，即可得到增量表达。牛顿法需要耗费大量算力求解 $H$ ，应避免此问题发生。

通常采用拟牛顿法进行求解最小二乘问题。

高斯-牛顿法（GN）

对于一个目标函数 $F (x)$ ：
$\min_xF(x)=\frac{1}{2}\begin{Vmatrix}f(x)\end{Vmatrix}^2_2$
GN法通过将 $f (x)$ 进行泰勒展开，代替对 $F (x)$ 目标展开，从而提高效率。
$f(x_k+\Delta x_k)\approx f(x_k)+J(x_k)^T\Delta x_k$
此时，求解增量使得 $\begin{Vmatrix}f(x+\Delta x_k)\end{Vmatrix}^2$ 最小：
$\Delta x^* = arg\min_{x}\frac{1}{2}\begin{Vmatrix}f(x_k)+J(x_k)^T\Delta x_k\end{Vmatrix}^2$
对表达式进行化简：
$\begin{aligned} \frac{1}{2}\begin{Vmatrix}f(x_k)+J(x_k)^T\Delta x_k\end{Vmatrix}^2&=\frac{1}{2}\Bigl(f(x_k)+J(x_k)^T\Delta x_k\Bigr)^T\Bigl(f(x_k)+J(x_k)^T\Delta x_k\Bigr)\\ &=\frac{1}{2}\Bigl(\begin{Vmatrix}f(x_k)\end{Vmatrix}^2_2+2f(x_k)J(x)^T\Delta x_k+\Delta x_k^TJ(x_k)J(x_k)^T\Delta x_k\Bigr) \end{aligned}$
求解使其最小的 $x$ 即为对 $\Delta x$ 求导为零：
$\begin{aligned} J(x_k)f(x_k)+J(x_k)J^T(x_k)\Delta x_k =0\\ J(x_k)J^T(x_k)\Delta x_k=-J(x_k)f(x_k) \end{aligned}$
记 $H(x_k)=J(x_k)J^T(x_k)$ ， $g(x_k)=-J(x_k)f(x_k)$ ，从而得到关于 $\Delta x_k$ 的线性方程组：
$H(x_k)\Delta x_k=g(x_k)$
称其为增量方程，或高斯牛顿方程（Gauss-Newton Equation），正规方程（Normal Equation）。GN法采用 $JJ^T$ 近似牛顿法中二阶海森矩阵 $H$ ，从而避免大量的计算，该算法流程如下：
$\begin{aligned} 1.&给定初始值x_0\\ 2.&对第k次迭代，求雅可比矩阵J(x_k)和误差f(x_k)\\ 3.&求解增量方程：H\Delta x_k=g\\ 4.&若\Delta x_k足够小，则满足条件停止\\ 5.&反之，x_{k+1}=x_k+\Delta x_k，继续迭代下一轮\\ \end{aligned}$

对于增量方程的求解，应满足矩阵 $H$ 可逆，但 $JJ^T$ 为半正定矩阵，可能出现奇异矩阵或病态情况，导致算法不收敛。

列文伯格-马夸尔特法在一定程度上修正了上述问题。

列文伯格-马夸尔特法（LM）

LM法的收敛速度慢于GN法，但其健壮性更强，又被称为阻尼牛顿法（Damped Newton Method）

GN法二阶泰勒展开以近似线性化，其效果仅在展开点附近存在较好近似效果。因此应对 $\Delta x_k$ 添加一个区间范围，称为信赖区间（Trust Region）。认为在信赖区间内近似有效而近似区间外无效。

采用近似模型同实际函数间的差异确定信赖区间范围：
$\rho=\frac{f(x_k+\Delta x_k)-f(x_k)}{J(x_k)^T\Delta x}$
指标 $\rho$ 用于刻画近似的好坏程度，其中，分母为近似模型下降的值，分子为实际函数下降的值。

$\rho$ 接近1，则近似效果好，应扩大近似范围； $\rho$ 较小，则近似效果差，应缩小近似范围。由此，构建LM算法模型：
$\begin{aligned} 1.&给定初始值x_0以及初始优化半径\mu\\ 2.&对第k次迭代，在GN法的基础上增加信赖区域：\\ &\qquad\qquad\min_{\Delta x_k}\frac{1}{2}\begin{Vmatrix}f(x_k)+J(x_k)^T\Delta x_k\end{Vmatrix}^2,\quad s.t.\quad \begin{Vmatrix}D\Delta x_k\end{Vmatrix}^2\leq\mu, \\ &\qquad\qquad 其中，\mu为信赖区间半径，D为系数矩阵\\ 3.&计算指标：\rho=\frac{f(x_k+\Delta x_k)-f(x_k)}{J(x_k)^T\Delta x}\\ 4.& 若\rho>0.75，则设置\mu=2\mu\\ 5.& 若\rho<0.25，则设置\mu=0.5\mu\\ 6.& 若\rho处于某阈值区间，则认为近似可行，x_{k+1}=x_k+\Delta x_k\\ 7.&判断是否收敛，若收敛则结束，反之返回第二步迭代\\ \end{aligned}$
此处，将增量取值限定在半径为 $\mu$ 的球中（ $\begin{Vmatrix}\Delta x_k\end{Vmatrix}^2\leq\mu$ ），增加系数矩阵后，可视其为一个椭球（ $\begin{Vmatrix}D\Delta x_k\end{Vmatrix}^2\leq\mu$ ）。

列文伯格取 $D = I$ ，也即将增量约束在球中。而马夸尔特则将 $D$ 取为非负数对角阵（实际中通常取 $J^TJ$ 对角元素平方根），从而使得梯度小的维度上约束范围更大。

构建拉格朗日方程，将约束项放入目标函数：
$L(\Delta x_k, \lambda)=\frac{1}{2}\begin{Vmatrix}f(x_k)+J(x_k)^T\Delta x_k\end{Vmatrix}^2+\frac{\lambda}{2}\Bigl(\begin{Vmatrix}D\Delta x_k\end{Vmatrix}^2-\mu\Bigr)$
称 $\lambda$ 为拉格朗日乘子，求其关于 $\Delta x_k$ 的导数为零：
$(H+\lambda D^TD)\Delta x_k =g$
当参数 $\lambda$ 较小时， $H$ 占据主要地位，二次近似模型在范围内较好，LM法接近于GN法；当参数 $\lambda$ 较大时， $\lambda D^TD$ 占据主要地位，二次近似模型在范围内较差，LM法接近于最速下降法。