最小二乘问题

Shilong Wang

已于 2023-01-30 11:09:48 修改

阅读量822

点赞数 3

分类专栏： SLAM 文章标签：算法人工智能

于 2023-01-08 22:49:19 首次发布

本文链接：https://blog.csdn.net/wsl_longwudi/article/details/128515872

版权

SLAM 专栏收录该内容

30 篇文章 4 订阅

订阅专栏

文章目录

最小二乘问题
Gauss-Newton法
LM方法

最小二乘问题

$\min f\left( x\right) =\dfrac{1}{2}\sum ^{m}_{i=1}r^{2}_i\left( x\right) =\dfrac{1}{2}r\left( x\right) ^{T}r\left( x\right)\quad x\in \mathbb{R} ^{n},m\geqslant n\tag{1}$
这里 $r\left( x\right) =\left( r_{1}\left( x\right) ,r_{2}\left( x\right) ,\cdots ,r_{m}\left( x\right) \right) ^{T}$ 称为剩余函数，点 $x$ 处剩余函数的值称为剩余量。若 $r_i(x)$ 均为线性函数，则问题(1)为线性最小二乘问题，若至少有一个 $r_i(x)$ 为非线性函数，则问题(1) 为非线性最小二乘问题。

f(x)的导数

设 $J (x)$ 为 $r (x)$ 的Jacobian矩阵
$J\left( x\right) =\dfrac{\partial r}{\partial x}=\left[ \nabla r_{1}\left( x\right) ,\ldots ,\nabla r_{m}\left( x\right) \right] ^{T}\in \mathbb{R} ^{m\times n} \tag{2}$
则 $f (x)$ 的梯度为
$g\left( x\right) =\nabla f\left( x\right) =\sum ^{m}_{i=1}r_{i}\left( x\right) \nabla r_{i}\left( x\right) =J^{T}\left( x\right) r\left( x\right) \tag{3}$
$f (x)$ 的Hesse矩阵为
$\begin{aligned} G\left( x\right) &=\nabla ^{2}f\left( x\right) =\sum ^{m}_{i=1}\nabla r_{i}\left( x\right) \nabla r_{i}\left( x\right) ^{T}+\sum ^{m}_{i=1}r_{i}\left( x\right) \nabla ^{2}r_{i}\left( x\right) \\ &=J^{T}\left( x\right) J\left( x\right) +S\left( x\right) \end{aligned}\tag{4}$
其中
$S(x)=\sum ^{m}_{i=1}r_{i}\left( x\right) \nabla ^{2}r_{i}\left( x\right) \tag{5}$
为便于讨论，我们采用以下记号：
$J^{\ast}=J(x^{\ast}),\quad J_k=J(x_k) \\ S^{\ast}=S(x^{\ast}),\quad S_k=S(x_k)$

最小二乘问题的分类

在点 $x^{\ast}$ 处， $\Vert S^{\ast}\Vert$ 的大小取决于剩余量与问题的非线性程度，对零剩余或线性最小二乘问题， $\Vert S^{\ast}\Vert=0$ ，随着剩余量的增大或 $e_i(x)(i=1,\cdots,m)$ 的非线性程度的增强， $\Vert S^{\ast}\Vert$ 的值变大。根据问题的这种特点，将算法分为小剩余算法和大剩余算法。小剩余算法处理 $\Vert S^{\ast}\Vert$ 为零或不太大的问题，大剩余算法处理 $\Vert S^{\ast}\Vert$ 较大的问题。

Newton法解最小二乘问题

$f\left( x\right) =f\left( x_{k}\right) +\nabla f\left( x_{k}\right) ^{T}\left( x-x_{k}\right) +\dfrac{1}{2}\left( x-x_{k}\right) ^{T}\nabla ^{2}f\left( x_{k}\right) \left( x-x_{k}\right) +O\left( \left\| x-x_{k}\right\| ^{2}\right)$
使用二阶泰勒展开进行局部近似，这是一个二次型
$q\left( x\right) =f\left( x_{k}\right) +\nabla f\left( x_{k}\right) ^{T}\left( x-x_{k}\right) +\dfrac{1}{2}\left( x-x_{k}\right) ^{T}\nabla ^{2}f\left( x_{k}\right) \left( x-x_{k}\right)$
二次型的极值可以通过令导数为0求得
$q'\left( x\right) =\nabla f\left( x_{k}\right) +\nabla ^{2}f\left( x_{k}\right) \left( x-x_{k}\right)=0$
令 $d=x-x_k$ 为增量，代入 $\nabla f(x),\nabla^2 f(x)$ 得
$\left( J_{k}^{T}J_{k}+S_{k}\right) d=-J_{k}^{T}r_{k}\tag{6}$
对最小二乘问题， Newton 方法的缺点是每次迭代都要求 $S_k$ ，即计算m个 $n\times n$ 对称矩阵．显然，对一个算法而言， $S_k$ 的计算是一个沉重的负担．解决这个问题的方法是或者在 Newton 方程中忽略 $S_k$ ，或者用一阶导数信息近似 $S_k$ 。而要忽略 $S_k$ ，则应在 $r_i(x)$ 接近于0或接近于线性时进行。这就是下面我们要讲的小剩余算法。

Gauss-Newton法

在Newton方程(6)中忽略 $S_k$ 就得到Gauss-Newton(GN)方法。该方法也可以这样理解，在点 $x_k$ 处线性化剩余函数 $r_i(x_k+d)$ ，我们得到关于 $d$ 的线性最小二乘问题
$\min_{d\in \mathbb{R}^n}q_k(d)=\dfrac{1}{2}\Vert r_k+J_kd\Vert^2_2\tag{7}$
其中
$\begin{aligned} q_k(d)&=\dfrac{1}{2}(J_k d+r_k)^T(J_k d+r_k)\\ &= \dfrac{1}{2}d^{T}J_{k}^{T}J_{k}d+d^{T}\left( J_{k}^{T}r_{k}\right) +\dfrac{1}{2}r_{k}^{T}r_{k} \end{aligned}\tag{8}$
这里 $q_k(d)$ 是对 $f(x_k+d)$ 的一种二次近似，它与 $f(x_k+d)$ 的二次Taylor近似的差别在于二次项中少了 $S_k$ 。
问题(7)的极小点 $d_k$ 满足
$J_{k}^{T}J_{k}d_k=-J_{k}^{T}r_{k}\tag{9}$
式(9)称为Gauss-Newton方程，由(9)式得到的方向 $d_k$ 称为Gauss-Newton方向。

用 Gauss-Newton 方法求解最小二乘问题的算法如下

算法1 (Gauss-Newton 方法求解最小二乘问题）

给定 $x_0,\varepsilon>0, k :=0$ ；
若终止条件满足，则停止迭代；
解 $J_{k}^T J_{k} d = - J_k^T r_k$ 得 $d_k$ ;
$x_{k+1}:= x_k + \alpha_k d_k$ ，其中 $\alpha_k$ 是一维搜索结果， $k := k + 1$ ，转2.

基本Gauss-Newton方法是指 $\alpha_k =1$ 的Gauss-Newton方法．带线搜索的Gauss-Newton方法称为阻尼Gauss-Newton 方法．

Gauss-Newton方法的优点在于它无须计算 $r (x)$ 的二阶导数．另外，由(3)式和(9)式知
$d_{k}^{T}g_{k}=d_{k}^{T}J_{k}^{T}r_{k}=-d_{k}^{T}J_{k}^{T}J_{k}d_{k}=-\left\| J_{k}d_{k}\right\| ^{2}$

这说明．当 $J_k$ 满秩， $g_k$ 非零时， $d_k$ 是下降方向。

定理2（基本Gauss-Newton 方法的局部收敛性）
设 $r_i(x)\in C^2(i=1,\cdots,m),x^{\ast}$ 是最小二乘问题(1)的最优解，且 $J^{\ast T}J^{\ast}$ 正定。假设由基本Gauss-Newton法迭代产生的点列 ${x_k\}$ 收敛于 $x^{\ast}$ ，则当 $G (x)$ 与 $J(x)^TJ(x)$ 在 $x^{\ast}$ 的邻域内Lipschitz连续时，有
$\left\| h_{k+1}\right\| \leqslant \left\| \left( J^{\ast T}J^{\ast}\right) ^{-1}\right\|\left\|S^{\ast}\right\| \left\| h_{k}\right\| +O\left( \left\| h_{k}\right\| ^{2}\right)$
其中 $h_k=x_k-x^{\ast}$ 。
证明
因为 $f\in C^2$ ，且 $G (x)$ 在 $x^{\ast}$ 的邻域内Lipschitz连续，当 $x_k$ 充分接近 $x^\ast$ 时，由Newton法收敛性的定理证明知
$g\left( x_{k}+d\right) =g_{k}+G_{k}d+O\left( \left\| d\right\| ^{2}\right)$
令 $d=-h_k$ ，得
$0=g^{\ast }=g_{k}-G_{k}h_{k}+O\left( \left\| h_{k}\right\| ^{2}\right)$
将(3)(4)式代入上式得
$J_{k}^{T}r_{k}-\left( J_{k}^{T}J_{k}+S_{k}\right) h_{k}+O\left( \left\| h_{k}\right\| ^{2}\right) =0\tag{10}$
因为 $J^{\ast T}J^{\ast}$ 正定，当 $x_k$ 充分接近 $x^*$ 时， $J_k^TJ_k$ 亦正定，我们用 $J_k^TJ_k)^{-1}$ 左乘(10)式，由(8)式得
$-d_{k}-h_{k}-\left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}h_{k}+O\left( \left\| h_{k}\right\| ^{2}\right) =0$
因为
$d_{k}+h_{k}=x_{k+1}-x_{k}+x_{k}-x^{\ast }=h_{k+1}$
所以
$\begin{aligned} h_{k+1}&=-\left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}h_{k}+O\left( \left\| h_{k}\right\| ^{2}\right) \\ \left\| h_{k+1}\right\| &\leqslant \left\| \left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}\right\| \left\| h_{k}\right\| +O\left( \left\| h_{k}\right\| ^{2}\right) \\ &\leqslant \left\| \left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}-\left( J^{\ast T}J^{\ast }\right) ^{-1}S^{\ast }\right\| \left\| h_{k}\right\| +\left\| \left( J^{\ast T}J^{\ast }\right) ^{-1}\right\| \left\| S^{\ast }\right\| \left\| h_{k}\right\| +O\left( \left\| h_{k}\right\| ^{2}\right) \end{aligned}\tag{11}$
在下面关于 $S (x)$ 和 $J(z)^TJ(z))^{-1}$ 在 $x^{\ast}$ 的邻域内Lipschitz连续的证明中，对于任意矩阵 $A (x)$ ，我们采用记号 $A_x = A ( x )$ ．因为 $G_x$ 和 $J_x^TJ_x$ 在 $x^{\ast}$ 的邻域中Lipschitz连续，所以存在 $\beta,\gamma>0$ ，使得对 $x^{\ast}$ 邻域内的任意两点 $x, y$ ，有
$\begin{aligned}\left\| G\left( x\right) -G\left( y\right) \right\| &\leqslant \beta \left\| x-y\right\| \\ \left\| J\left( x\right) ^{T}J\left( x\right) -J\left( y\right) ^{T}J\left( y\right) \right\| &\leqslant \gamma \left\| x-y\right\| \end{aligned}$
从而
$\begin{aligned}\left\| S\left( x\right) -S\left( y\right) \right\| &=\left\| G\left( x\right) -a\left( y\right) -J\left( x\right) ^{T}J\left( x\right) +J\left( y\right) ^{T}J\left( Y\right) \right\| \\ &\leqslant \left\| G\left( x\right) -G\left( y\right) \right\| +\left\| J\left( x\right) ^{T}J\left( x\right) -J\left( y\right) ^{T}J\left( y\right) \right\| \\ &\leqslant \left( \beta +\gamma \right) \left\| x-y\right\| \end{aligned}$
对 $x^{\ast}$ 邻域内的任意点 $x$ ，由 $J^{\ast T}J^{\ast}$ 的正定性知，存在 $\xi >0$ ，使得 $\lVert(J^T_xJ_x)^{-1}\rVert\leqslant \xi$ ，从而
$\begin{aligned} \left\| \left( J_{x}^{T}J_{x}\right) ^{-1}-\left( J_{y}^{T}J_{y}\right) ^{-1}\right\| &=\left\| \left( J_{x}^{T}J_{x}\right) ^{-1}\left( J_{y}^{T}J_{y}-Jx^{T}J_{x}\right) \left( J_{y}^{T}Jy\right) ^{-1}\right\| \\ &\leqslant \left\| \left( J_{x}^{T}J_{x}\right) ^{-1}\right\| \left\| \left( J_{y}^{T}J_{y}\right) ^{-1}\right\| \left\| J_{y}^{T}J_{y}-J_{x}^{T}J_x\right\| \\ &\leqslant \gamma \xi ^{2}\left\| x-y\right\| \end{aligned}$
所以 $S_x$ 与 $J_x^TJ_x)^{-1}$ 也在 $x^{\ast}$ 的邻域内Lipschitz连续。
当 $x_k$ 充分接近 $x^{\ast}$ 时，有
$\begin{aligned} &\left\| \left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}-\left( J^{\ast T}J^{\ast }\right) ^{-1}S^{\ast }\right\| \\ &\leqslant \left\| \left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}-\left( J_{k}^{T}J_{k}\right) ^{-1}S^{\ast }\right\| +\left\| \left( J_{k}^{T}J_{k}\right) ^{-1}S^{\ast }-\left( J^{\ast T}J^{\ast }\right) ^{-1}S^{\ast }\right\| \\ &\leqslant \left( \beta +\gamma \right) \left\| \left( J_{k}^{T}J_{k}\right) ^{-1}\right\| \left\| h_{k}\right\| +\gamma \xi ^{2}\left\| S^{\ast }\right\| \left\| h_{k}\right\| \\ &\leqslant \left( \left( \beta +\gamma \right) \xi +\gamma \xi ^{2}\left\| S^{\ast }\right\| \right) \left\| h_{k}\right\| \end{aligned}$
所以
$\left\| \left( J_{k}^{T}J_{k}\right) ^{-1}S_{k}-\left( J^{\ast T}J^{\ast }\right) ^{-1}S^{\ast }\right\| \left\|h_k\right\|\leqslant \left( \left( \beta +\gamma \right) \xi +\gamma \xi ^{2}\left\| S^{\ast }\right\| \right) \left\| h_{k}\right\| ^2$
将上式代入(11)式可得
$\left\| h_{k+1}\right\| \leqslant \left\| \left( J^{\ast T}J^{\ast}\right) ^{-1}\right\|\left\|S^{\ast}\right\| \left\| h_{k}\right\| +O\left( \left\| h_{k}\right\| ^{2}\right)$
故定理结论成立。

该定理说明，若 $x_k\to x^{\ast}$ ，基本Gauss-Newton方法有如下两种情形的收敛速度：

二阶收敛速度．若 $\left\|S (x^*)\right\|＝0$ ，即在零剩余问题或是线性最小二乘问题的情形，则方法在 $x^{\ast}$ 附近具有Newton方法的收敛速度．
线性收敛速度．若 $\left\|S ( x^*)\right\|\neq 0$ ，则方法的收敛速度是线性的，收敛速度随 $S (x^*)$ 的增大而变慢．

由此可见，基本Gauss-Newton方法的收敛速度是与 $x^{\ast}$ 处剩余量的大小及剩余函数的线性程度有关的，即剩余量越小或剩余函数越接近线性，它的收敛速度就越快；反之就越慢，甚至对剩余量很大或剩余函数的非线性程度很强的问题不收敛.

LM方法

Gauss-Newton方法在迭代中会出现 $J_k^TJ_k$ 为奇异的情况，为了克服这个困难，提出LM (Levenberg-Marquardt)方法。修改Gauss-Newton方程为LM方程：
$(J_k^TJ_k+\gamma_k I)d=-J^T_kr_k \tag{12}$
其中 $\gamma_k\geqslant 0$ ，使得 $J_k^TJ_k+\gamma_k I$ 正定，从计算角度出发，为保证该矩阵充分正定， $\gamma_k$ 可能需要取得适当的大， $J_k^TJ_k+\gamma_k$ 的正定性保证了得到的方向是下降方向。

（LM方程与信赖域问题的关系） $d_k$ 为信赖域子问题
$\begin{aligned} &\min _{d}\dfrac{1}{2}\left\| J_{k}d+r_{k}\right\| ^{2} \\ &{\rm s.t.} \left\| d\right\| ^{2}\leqslant \Delta _{k}^{2},\Delta_k >0\tag{13} \end{aligned}$
的全局极小解的充分必要条件是，对满足(13)式的 $d_k$ ，存在 $\gamma_k\geqslant 0$ ，使得
$\begin{aligned}&\left( J_{k}^{T}J_{k}+\gamma _{k} I\right) d_{k}=-J_{k}^{T}r_{k}\tag{14}\\ &\gamma _{k}\left( \Delta _{k}^{2}-\left\| d_{k}\right\| ^{2}\right) =0\end{aligned}$
证明：

必要性：

对于优化问题(13)，由有约束优化问题的最优性条件知，存在 $\gamma_k\geqslant 0$ ，使得 $d_k,\gamma_k$ 满足KKT条件。
Lagrange函数：
$L(d,\gamma)=\dfrac{1}{2}\left\| J_{k}d+r_{k}\right\| ^{2}-\dfrac{1}{2}\gamma \left( \Delta _{k}^{2}-\left\| d\right\| ^{2}\right)$
KKT条件：
$\nabla _{d}L\left( d_{k},\gamma_{k}\right) =0\Rightarrow J_{k}^{T}r_{k}+\left( J_{k}^{T}J_{k}+\gamma _{k}I\right) d_{k}=0\\ \gamma _{k}\left( \Delta _{k}^{2}-\left\| d_{k}\right\| ^{2}\right) =0\tag{互补性条件}$
充分性：

因为 $J_{k}^{T}J_{k}+\gamma _{k}I$ 半正定，所以方程(14)上式的解 $d_k$ 是
$\tilde{q}_{k}\left( d\right) = \dfrac{1}{2}d^{T}( J_{k}^{T}J_{k}+\gamma_{k}I) d+d^{T}\left( J_{k}^{T}r_{k}\right) +\dfrac{1}{2}r _{k}^{T }r_{k}$
的全局极小点。由(8)式有
$\tilde{q}_{k}\left( d\right) = q_{k}\left( d\right) +\dfrac{1}{2}\gamma_{k}\left\| d\right\| ^{2}$
因为任给 $d\in \mathbb{R}^n$ ，有 $\tilde{q}_k(d)\geqslant \tilde{q}_k(d_k)$
$q_{k}\left( d\right) \geqslant q_{k}\left( d_k\right) +\dfrac{1}{2}\gamma _{k}\left( \left\| d_k\right\| ^{2}-\left\| d\right\| ^{2}\right)$
由(14)下式知，若 $\gamma_k = 0$ ，有 $q_k(d)\geqslant q_k(d_k)$ ；若 $\gamma_k\neq 0$ ，有 $\lVert d_k\rVert^2=\Delta_k^2$ ，所以
$q_k(d)\geqslant q_k(d_k )+ \dfrac{1}{2}\gamma_k(\Delta_k^2-\lVert d \rVert^2)$
这说明，对任意 $\gamma_k\geqslant 0$ 和任意满足 $\lVert d \rVert^2\leqslant \Delta_k^2$ 的 $d$ ， $d_k$ 是问题(13)的全局最优解。

下面来考虑 $\gamma_k$ 的修正方法，它与信赖域半径 $\Delta_k$ 的修正是相关的。在信赖域方法中，从 $x_k$ 到 $x_k+d_k$ ， $f (x)$ 的实际减少量为
$\Delta f_k = f(x_k)-f(x_k+d_k)$
由(8)式给出的 $f(x_k+d)$ 的二次近似函数 $q_k(d)$ 的减少量为
$\Delta q_k = q_k(0)-q_k(d_k)$
这里 $q_k(0)=f_k$ ，另外，由LM方程与 $d^T_k g_k<0$ 知
$\begin{aligned} \Delta q_{k}&=q_{k}\left( 0\right) -q_{k}\left( d_{k}\right) \\ &=-\dfrac{1}{2}d_{k}^{T}J_{k}^{T}J_{k}d_{k}-d_{k}^{T}\left( J_{k}^{T}r_{k}\right) \\ &=\dfrac{1}{2}d_{k}^{T}\left( -J_{k}^{T}J_{k}d_{k}-\gamma _{k}d_{k}+\gamma _{k}d_{k}-2J_{k}^{T}r_{k}\right) \\ &=\dfrac{1}{2}d_{k}^{T}\left( -\left( J_{k}^{T}J_{k}+\gamma _{k}I\right) d_{k}+\gamma _{k}d_{k}-2J_{k}^{T}r_{k}\right) \\ &=\dfrac{1}{2}d_{k}^{T}\left( \gamma _{k}d_{k}-g_{k}\right) >0\end{aligned}$
其中 $g_k = J_k^T r_k$
定义
$\rho_k = \dfrac{\Delta f_k}{\Delta q_k}$
在第k步迭代， $\rho_k$ 的值可以反映出 $q_k(d_k)$ 近似 $f(x_k+d_k)$ 的好坏。由LM方程知， $\gamma_k$ 可以控制 $\lVert d_k\rVert$ 的大小，从而可以控制信赖域的大小， $\gamma_k$ 的修正应与信赖域方法中对 $\Delta_k$ 大小的修正相反。 $\rho_k$ 小于阈值，则说明近似效果差，应收缩信赖域，扩大 $\gamma$ ，否则则相反。