Levenberg-Marquardt算法求解单应性矩阵

小书生大侠客

已于 2023-07-17 17:16:01 修改

阅读量927

点赞数

分类专栏： workspace 文章标签：算法矩阵机器学习

于 2022-10-25 17:18:28 首次发布

本文链接：https://blog.csdn.net/wubobupt2/article/details/125421043

版权

workspace 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

A. Levenberg-Marquardt算法

待估计的模型参数 $\mathbf{x}=[x_1, x_2, \cdots,x_n]^T$

误差函数 $f_i( \mathbf{x})$ : 表示第 $i$ 个观测值与对应的模型的估计值的差

$m$ ：观测值的个数

目标函数 $F(\mathbf{x}) = \frac{1}{2} \displaystyle \sum^{m}_{i=1}(f_i(\mathbf{x}))^2$

最小二乘问题可以描述为
$\mathbf{x}^* = \underset{\mathbf{x}}{argmin}\{ F(\mathbf{x}) \}$
一些用到的变量和公式
$\mathbf{f}(\mathbf{x})=[f_1(\mathbf{x}), \cdots,f_m(\mathbf{x})]^T \\ F(\mathbf{x}) = \displaystyle \frac{1}{2} \mathbf{f}^T(\mathbf{x}) \mathbf{f}(\mathbf{x}) = \frac{1}{2} ||\mathbf{f}(\mathbf{x})||^2 \\ \mathbf{f}^{'}(\mathbf{x}) = \mathbf{J}(\mathbf{x}) = \displaystyle \begin{bmatrix} \frac{\partial f_1(\mathbf{x})}{\partial x_1} &\cdots &\frac{\partial f_1(\mathbf{x})}{\partial x_n} \\ \vdots &\ddots &\vdots \\ \frac{\partial f_m(\mathbf{x})}{\partial x_1} &\cdots &\frac{\partial f_m(\mathbf{x})}{\partial x_n} \\ \end{bmatrix} \\ F^{'}(\mathbf{x}) = \mathbf{f}^{'T}(\mathbf{x})\mathbf{f}(\mathbf{x}) = \mathbf{J}^T(\mathbf{x})\mathbf{f}(\mathbf{x}) \\$

$\mathbf{f}(\mathbf{x})$ 在 $\mathbf{x}$ 处一阶泰勒展开
$\displaystyle \mathbf{f}(\mathbf{x} + \mathbf{h}) \approx \mathbf{f}(\mathbf{x}) + \mathbf{J}(\mathbf{x}) \mathbf{h}\\ \text{where} \ \mathbf{h}\ \text{sufficiently small}$
于是有
$\displaystyle \begin{align} F(\mathbf{x} + \mathbf{h}) &= \frac{1}{2} \mathbf{f}^T(\mathbf{x} + \mathbf{h}) \mathbf{f}(\mathbf{x}+ \mathbf{h}) \\ &\approx \frac{1}{2} \left( \mathbf{f}(\mathbf{x}) + \mathbf{J}(\mathbf{x}) \mathbf{h} \right)^T \left( \mathbf{f}(\mathbf{x}) + \mathbf{J}(\mathbf{x}) \mathbf{h} \right) \\ &= F(\mathbf{x}) + \mathbf{h}^T \mathbf{J}^T(\mathbf{x}) \mathbf{f}(\mathbf{x}) + \frac{1}{2} \mathbf{h}^T \mathbf{J}^T(\mathbf{x}) \mathbf{J}(\mathbf{x}) \mathbf{h} \\ \end{align} \\ \text{where} \ \mathbf{h}\ \text{sufficiently small}$
令
$L(\mathbf{h}) = F(\mathbf{x}) + \mathbf{h}^T \mathbf{J}^T(\mathbf{x}) \mathbf{f}(\mathbf{x}) + \frac{1}{2} \mathbf{h}^T \mathbf{J}^T(\mathbf{x}) \mathbf{J}(\mathbf{x}) \mathbf{h}$
每一次的迭代的基本思路是，在 $\mathbf{x}$ 处求
$\mathbf{h}_{lm} = \underset{\mathbf{h}}{\text{argmin}} \{L(\mathbf{h}) + P(\mu,\mathbf{h}) \}$
其中 $P(\mathbf{\mu,h})$ 是惩罚项，是为了使得上式求得的 $\mathbf{h}_{lm}$ 偏小些，并且可以通过调大 $\mu$ 来获得更小的 $\mathbf{h}_{lm}$ ，或者调小 $\mu$ 来获得更大的 $\mathbf{h}_{lm}$ 。常见的 $P(\mu,\mathbf{h})$ 的形式有：
$P(\mu, \mathbf{h}) = \frac{1}{2} \mu \mathbf{h}^T\mathbf{h}$

A.1 求解单应性矩阵的LM算法

$n = 8$ ， $\mathbf{x}$ 对应的是单应性矩阵里待解的8个未知量：
$\cdot \begin{bmatrix} u \\ v \\ 1 \\ \end{bmatrix} = \begin{bmatrix} x_1 &x_2 &x_3 \\ x_4 &x_5 &x_6 \\ x_7 &x_8 &1 \\ \end{bmatrix} \cdot \begin{bmatrix} a \\ b \\ 1 \\ \end{bmatrix} \\ \Rightarrow \begin{cases} \displaystyle u = \frac{x_1 a + x_2 b + x_3}{x_7 a + x_8 b + 1} \\ \displaystyle v = \frac{x_4 a + x_5 b + x_6}{x_7 a + x_8 b + 1} \\ \end{cases}$
假设有 $s$ 个点对，那么 $\cdot s$ ，因为一个点对产生两个误差函数，即对于第 $i$ 个点对，产生
$f_{2i-1}(\mathbf{x}) = \frac{x_1 a_i + x_2 b_i + x_3}{x_7 a_i + x_8 b_i + 1} - u_i \\ f_{2i}(\mathbf{x}) = \frac{x_4 a_i + x_5 b_i + x_6}{x_7 a_i + x_8 b_i + 1} - v_i \\$
对应的一阶导数是
$f^{'}_{2i-1}(\mathbf{x}) = \left[ \frac{a_i}{x_7 a_i + x_8 b_i + 1},\frac{b_i}{x_7 a_i + x_8 b_i + 1},\frac{1}{x_7 a_i + x_8 b_i + 1},0,0,0,-\frac{a_i(x_1 a_i + x_2 b_i + x_3)}{(x_7 a_i + x_8 b_i + 1)^2},-\frac{b_i(x_1 a_i + x_2 b_i + x_3)}{(x_7 a_i + x_8 b_i + 1)^2} \right]^T \\ f^{'}_{2i}(\mathbf{x}) = \left[ 0,0,0,\frac{a_i}{x_7 a_i + x_8 b_i + 1},\frac{b_i}{x_7 a_i + x_8 b_i + 1},\frac{1}{x_7 a_i + x_8 b_i + 1},-\frac{a_i(x_4 a_i + x_5 b_i + x_6)}{(x_7 a_i + x_8 b_i + 1)^2},-\frac{b_i(x_4 a_i + x_5 b_i + x_6)}{(x_7 a_i + x_8 b_i + 1)^2} \right]^T \\$
这里 $P(\mu, \mathbf{h})$ 的形式如下所示
$P(\mu, \mathbf{h}) = \frac{1}{2} \mu \mathbf{h}^T \mathbf{W} \mathbf{h}$

$\mathbf{W}$ 是一个已知的对角矩阵，而且对角线元素都是大于0的。

令
$\psi(\mathbf{h}) = L(\mathbf{h}) + \frac{1}{2} \mu \mathbf{h}^T \mathbf{W} \mathbf{h}$
求解上式的最小值，即令
$\psi^{'}(\mathbf{h}) = \mathbf{J}^T(\mathbf{x}) \mathbf{f}(\mathbf{x}) + \left( \mathbf{J}^T(\mathbf{x}) \mathbf{J}(\mathbf{x}) + \mu \mathbf{W} \right) \mathbf{h} = 0$
于是可得
$\mathbf{h}_{lm} = - \left( \mathbf{A} + \mu \mathbf{W} \right)^{-1} \mathbf{g} \\ \mathbf{A} = \mathbf{J}^T(\mathbf{x}) \mathbf{J}(\mathbf{x}) \\ \mathbf{g} = \mathbf{J}^T(\mathbf{x}) \mathbf{f}(\mathbf{x})$

整个算法如下所示：

已知： $\mathbf{x}_0$ , $\xi_1=1e^{-15}$ ， $\xi_2=1e^{-15}$ ， $k_{\mathrm{max}}$

解法：

begin

$k = 0$

$\mathbf{x} = \mathbf{x}_0$

$\mathbf{A} = \mathbf{J}^T(\mathbf{x}) \mathbf{J}(\mathbf{x});\quad \mathbf{g} = \mathbf{J}^T(\mathbf{x}) \mathbf{f}(\mathbf{x})$

$\mathbf{W} = diag([a_{11},a_{22}, \cdots,a_{nn}]); \quad \mu = 1; \quad \tau = 0.75$

found = $ \left(||\mathbf{f}(\mathbf{x})|| < \xi_2 \right)$

while (not found) and ( $k_{\mathrm{max}}$ )

$k = k + 1$

Solve $\left( \mathbf{A} + \mu \mathbf{W} \right) \mathbf{h}_{lm} = -\mathbf{g}$

$\mathbf{x}_{\mathrm{new}} = \mathbf{x} + \mathbf{h}_{lm}$

$\rho = \displaystyle \frac{F(\mathbf{x}) - F(\mathbf{x}_{\mathrm{new}})}{L(\mathbf{0}) - L(\mathbf{h}_{lm})}$

if $\rho > 0.75$

$\mu = \mu /2$

if $\mu < \tau$

$\mu = 0$

elseif $\rho < 0.25$

$\nu = \mathrm{min} \left\{ \mathrm{max} \left\{ 2 \times \left( 1 - \displaystyle \frac{F(\mathbf{x}_{\mathrm{new}}) - F(\mathbf{x})}{\mathbf{h}^T_{lm} \mathbf{g}} \right),2 \right\},10 \right\}$

if $\mu == 0$

$\mathbf{B} = \mathbf{A}^{-1}$

$\mathrm{max}\{ [b_{11},\cdots,b_{nn}] \}$

$\mu = 1/temp; \quad \tau = 1/temp$

$\nu = \nu / 2$

$\mu = \mu \cdot \nu$

if $F(\mathbf{x}_{\mathrm{new}}) < F(\mathbf{x})$

$\mathbf{x} = \mathbf{x}_{\mathrm{new}}$

$\mathbf{A} = \mathbf{J}^T(\mathbf{x}) \mathbf{J}(\mathbf{x});\quad \mathbf{g} = \mathbf{J}^T(\mathbf{x}) \mathbf{f}(\mathbf{x})$

found = $ \left(||\mathbf{h}_{lm}|| < \xi_1 \ \mathrm{or} \ ||\mathbf{f}(\mathbf{x})|| < \xi_2 \right)$

end