视觉SLAM十四讲第七讲笔记（2）

Tianchao龙虾

已于 2022-11-21 10:45:10 修改

阅读量655

点赞数

分类专栏：视觉SLAM笔记文章标签： slam

于 2021-06-19 09:18:39 首次发布

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/118046675

版权

视觉SLAM笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文详细介绍了3D-2D点匹配中的PnP问题，包括直接线性变换(DLT)、Perspective-Three-Point(P3P)方法以及Bundle Adjustment。DLT通过线性方程求解相机位姿，P3P利用三个点估计位姿，而Bundle Adjustment则通过非线性最小二乘优化提高估计精度。这些方法在视觉定位、SLAM等领域有着广泛应用。

摘要由CSDN通过智能技术生成

3D-2D: PnP

PnP(perspective-n-Point) 是求解3D到2D点对运动的方法。 它描述了当我们知道 $n$ 个3D空间点以及它们的投影位置时候，如何估计相机所在位姿。 2D-2D的对极几何方法需要八个或八个以上的点对(以八点法为例)，且存在着初始化、纯旋转和尺度的问题。如果两张图像中，其中一张特征点的3D位置已知，那么最少只需三个点对(需要至少一个额外点验证结果)就可以估计相机运动。特征点的3D位置可以由三角化，或者由RGB-D相机的深度图确定。因此，在双目或RGB-D的视觉里程计中，我们可以直接使用 PnP估计相机运动。 而在单目视觉里程计中，必须先进行初始化，然后才能使用PnP。

PnP问题有很多种求解方法，例如用三对点估计位姿的P3P，直接线性变换(DLT)，EPnP (EPnPEficient PnP)， UPnP等等。此外，还能用非线性优化的方式，构建最小二乘问题并迭代求解，也就是万金油式的Bundle Adjustment。

(1) 直接线性变换(DLT)

考虑某个空间点 $P$ ，它的齐次坐标 $P=(X,Y,Z,1)^T$ 。在图像 $I_1$ 中，投影到特征点 $x_1=(u_1,v_1,1)^T$ (以归一化平面齐次坐标表示)。此时相机的位姿 $R, t$ 是未知的。与单应矩阵的求解类似，我们定义增广矩阵 $[R ∣ t]$ 为一个3x4的矩阵，包含了旋转和平移信息，其展开信息如下:
$s\biggl( \begin{matrix} u_1\\ v_1 \\ 1 \end{matrix} \biggl) = \biggl( \begin{aligned} &t_1 \quad t_2 \quad t_3 \quad t_4\\ &t_5 \quad t_6 \quad t_7 \quad t_8 \\ &t_9 \quad t_{10} \quad t_{11} \quad t_{12} \end{aligned} \biggl) \biggl( \begin{matrix} X \\ Y \\ Z\\ 1 \end{matrix} \biggl)$

用最后一行把 $s$ 消去，得到两个约束:
$u_1 = \frac{t_1X + t_2Y + t_3Z + t_4}{t_9X+t_{10}Y + t_{11}Z + t_{12}}$

$v_1 = \frac{t_5X + t_6Y + t_7Z + t_s}{t_9X + t_{10}Y + t_{11}Z + t_{12}}$

为了简化表示，定义 $T$ :
$t_1=(t_1, t_2, t_3, t_4)^T, \quad t_2 = (t_5, t_6, t_7, t_8)^T, \quad t_3=(t_9,t_{10}, t_{11}, t_{12})^T$

于是有:
$t_1^TP - t_3^TPu_1 = 0$
和

$t_2^TP -t_3^TPv_1 = 0$

请注意 $t$ 是待求变量，可以看到每个特征点提供了两个关于 $t$ 的线性约束。假设一共有 $N$ 个特征点，可以列出线性方程:

由于 $t$ 一共有12维，因此最少通过六对匹配点，即可实现矩阵 $T$ 的线性求解。这种方法就是直接线性变换(Direct Linear Transform, DLT)。当匹配点大于六对时候，可以使用SVD等方法对超定方程求最小二乘解。

在DLT求解中，我们直接将 $T$ 矩阵看成了12个未知数，忽略了它们之间的联系。因为旋转矩阵 $\in SO(3)$ ，用DLT求出的解不一定满足该约束，它是一个一般矩阵。平移向量比较好办，它属于向量空间。对于旋转矩阵 $R$ ，我们必须针对DLT估计的 $T$ 的左边3x3的矩阵块，寻找一个最好的旋转矩阵对它进行近似。这可以由QR分解完成，相当于把结果从矩阵空间重新投影到 $S E (3)$ 流形上，转换成旋转和平移两部分。

(2) P3P

P3P是另一种解PnP的方法。它仅使用三对匹配点，对数据要求较少。

P3P需要利用给定的三个点的几何关系。它的输入数据为三对3D-2D匹配点。记3D点为A，B，C，2D点为a,b,c，其中小写字母代表的点为大写字母在相机成像平面上的投影。此外，P3P还需要使用一对验证点，以从可能的解出选出正确的那一个(类似于对极几何情形)。记验证点对为D-d，相机光心为 $O$ 。我们知道的是A, B, C在世界坐标系中的坐标，而不是在相机坐标系中的坐标。一旦3D点在相机坐标系下的坐标能够算出，我们就得到了3D-3D的对应点，把PnP问题转换为了ICP问题。上图可以看出:
$\triangle Oab - \triangle OAB, \quad \triangle Obc - \triangle OBC, \triangle Oac - \triangle OAC$
考虑第一组 $\triangle Oab - \triangle OAB$ 的关系。利用余弦定理，可得:
$OA^2+OB^2-2OA \cdot OB \cdot cos \lang a,b \rang =AB^2$
对于其他两个三角形有类似的性质，可得:
$OA^2 + OB^2 - 2OA \cdot OB \cdot cos\lang a,b \rang = AB^2 \\ OB^2 + OC^2 - 2OB \cdot OC \cdot cos \lang b,c \rang = BC^2 \\ OA^2 + OC^2 - 2OA \cdot OC \cdot cos \lang a,c \rang = AC^2$

对于上面三式子全体除以 $OC^2$ ，并且记 $\quad y=OB/OC$ 得到:
$x^2+y^2-2xycos\lang a,b \rang = AB^2/OC^2 \\ y^2+1^2-2ycos \lang b,c \rang = BC^2/OC^2 \\ x^2+1^2-2xcos \lang a,c \rang = AC^2/OC^2$
记 $v=AB^2/OC^2, uv=BC^2/OC^2, wv=AC^2/OC^2$ ,可得:
$x^2+y^2-2xycos\lang a,b \rang - v = 0 \\ y^2+1^2-2ycos \lang b,c \rang - uv=0 \\ x^2+1^2-2xcos \lang a,c \rang - wv=0$
我们可以把第一个式子中的 $v$ 放到等式一边，并代入第2，3两式子1，得:
$(1-u)y^2-ux^2-cos \lang b,c \rang y + 2uxycos \lang a,b \rang + 1=0 \\ (1-w)x^2-wy^2-cos \lang a,c \rang x + 2wxycos \lang a,b \rang + 1=0$

由于我们知道2D点的图像位置，三个余弦角 $cos\lang a, b\rang, cos\lang b, c\rang, cos\lang a, c\rang$ 是已知的。同时， $u = BC^2 / AB^2 , w = A C^2 / A B^2$ 可以通过 A, B, C 在世界坐标系下的坐标算出，变换到相机坐标系下之后，并不改变这个比值。该式中的 $x, y$ 是未知的，随着相机移动会发生变化。 因此，该方程组是关于 $x, y$ 的一个二元二次方程(多项式方程)。解析地求解该方程组是一个复杂的过程，需要用吴消元法。

P3P也存在着一些问题:

P3P只利用三个点的信息。当给定的配对点多于3组时候，难以利用更多的信息。
如果3D点或者2D点受到噪声影响，或者存在误匹配，则算法失效。

在SLAM当中，通常的做法是先使用P3P/EPnP等方法估计相机位姿，然后构建最小二乘优化问题对估计值进行调整(Bundle Adjustment)。

(3) Bundle Adjustment

除了使用线性方法之外，我们可以把PnP问题构建成一个定义于李代数上的非线性最小二乘问题。前面说的线性方法，往往是先求相机位姿，再求空间点位置，非线性优化则是把它们都看成优化变量，放在一起优化。在PnP中，这个Bundle Adjustment问题，是一个最小化重投影误差(Reprojection error)的问题。

考虑 $n$ 个三维空间点 $P$ 和它的投影 $p$ ，我们希望计算相机的位姿 $R, t$ ,它的李代数为 $\epsilon$ 。假设某空间点的坐标为 $P_i=[X_i,Y_i,Z_i]^T$ ，其投影的像素坐标为 $u_i=[u_i,v_i]^T$ 。根据第五讲内容，可得:
$s_i \biggl [\begin{matrix} u_i \\v_i \\ 1 \end{matrix} \biggl] = KT \biggl [\begin{matrix} X_i \\Y_i \\Z_i \\ 1 \end{matrix} \biggl]$
其中 $T$ 用李代数表示，可得:
$s_i \biggl [\begin{matrix} u_i \\v_i \\ 1 \end{matrix} \biggl] = Kexp(\epsilon^{\land}) \biggl [\begin{matrix} X_i \\Y_i \\Z_i \\ 1 \end{matrix} \biggl]$

写成矩阵的形式就是:
$s_iu_i=Kexp(\epsilon^{\land})P_i$
现在，由于相机位姿未知以及观测点的噪声，该等式存在一个误差。因此，我们把误差求和，构建最小二乘问题，然后寻找最好的相机位姿，使它最小化:

$\epsilon^*=\argmin_{\epsilon}\frac{1}{2}\sum_{i=1}^n||u_i - \frac{1}{s_i}Kexp(\epsilon^{\land})P_i||_2^2$

该问题的误差项，是将像素坐(标观测到的投影位置)与3D点按照当前估计的位姿进行投影得到的位置相比较得到的误差，所以称之为重投影误差。

使用齐次坐标时，这个误差有3维。不过，由于u最后一维为1，该维度的误差一直为零，因而我们更多时候使用非齐次坐标，于是误差就只有2维了。

我们通过特征匹配，知道了 $p_1$ 和 $p_2$ 是同一个空间点 $P$ 的投影，但是我们不知道相机的位姿。在初始值中，P的投影 $\hat{p}_2$ 与实际的 $p_2$ 之间有一定的距离。于是我们调整相机的位姿，使得这个距离变小。不过，由于这个调整需要考虑很多个点，所以最后每个点的误差通常都不会精确为零。使用李代数，可以构建无约束的优化问题，很方便地通过 G-N, L-M 等优化算法进行求解。在使用 G-N 和 L-M 之前，我们需要知道每个误差项关于优化变量的导数，也就是线性化:

$e(x+\Delta x) \approx e(x) + J\Delta x$

这里的 $J$ 的形式是值得讨论的，甚至可以说是关键所在。现在，当 $e$ 为像素坐标误差(2维)， $x$ 为相机位姿(6维)时， $J$ 将是一个2 × 6的矩阵。我们来推导 $J$ 的形式。

首先，记变换到相机坐标系下的空间点坐标为 $P^{'}$ ,并且把它的前三维取出来:
$P'=(exp(\epsilon^{\land})P)_{1:3}=[X',Y',Z']^T$

注意:
$exp(\epsilon^{\land})P_i$ 结果是4 × 1的，而它左侧的 $K$ 是3 × 3的，所以必须把 $exp(\epsilon^{\land})P_i$ 的前三维取出来，变成三维的非齐次坐标。

那么相机投影模型相对于 $P^{'}$ 为:
$s u = K P^{'}$
展开为:
$\biggl [\begin{aligned} su \\ sv \\s \end{aligned} \biggl]=\biggl[ \begin{matrix} f_x \quad 0 \quad c_x \\ 0 \quad f_y \quad c_y \\ 0 \quad 0 \quad 1 \end{matrix} \biggl] \biggl[ \begin{matrix} X' \\ Y' \\ Z' \end{matrix}\biggl]$

利用第三行消去 $s$ (实际上就是 $P^{'}$ 的距离)，得:
$u=f_x \frac{X'}{Z'} + c_x, \quad v = f_y \frac{Y'}{Z'} + c_y$

当我们求误差时，可以把这里的 $u, v$ 与实际的测量值比较，求差。我们对 $\epsilon^{\land}$ 左乘扰动量 $\delta \epsilon$ ，然后考虑 $e$ 的变化关于扰动量的导数。利用链式法则，可以写出:
$\frac{\partial e}{\partial \delta \epsilon} = \lim_{\delta \epsilon \rightarrow 0} \frac{e(\delta \epsilon \oplus \epsilon)}{\delta \epsilon} = \frac{\partial e}{\partial P'}\frac{\partial P'}{\partial \delta \epsilon}$

这里的 $\oplus$ 指的是李代数上的左乘扰动。第一项是误差关于投影点的导数。我们进一步得到:
$\frac{\partial e}{\partial P'}=-\biggl[ \begin{matrix} \frac{\partial u}{\partial X'} \quad \frac{\partial u}{\partial Y'} \quad \frac{\partial u}{\partial Z'} \\ \frac{\partial v}{\partial X'} \quad \frac{\partial v}{\partial Y'} \quad \frac{\partial v}{\partial Z'} \end{matrix} \biggl] = -\biggl[ \begin{matrix} \frac{f_x}{Z'} \quad 0 \quad -\frac{f_x X'}{{Z'}^2} \\ 0 \quad \frac{f_y}{Z'} \quad -\frac{f_y Y'}{{Z'}^2} \end{matrix} \biggl]$
而第二项为变换后的点关于李代数的导数,进一步可得:
$\frac{\partial (TP)}{\partial \delta \epsilon} = (TP)^{\odot}=\biggl[\begin{matrix} I \quad -P'^{\land} \\ 0^T \quad 0^T \end{matrix}\biggl]$
而在 $P^{'}$ 的定义中，我们取出了前三维,于是得:
$\frac{\partial P'}{\partial \delta \epsilon} = [I, -P'^{\land}]$
將这两项相乘，就得到了 $\times 6$ 的雅可比矩阵:
$\frac{\partial e}{\partial \delta \epsilon} = -\biggl[\begin{matrix} \frac{f_x}{Z'} \quad 0 \quad -\frac{f_x X'}{Z'^2} \quad -\frac{f_x X'Y'}{Z'^2} f_x + \frac{f_x X^2}{Z'^2} \quad -\frac{f_x Y'}{Z'} \\ 0 \quad \frac{f_y}{Z'} \quad -\frac{f_y Y'}{Z'^2} \quad -f_y-\frac{f_yY'^2}{Z'^2} \quad \frac{f_yX'Y'}{Z'^2} \quad \frac{f_yX'}{Z'} \end{matrix} \biggl]$
这个雅可比矩阵描述了重投影误差关于相机位姿李代数的一阶变化关系。保留了前面的负号，因为这是由于误差是由观测值减预测值定义的。

另一方面，除了优化位姿，我们还希望优化特征点的空间位置。需要讨论 $e$ 关于空间点 $P$ 的导数。仍然利用链式法则:
$\frac{\partial e}{\partial P} = \frac{\partial e}{\partial P'}\frac{\partial P'}{\partial P}$
第一项前面推导了，第二项，根据定义:
$P'=exp(\epsilon^{\land})P =RP + t$
我们发现 $P^{'}$ 对P求导后只剩下 $R$ 。于是:
$\frac{\partial e}{\partial P} = -\biggl[ \begin{matrix} \frac{f_x}{Z'} \quad 0 \quad -\frac{f_xX'}{Z'^2} \\ 0 \quad \frac{f_y}{Z'} \quad -\frac{f_yY'}{Z'^2} \end{matrix}\biggl]R$
于是，我们推导了观测相机方程关于相机位姿与特征点的两个导数矩阵。它们十分重要，能够在优化过程中提供重要的梯度方向，指导优化的迭代。