【PNP】slam中的pnp和目标跟踪中的pnp

野波波多

已于 2024-04-17 21:20:36 修改

阅读量819

点赞数 20

文章标签：目标跟踪人工智能计算机视觉

于 2024-04-17 19:20:02 首次发布

本文链接：https://blog.csdn.net/weixin_63695448/article/details/137885095

版权

1. 什么是pnp

即利用已知三维结构与图像的对应关系求解相机与参考坐标系的相对关系（相机的外参）

2. pnp的应用

2.1. 求解相机到物体的变换矩阵(目标追踪)

2.1.1. 问题背景

已知物体的大小，即知道物体的世界坐标系的坐标
$P_w = \begin{bmatrix} X_w \\ Y_w \\ Z_w \end{bmatrix} \tag{1}$
已知三维特征点在像素坐标系的投影
$\begin{bmatrix} u \\ v \\ 1 \end{bmatrix} \tag{2}$
相机的内参矩阵
$\begin{bmatrix} f_x & 0&c_x \\ 0& f_y&c_y \\ 0&0&1 \end{bmatrix} \tag{3}$

2.1.2. 求解

利用世界坐标系到像素坐标系的转化公式获取待追踪物体与相机之间的旋转与平移关系
$p=\left(\begin{matrix} u\\ v\\1\end{matrix} \right)=\frac{1}{z_c}\left(\begin{matrix} f_x&0&c_x\\ 0&f_y&c_y\\0&0&1\end{matrix} \right)\left(\begin{matrix} x_c\\ y_c\\z_c\end{matrix} \right)=\frac{1}{z_c}KT_{cw}P_w\tag{4}$
为了求解 $T_{cw}$ ，至少需要3组特征点。

2.1.3. 至少需要的特征点数

2.1.3.1. 代数法

将(12)式展开
$p=\left(\begin{matrix} u\\ v\\1\end{matrix} \right)=\frac{1}{z_c}\left(\begin{matrix} f_x&0&c_x\\ 0&f_y&c_y\\0&0&1\end{matrix} \right)\left(\begin{matrix} x_c\\ y_c\\z_c\end{matrix} \right)=\\\frac{1}{z_c}\left(\begin{matrix} f_x&0&c_x\\ 0&f_y&c_y\\0&0&1\end{matrix} \right)\left(\begin{matrix} R_{11} &R_{12} &R_{13}&T_1\\ R_{21} &R_{22} &R_{23}&T_2\\ R_{31} &R_{32} &R_{33}&T_3\end{matrix} \right)\left(\begin{matrix} X_w\\Y_w\\Z_w\end{matrix} \right)\tag{5}$

对于R和T展开并且对矩阵相乘展开我们得到：
$X_w * ( f_x * R_{11} + c_x * R_{31} - x * R_{31}) + Y_w * (f_x * R_{12} + c_x * R_{32} - u * R_{32}) + Z_w * (f_x * R_{13} + c_x * R_{33} - u * R_{33}) \\= T_3 * u - f_x * T_1 - c_x * T_3\tag{6}$
$X_w * ( f_y * R_{21} + c_y * R_{31} - v * R_{31}) + Y_w * (f_y * R_{22} + c_y * R_{32} - v * R_{32}) + Z_w * (f_y * R_{23} + c_y * R_{33} - v * R_{33}) \\= T_3 * v - f_y * T_2 - c_y * T_3\tag{7}$

也就是说一组2D/3D点可以得到两个方程组

$f_x$ $f_y$ $u_0$ $v_0$ 是相机内参，已知， $X_w$ $Y_w$ $x$ $y$ 是一组3D/2D点的坐标，所以未知数有 $R_{11}$ $R_{12}$ $R_{13}$ $R_{21}$ $R_{22}$ $R_{23}$ $R_{31}$ $R_{32}$ $R_{33}$ $T_1$ $T_2$ $T_3$ 一共12个，由于旋转矩阵是正交矩阵，每行每列都是单位向量且两两正交，所以 $R$ 的自由度为3，秩也是3，比如知道 $R_{11}$ $R_{12}$ $R_{13}$ 就能求出剩下的 $R_{xx}$ 。加上平移向量的3个未知数，一共6个未知数，而每一组2D/3D点提供的 $x$ $y$ $X_w$ $Y_w$ $Z_w$ 可以确立两个方程，所以3组2D/3D点的坐标能确立6个方程从而解出6个未知数。

$z_c$ 哪去了， $z_c$ 的意义是在相机坐标系下，特征点的Z轴坐标，所以这个 $z_c$ 等于 $t_3$

故PnP需要知道至少3组2D/3D点。

2.1.3.2. 几何法

在这里插入图片描述

当只有一个特征点时，相机在一个球面上任意一个位置观测特征点上的结果都是一致的，所以此时相机位姿的解有无数个(球面)
当只有两个特征点时，相机在两个球面的相交面上任意一个位置观测特征点上的结果都是一致的，所以此时相机位姿的解有无数个(平面)
当有三个特征点时，相机在三个球面的相交面上任意一个位置观测特征点上的结果都是一致的，所以此时相机位姿的解是有限的(交点)

2.1.4. solvepnp的使用

在这里插入图片描述

2.2. 求解两帧相机之间的变换矩阵矩阵

2.2.1. 问题背景

已知第 $k$ 帧的特征点的像素坐标以及特征点的深度信息 $z_{c1}$
$p_1 = \left(\begin{matrix} u_1\\ v_1\\1\end{matrix} \right) \tag{8}$
已知第 $k+1$ 帧的特征点的像素坐标
$p_2 = \left(\begin{matrix} u_2\\ v_2\\1\end{matrix} \right) \tag{9}$
相机的内参矩阵
$\begin{bmatrix} f_x & 0&c_x \\ 0& f_y&c_y \\ 0&0&1 \end{bmatrix} \tag{10}$

2.2.2. 求解

先将第 $k$ 帧像素坐标系的特征点转成相机坐标系下 $P_{c1}$

$p_1=\left(\begin{matrix} u_1\\ v_1\\1\end{matrix} \right)=\frac{1}{z_{c1}}\left(\begin{matrix} f_x&0&c_x\\ 0&f_y&c_y\\0&0&1\end{matrix} \right)\left(\begin{matrix} x_{c1}\\ y_{c1}\\z_{c1}\end{matrix} \right) \tag{11}$

现在已知第 $k$ 帧相机坐标系下特征点的三维坐标，现在我们当它是一个全新的世界坐标系下的坐标，用第 $k + 1$ 帧的像素坐标和这个全新的世界坐标计算出两帧相机之间的变换矩阵
$\left(\begin{matrix} u_2\\ v_2\\1\end{matrix} \right)=\frac{1}{z_{c2}}\left(\begin{matrix} R&t\\ 0&1\end{matrix} \right)\left(\begin{matrix} f_x&0&c_x\\ 0&f_y&c_y\\0&0&1\end{matrix} \right)\left(\begin{matrix} x_{c1}\\ y_{c1}\\z_{c1}\\1\end{matrix} \right) \tag{12}$
其中需要特征点的个数和上一种应用的推导一致。