SLAM学习笔记（十六）快速了解EPnP算法原理

最新推荐文章于 2024-03-26 11:28:16 发布

zkk9527

最新推荐文章于 2024-03-26 11:28:16 发布

阅读量9.5k

点赞数 45

分类专栏： SLAM学习笔记文章标签： Epnp SLAM 视觉里程计机器人定位与导航

本文链接：https://blog.csdn.net/zkk9527/article/details/107939991

版权

SLAM学习笔记专栏收录该内容

25 篇文章

订阅专栏

前几天有实习的学弟询问我关于2D-3D匹配点的EPnP的算法原理。一下子问到还真没想起来。看了看资料，回忆起来了，特在这里简单的总结一下。

学弟没看明白的原因，其实就是一些相关的讲解文章一上来就摆出让人生畏的一堆公式。其实个人觉得在目前Epnp算法已经被集成到OpenCV中库函数里面，我们就没必要再去手动实现轮子，因此求解的细节不需要死记，我们只要知道每一步是在干什么就可以了。除非你要研究和改进算法本身，那就直接去阅读原论文是最好的。

如果只是想知道EPNP是怎么个思路和流程，但是高翔的书里没讲，自己网上搜了一下却被各种公式和控制点表示弄的晕头转向的话，那可以看看我的文章，希望能帮到各位。

很多人搞不明白主要是被好多求解的中间过程绕晕了，其实EPNP最重要的不是某个东西怎么求解，而是为什么要求解某个东西。因此我这里删繁就简，先说为什么，每一步在干什么，最后再说求解的细节问题。

先复习一下：学过SLAM14讲的人应该知道，求解2D-3D的匹配问题主要基于PNP算法，求解PnP算法的主要方式大致是直接线性变换（DLT），P3P，EPnP，UPnP以及非线性优化方法。

DLT主要是通过构建一个增广矩阵（R|t），然后通过投影矩阵构建一个方程：

通过最后一行，消去s，最后构建一个12维的线性方程组，通过6对匹配点（一对点两个方程）来求解中间的矩阵。

这种方式是通过2D-3D的关系直接构建方程，直接求解。

但是其实我们可以不采用这种方式，而是采用一种变换的形式，把2D-3D匹配关系，变换成3D-3D点的匹配关系。这样不就可以求解ICP或者是非线性优化方式去求解了吗？

P3P，EPNP都是通过这样的方式。

3D-3D的ICP方式我不在本文中介绍，感兴趣的可以看一下，我之前有写过一个总结：SLAM14讲学习笔记（四）视觉里程计（特征点法）和重难点总结

相信看过视觉SLAM14讲的人都了解ICP算法的过程，因此我不重复叙述了。这篇文章我只讲怎么把2D到3D的匹配过程，变成3D-3D的匹配过程。

P3P方法，即通过三个点的几何关系，用余弦定理联立方程，是一个几何的方式。

而EPnP，是通过一个“中间介质”，即“控制点”来变换的。（很多人看了会觉得疑惑，为什么要这样，有什么用？这就是我这里讲解的重点）

首先，我们要确定一个公式，即，空间内的任意一个三维坐标点，可以用四个控制点来加权表示。

我们首先要指出，控制点是我们自己人为去找到的。怎么找到控制点？为了不要影响整体思路，我们先把这个点记下来，记作待解决的问题【1】。我在讲完思路以后，下文再说。

另外，为什么为什么非要四个控制点，三个控制点为什么不行？这个也放到后面说，我们把它记作待解决的问题【2】。

总之，看到这里我们先假设我们通过某个方式找到了四个控制点。回到上面的方程里：

四个权重的α，是我们要求解的内容。

我们为什么要求这些α呢？因为它是一个很重要的“中间介质”。

上标是c，代表是相机坐标系。上标是w，代表是世界坐标系。我们可以从上面得到：世界坐标系下的一个点Pw，可以通过R和t变换到相机坐标系下的点Pc；世界坐标系下的那四个控制点Cw，通过同样的R和t变换到相机坐标系下，变成了“相机坐标系下的四个控制点Cc”。那么权重α是不变的。

也就是说，Pw和“四个世界坐标系下的控制点Cw”服从的权重关系α，和Pc和“四个相机坐标系下的控制点Cc”所服从的权重关系α是同一个α。

那么，在之前的这个公式里，Pw是已知的（即3D-2D当中的3D匹配点），而控制点Cw也是已知的（通过某种方法选出来的），那么只有四个α是未知的。那么这个公式，主要是想要算出这个α。

怎么算？为了不要影响整体思路，我们把这个问题记作待解决的问题【3】，留到最后说。

总之，截至到这里，在EPNP的流程里，我们就已经通过上面的方程，求出了四个α。

那么，求出α以后要怎么用？这就不能留到最后说了，这是关键的地方。可能有的人已经想到了，这个α肯定是要用到前面推导过的式子里：

这个式子表达了相机坐标系下的坐标点和相机坐标系下的四个控制点之间的关系。

但是，我们是2D-3D的匹配点，在上面的式子里，Pc我们是不知道的，Cc我们也是不知道的。Pc本身是可以通过Pw和位姿Rt求出来，但是我们现在还不知道Rt，毕竟Rt是我们要求的内容。而如果通过像素坐标（u，v)来推，又得知道深度信息。2D-3D点的匹配，3D点的Z值是世界坐标系下的坐标值，不是相机坐标系下的深度，因此同样那个没法得到。

而Cc我们也不知道，我们只知道世界坐标系下的控制点Cw，想求Cc也得是通过Cw和Rt才能得到。因此上面的式子里，我们只知道权重α，这是我们上面已经求到的。

那么上式能不能变一下呢？