文章目录
2019CVPR
本文提出了一个重要观点:使用图像做三维目标检测,其效果差不是因为使用图像得到的深度信息不准确,而是因为使用前视图这种表示方式的问题。
由于本文并未提出什么新的网络,所以这篇paper的解读与其他的结构不太一样。
检测结构
上图为本文提出的检测结构,整体分为两步走,第一步通过计算Depth Map,恢复出Pseudo LiDAR,第二部使用融合图像和点云的方法检测三维物体。
Depth Map -> Pseudo LiDAR:
说白了就是将深度图(u, v, d)的表示方式转为点云的表示方式(x, y, z)。
然后就是对Pseudo LiDAR的处理,就是丢掉一些超出一定x,y,z边界的点,例如高于激光雷达1m的点丢弃掉等。
对使用Pseudo LiDAR有效性的解释
这块内容主要是在Data representation matters这一节中讲的,其实我对这一节的解释很不认可。
首先先说一下文中的解释:
文中首先提到了convolution有两个假设:
- local neighborhoods in