实验设计
由于这篇文章的主要目的是对MV3D的网络结构有一个整体上的理解,因此暂时不涉及太多的细节。
以下将仅仅对几个较为新颖与突出的部分进行分析。该博客重点解决3D点云的实现思路以及实现问题。
3D 点云表示
我们知道,MV3D的主要思想是将单目图片与雷达点云进行融合。那么首先摆在面前的便是3D点云的表示。
对于空间点云的处理,一般而言有两种比较主流的方法。一种是将3D点云建立一个3D grid,然后再在grid之上进行3D object proposal等操作;另外一种是将3D点云映射到2D,由于想要获得深度信息的考量,因此往往其鸟瞰图是最为重要的信息。
一般来说,第一种方式产生的目标信息相对丰富,但是计算量较大;第二种映射的方法如果处理得当计算量较小,但是这种映射必然会导致一部分信息的丢失。这是一个trade-off的过程。
在这篇论文中,作者为了减小计算量,采取的是第二种方式,也就是向低维映射。但是考虑到有一部分信息在鸟瞰图中会丢失,因此作者还使用到了前视图进行后面后期的矫正。
关于其映射的直观表示为:
对于鸟瞰图,作者将其分割为了三个部分,分别为height(高度),density(密度)和intensity(强度)。对于height,作者为了得到更充足的信息,将3D点云切成了M个slice,仿照3D grid的方法,取这每一个slice中cell中点高度的最大值;对于density,取的是cell中的点的数量,正则化的表示为; 强度就是每一个cell的最大反射率。因此Bird-eye view实际上是(M+2) channel 的图片。
对于前视图,作者依旧将其划分为三个部分,分别为height,distance和intensity。处于雷达扫描的特征,笛卡尔坐标系下3D点云是稀疏的,为了解决这一问题,作者采用了极坐标系。
坐标系的变换形式为:
其中delta theta 和 delta fy 分别表示的是雷达的水平和垂直精度。
其cell中选择的方式与鸟瞰图相同。