文章目录
GS3D: An Efficient 3D Object Detection Framework for Autonomous Driving
该文章使用单目视觉做3D object detection。由于用单目视觉固有的缺陷,丢失了一维信息,所以文章中用了很多统计值。
GS3D
2D Detection and Orientation Prediction
修改Faster RCNN,在RoI feature之后又加入了orientation的预测。来预测车的朝向。
Guidance Generation
大量的使用对数据集的统计量。首先使用从数据集统计物体的尺寸(w, h, l)。然后利用2D box的上边边缘的中心点,和下边边缘的中心点(要加上从数据集统计的一个偏差值)来估计3D box的上表面中心点和下表面中心点。然后根据上下表面中心点的距离差和统计的物体的高度来计算物体的深度信息。转角的预测是通过上一步预测的角度和物体的中心确定的。到这一步,3D box的所有参数就都有了。
Surface Feature Extraction
这一步相当于优化这个box。预测的3D box有3个面是是在2D image可见的,然后根据这3个面在2D image上的投影提取feature,其实与align pooling的做法是一样的,具体解释见下图:
然后将这3个面得到特征与2D box预测中align pooling得到的特征相结合,优化box。具体见下图:
Refinement Methods
这一块基本是在讲如何设置loss,总的来说基本就是bin-loss。将回归问题转化为分区间的分类问题和回归问题。具体bin的间隔设计是统计训练集中的偏差的标准差(但这个标准差只有在训练之后才能统计,因为是需要预测box的。而且随着训练过程的推进,标准差会越来越小)。在每个预测间隔上加入分类信息,加入二分类,用来区分是否用这个间隔预测box。如果每个间隔的得分都很低,说明这个guidance是false positive。
对于一个guidance,在一个间隔就会预测一个box,对于每个间隔预测box共享权重,用一个分类头,来得到box的分类信息。
Quality Aware Loss
由于AP是根据box的得分进行排序的,所以质量越高的box希望得分越高。而目前已经计算的得分是根据box的分类信息得到的。所以设置Quality Aware Loss,预测box的得分的target是与box和gt_box的3D Overlap有关,这样就能保证质量高的box得分高。