Stereo R-CNN based 3D Object Detection for Autonomous Driving
使用stereo camera 完成 3D Object Detection
Stereo R-CNN
该方法主要使用几何学的的约束来进行检测,不同于传统的two stage的方法。整个网络结构如下:
Stereo RPN
Stereo RPN目的是为了提取左右两幅图的proposal。其target的处理方式为:将左右两幅图的同一个物体的box取并集,形成一个新的box,用这个box与anchor的IoU来对anchor的label进行分类;对于是前景的anchor,计算要回归的label,由于是预测两幅图中的box,所以要回归的值为两幅图中anchor与真值的横坐标的位置偏差和尺度偏差,和两幅图共用的纵坐标的位置偏差和尺度偏差,纵坐标之所以能共用,是因为安装在车上的双目相机的基线是水平的,所以纵坐标的位置偏差和尺度偏差应该是一样的。
然后分别对左右图进行NMS,左右两幅图都会保留一些proposal,然后选取左右两幅图都保留的proposal的那些进行训练。
Stereo R-CNN
得到了上述的proposal,然后去左相机的proposal进行RoI Align Pooling,每个proposal得到对应的14*14的feature map。