20190715-李颖-Triangulation Learning Network
Triangulation Learning Network: from Monocular to Stereo 3D Object Detection,三角测量学习网络:从单目到立体图像的3D对象检测。这篇论文是清华大学和微软亚洲研究院发表在CVPR2019的论文,作者为Zengyi Qin,Jinglu Wang,Jinglu Wang等人。所提出的网络在KITTI数据集上的3D对象检测和定位方面优于现有技术水平。
论文地址:https://arxiv.org/abs/1906.01193
1、Introduction
根据目标检测需要输出结果的不同,一般将使用RGB图像进行目标检测,输出物体类别和在图像上的最小包围框(Bounding box)的方式称为2D目标检测,而将使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。
虽然研究者们已经对基于深度学习的立体匹配进行了大量的工作,但他们主要关注的是像素级而不是对象级。在本文中,通过适当地放置3D锚点并将区域提议网络(RPN)扩展到3D,可以仅使用单目图像获得不错的结果。
提出立体三角测量学习网络(TLNet)的立体图像三维物体检测,无需计算像素级深度图,就可以很容易地集成到基础单目检测器中。这一工作的关键思想是使用3D锚箱在一对立体图像上构建其二投影的对象级几何对应,网络从中学习三角测量锚附近的目标对象。引入了一种有效的特征重新加权策略,通过测量左右一致性来增强信息特征通道。首先提出了一个基础单目3D检测器,如图1所示:
图1.基础3D检测器概述
基础3D检测网络用蓝色背景表示,并且可以通过复制基线进一步与提出的TLNet集成,从而容易地扩展到双目输入。
总之,论文贡献主要在三个方面:
- 一种可靠的基础3D检测器,仅以单目图像作为输入,具有与目前最先进的立体检测器相当的性能。
- 三角测量学习网络,利用立体图像的几何相关性定位目标3D对象,表现优于基础模型。
- 一种功能重新加权策略,可增强特定视图的RoI功