MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection论文解读

1. 引言 

要解决什么问题,首先,这是一个单目基于DETR的3D检测框架,与其他单目检测框架不同的点在于:①由于是基于DETR的检测框架,不需要多余的NMS后处理操作;②前面的单目3D检测一般是用2D的思想,首先通过2D特征预测物体在图片上的中心点,然后通过聚合中心点周围的特征再预测出3D目标的参数,这样的效果有限;其次另外一种思想是通过对图片深度的预测,通过深度+相机矩阵得到每个像素点3D坐标,然后在3D空间下进行3D物体检测,计算量大。

2. 方法

主要创新点在红色框部分,通过将特征转化为深度特征,然后和Query进行交叉注意力机制计算,使得3D目标检测效果更好。为了更好地辅助backbone出来的特征具有更好的深度信息,在这部分引入了一个深度图的监督,这也是本文的核心创新点,通过深度图的监督,来引导Backbone的特征同时兼具视觉特征和深度特征,从而服务于后续的3D检测任务。

深度图这部分和以往每个像素点的深度图不同,这部分只对2D平面上的目标进行深度计算,具体计算方法:①预设一个深度的最大值和最小值;②然后将最小值到最大值之间平均地分出K+1个区间,代表不同的深度层;③为每个目标深度d计算当前属于哪个区间

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值