20230507——文献阅读《中心融合:基于中心的雷达和相机融合的三维目标检测》

袁博特

已于 2023-08-13 15:09:42 修改

阅读量610

点赞数

分类专栏：文献阅读文章标签：目标检测计算机视觉人工智能

于 2023-05-09 09:03:45 首次发布

原文链接：https://arxiv.org/pdf/2011.04841.pdf

版权

文献阅读专栏收录该内容

6 篇文章 1 订阅

订阅专栏

CenterFusion是一种将雷达和相机数据融合的新方法，用于3D目标检测。它通过中心点检测和截锥体关联机制解决了雷达和相机数据的关联问题，同时利用雷达特征提取来补充图像信息，提高目标的深度、速度和属性估计的准确性。在nuScenes数据集上，CenterFusion表现优于基于相机的检测方法。

摘要由CSDN通过智能技术生成

论文标题：
CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection
发表期刊/会议：
2021 IEEE Winter Conference on Applications of Computer Vision (WACV)
下载地址：
https://arxiv.org/pdf/2011.04841.pdf
代码地址
https://github.com/mrnabati/CenterFusion

个人理解

研究目标（提出问题）

面对遮挡或是重叠的情况，雷达和相机的映射很困难
雷达点云高度信息不准确的问题
相机检测也存在固有缺陷，是无法直接获得目标的移动速度和距离的，而这对于毫米波雷达来说是可以直接获得的。针对雷达特征提取的问题

研究方法的优缺点（分析解决问题）

使用目标检测的2D bounding box和单目测距，构建目标的ROI，文中称为截锥体关联机制。从而实现雷达-相机数据关联。
引入了一个雷达点云预处理步骤，将每个雷达点扩展为固定大小的Pillar，文中称为称为扩展Pillar。如果雷达探测的所有或部分对应支柱都在截锥体内，我们就简单地认为雷达探测位于截锥体内。
使用雷达探测的深度和速度来为图像创建互补的特征。重新计算目标的深度和旋转，以及速度和属性。

展望（存在的问题以及可能解决的思路）

截锥体的方法能够解决重叠目标的关联问题，但是不能够准确估计目标的高度信息
既然高度不可信，咱们为什么不考虑将其变化为BEV模式呢？那不就没有扩展pillar这一步了吗！直接看截锥体和雷达点云投影就可以了
雷达数据是很稀疏的，可能这个特征不是很好提取，需要考虑使用一些训练技巧（例如focal loss等）才行

杂谈（瞎说八道）

1

这个确实是这样的，主流研究方向，很卷。

目前的传感器融合方法主要集中在利用激光雷达和摄像机进行三维目标检测。

2

可以说，lidar和camera传感器无法做到全环境覆盖，如果想要实现任何时间任何环境下的环境感知，radar必不可少。

相机和激光雷达都对不利的天气条件(如雪、雾、雨)敏感，这可能会显著降低它们的视场和传感能力。此外，激光雷达和相机无法在不使用时间信息的情况下探测物体的速度。在许多情况下，估计物体的速度是避免碰撞的关键要求，而在时间紧迫的情况下，依赖时间信息可能不是一个可行的解决方案。

3

确实是这个样子，毕竟是相对运动嘛，但是我们真的特别需要目标的真实运动吗？

在这里插入图片描述

对于每一次探测，雷达还报告物体在径向方向上的瞬时速度。径向速度不一定与物体在其运动方向上的实际速度矢量相匹配。图2为在车辆坐标系下，雷达报告的径向与物体的实际速度的差值。

阅读前知识准备

1.什么是middle fusion？

前融合（early fusion）：下图(a)，直接融合原始的或经过一定前处理的传感器数据。前融合的优点——充分利用了原始数据中的信息量、同时处理多个传感器可以降低整体运算和内存消耗。缺点是——对传感器数据的对齐（空间和时间上对齐）敏感、模型的灵活性下降；
后融合（late fusion）：下图(b)，对每一个模态的检测/识别结果进行融合。后融合的优点——高度灵活和模块化，引入一个新的模态不会对原有网络产生影响。缺点是——高运算和内存消耗，并且丢失了大量对于模态融合有益的中间信息；
中间融合（middle fusion）：在模型的特征层上，对不同模态数据被处理出的特征进行融合。下图的©(d)(e)均为中间融合的不同方式。
在这里插入图片描述
多模态：自动驾驶中的多模态学习

2.什么是3D目标检测？

一般将使用RGB图像进行目标检测，输出物体类别和在图像上的最小包围框的方式称为2D目标检测。
将使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。

3D视觉目标检测的难点主要在于：

1）遮挡，遮挡分为两种情况，目标物体相互遮挡和目标物体被背景遮挡
2）截断，部分物体被图片截断，在图片中只能显示部分物体
3）小目标，相对输入图片大小，目标物体所占像素点极少
4）旋转角度学习，物体的朝向不同，但是对应特征相同，旋转角的有效学习有较大难度
5）缺失深度信息，2D图片相对于激光数据存在信息稠密、成本低的优势，但是也存在缺失深度信息的缺点
在这里插入图片描述

一文读懂3D目标检测

3.什么是feature map？

在每个卷积层，数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起，其中每一个称为一个feature map。在输入层，如果是灰度图片，那就只有一个feature map；如果是彩色图片，一般就是3个feature map（红绿蓝）。层与层之间会有若干个卷积核（kernel），上一层和每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map。
feature map（下图红线标出）即：该层卷积核的个数，有多少个卷积核，经过卷积就会产生多少个feature map，也就是下图中 豆腐皮儿的层数、同时也是下图豆腐块的深度（宽度）！！这个宽度可以手动指定，一般网络越深的地方这个值越大，因为随着网络的加深，feature map的长宽尺寸缩小，本卷积层的每个map提取的特征越具有代表性（精华部分），所以后一层卷积层需要增加feature map的数量，才能更充分的提取出前一层的特征，一般是成倍增加（不过具体论文会根据实验情况具体设置）！
在这里插入图片描述

理解卷积神经网络CNN中的特征图 feature map

4.什么是heatmap？

在非深度学习领域，热图指的是简单地聚合大量数据，并使用一种渐进的颜色来优雅的表现，以直观地展现空间数据的疏密程度或频率高低。
在深度学习领域，热图有助于了解一张图像的哪一部分让神经网络做出了最终的分类决策，热图的产生有两种方式，一是高斯热图，一个Grad-Cam产生的激活类热图。
在这里插入图片描述

heatmap生成

CenterNet将目标当成一个点来检测，即用目标box的中心点来表示这个目标。预测目标中心的偏移量(offset),宽高size来得到物体实际box，而heatmap则是表示分类信息。每个类别都有一张heatmap，每一张heatmap上，若某个坐标处有物体目标的中心点，即在该坐标处产生一个keypoint(用高斯圆表示)，如下图所示：
在这里插入图片描述

产生heatmap的步骤解释如下：

如下图左边是缩放后送入网络的图片，尺寸为512512，右边是生成的heatmap图，尺寸为128128(网络最后预测的heatmap尺度为128*128)，其步骤如下：

1.将目标的box缩放到128*128尺度上，然后求box的中心点坐标并取整，设为point
2.根据目标box大小计算高斯元的半径，设为R
3.在heatmap图上，以point为圆心，半径为R填充高斯函数计算值。(point点处为最大值，沿着半径向外按高斯函数递减)

（注意：由于两个目标都是猫，属于同一类别，所以在同一张heatmap上，若还有一只狗，则狗的keypoint在另一张heatmap上）
在这里插入图片描述

HeatMap的理解与生成

5.什么是focal loss？

Focal Loss，是 Kaiming 大神团队在他们的论文Focal Loss for Dense Object Detection 提出来的损失函数，利用它改善了图像物体检测的效果。
Focal Loss 就是一个解决分类问题中类别不平衡、分类难度差异的一个 loss。

何恺明大神的「Focal Loss」，如何更好地理解？作者分析了二分类和多分类中的数据不平衡的情况下loss的相关思考推导过程。
focal loss 通俗讲解通过focal loss与交叉熵损失函数的对比，给出focal loss有效性的解释。
5分钟理解Focal Loss与GHM——解决样本不平衡利器这一篇讲解的比较清楚，而且对Focal Loss的改进版本GHM进行了讲解。

6.什么是pillar？

Pillar，与体素（Voxel）不同，将一个垂直投影面的VOXEL合到一起，作为一个pillar，可以将pillar理解为一个柱子所代表的数据编码方式，每个柱子如果按照一定的高度切分，则可以再细分为voxel。
(二)mmdetection3d-使用kitti数据集训练PointPillar

7.什么是baseline？

baseline都是指最基础的比较对象。你论文的motivation来自于想超越现有的baseline/benchmark，你的实验数据都需要以baseline/benckmark为基准来判断是否有提高。唯一的区别就是baseline讲究一套方法，而benchmark更偏向于一个目前最高的指标，比如precision，recall等等可量化的指标。
举个例子，NLP任务中BERT是目前的SOTA，你有idea可以超过BERT。那在论文中的实验部分你的方法需要比较的baseline就是BERT，而需要比较的benchmark就是BERT具体的各项指标。

SOTA，benchmark和baseline分别是什么意思？

1 引言

自动驾驶汽车通常配备不同类型的传感器，以利用它们的互补特性。使用多传感器模式增加了鲁棒性和准确性，但也在设计感知系统中引入了新的挑战。传感器融合是其中一个挑战，近年来在二维和三维目标检测[4,10,14,19]、语义分割[33,16]和目标跟踪[1,7]等方面都有很多研究。
目前的传感器融合方法主要集中在利用激光雷达和摄像机进行三维目标检测。激光雷达利用激光脉冲的飞行时间来计算到周围物体的后期距离。激光雷达在近距离提供了精确的三维测量，但产生的点云在远距离变得稀疏，降低了系统准确探测远处物体的能力。相机提供丰富的外观特征，但不是一个很好的信息来源的深度估计。这些互补的特性使得激光雷达-相机传感器融合成为近年来的一个有趣的话题。这种组合已经被证明可以在包括自动驾驶在内的许多应用中实现高精度的三维物体检测，但它也有其局限性。相机和激光雷达都对不利的天气条件(如雪、雾、雨)敏感，这可能会显著降低它们的视场和传感能力。此外，激光雷达和相机无法在不使用时间信息的情况下探测物体的速度。在许多情况下，估计物体的速度是避免碰撞的关键要求，而在时间紧迫的情况下，依赖时间信息可能不是一个可行的解决方案。
多年来，雷达已被用于车辆的高级驾驶辅助系统(ADAS)的应用，如碰撞避免和自适应巡航控制(ACC)。与激光雷达和相机相比，雷达在恶劣天气条件下非常稳健，能够探测到非常远的目标(汽车雷达可达200米)。雷达利用多普勒效应来精确估计所有被探测物体的速度，而不需要任何时间信息。此外，与激光雷达相比，雷达点云在用作目标检测结果之前需要较少的处理。上述这些特点以及与激光雷达相比成本更低的特点，使得雷达成为自动驾驶应用中的热门传感器。
尽管雷达在汽车行业很受欢迎，但很少有研究将雷达数据与其他传感器融合在一起。其中一个原因是，用于自动驾驶应用的雷达数据集并不多，这使得在这一领域进行研究变得困难。此外，由于激光雷达与雷达点云之间存在固有的差异，将现有的基于激光雷达的算法应用于雷达点云非常困难。雷达点云明显比激光雷达的对应部分稀疏，这使得它无法用于提取物体的几何信息。聚集多个雷达扫频会增加点的密度，但也会给系统带来延迟。此外，虽然雷达点云通常以三维坐标系中的点表示，但报告的点的垂直测量往往不准确，甚至不存在，因为大多数汽车雷达只报告与物体的距离和方位角。
为了有效地结合多种传感器数据，利用神经网络中的分层特征表示，开发了多种传感器融合方案[8]。在前融合（early fusion）的融合方法中，将不同的传感器原始或预处理后的感知数据融合在一起。采用这种方法，网络从不同模态的传感器中学习联合表示。前融合（early fusion）方法通常对数据[8]中空间或时间的错误很敏感（也就是对于时空标定结果的准确性很敏感）。另一方面，后融合（late fusion）方法在决策层面结合了来自不同模态传感器的数据，并为引入新模态的传感器数据到网络中提供了更大的灵活性。然而，后融合（late fusion）方法并没有充分利用可用的传感器数据的潜力，因为它没有获得通过学习联合表示获得的中间特征。前融合（early fusion）和后融合（late fusion）方法之间的折衷被称为中间融合（middle fusion）。它从不同的模式中单独提取特征，并在中间阶段将它们组合在一起，使网络能够学习联合表示，在网络的灵敏度和灵活性之间是相对平衡的。
我们提出了CenterFusion，一种中间融合（middle fusion）的方法来利用雷达和相机数据进行3D目标检测。CenterFusion的重点是将雷达探测与从图像中获得的初步探测结果相关联，然后生成雷达特征图，并使用它和图像特征来精确估计目标的3D bounding box。特别地，我们利用关键点检测网络生成了初步的三维检测结果，并提出了一种新的基于截锥体的雷达关联方法，以准确地将雷达检测结果与三维空间中相应的目标进行关联。这些雷达探测然后映射到图像平面，并用于创建特征映射，以补充基于图像的特征。最后，利用融合后的特征精确估计目标的深度、旋转和速度等三维属性。CenterFusion的网络架构如图1所示。
在这里插入图片描述

我们在具有挑战性的nuScenes[2]数据集上对CenterFusion进行了评估，在3D目标检测基准测试中，它的性能优于之前所有基于相机的对象检测方法。我们还表明，利用雷达信息显著地提高了速度估计的对象不使用任何时间信息。

2 相关工作

2.1 单模态方法

单目3D目标检测方法是利用单目相机估计目标的3D bounding boxes。已经有很多学者对于采用不同的方法从单目图像中提取深度信息进行了研究。3D RCNN[11]使用Fast R-CNN[9]与额外的head和3D投影。它还使用CAD模型集合来学习对象的类特定形状先验。Deep3DBox[17]首先使用卷积神经网络回归一组3D对象属性，然后使用2D bounding boxes的几何约束生成对象的3D bounding boxes。CenterNet[34]采用了一种不同的方法，使用一个关键点检测网络来找到图像上物体的中心点。其他的对象属性，如三维尺寸和位置，通过回归只使用对象中心点的图像特征来获得。
近年来，激光雷达在自动驾驶应用中被广泛应用于三维目标的检测和跟踪。大多数基于lidar的方法要么使用3D体素[12,35]，要么使用2D投影[13,5,29,31]来表示点云。由于体素网格的高维性，基于体素的方法通常速度较慢，而基于投影的方法可能会受到物体形状和大小随投影平面变化的巨大差异的影响。PointRCNN[25]直接对原始点云进行操作，利用点云分割，以自底向上的方式生成3D目标的候选框。这些候选框在第二阶段被细化，以生成最终的检测框。

2.2 基于融合的方法

现有的传感器融合方法主要集中在激光雷达和相机的融合问题上。MV3D[4]除提取RGB图像外，还提取LiDAR数据的前视图和Bird 's Eye view (BEV)表示的特征。然后，利用激光雷达的BEV获得的特征生成3D目标候选框，并使用深度融合网络将每个视图的特征结合起来，预测目标类别和框方向。PointFusion[28]分别使用CNN和PointNet模型处理图像和LiDAR数据，然后利用提取的特征生成3D目标候选框。截锥体 PointNet[23]直接对从RGB-D相机获得的原始点云进行操作，并使用RGB图像和2D目标检测器对点云中的对象进行定位。
很少有研究将雷达与其他传感器融合在自动驾驶应用中。RadarNet[30]融合雷达和激光雷达数据，用于3D目标检测。它使用前融合（early fusion）机制从两个传感器学习联合表示，并使用后融合（late fusion）机制利用雷达的径向速度证据，提高估计的目标速度。在[3]中，Chadwick等人将雷达探测投影到像平面上，利用它们来提高对远处目标的目标探测精度。在[20]中，作者首先利用雷达探测生成3D目标候选框，然后将其投影到图像平面，进行联合二维目标检测和深度估计。CRF-Net[22]也将雷达探测投影到图像平面，但将其表示为垂直线，其中像素值对应于每个检测点的深度。然后用雷达信息对图像数据进行扩充，并在卷积网络中用于进行2D目标检测。

3 预处理

3.1 雷达点云

雷达是主动传感器，通过发射无线电波来感知环境，并通过测量反射波来确定目标的位置和速度。汽车雷达通常将探测到的目标报告为BEV中的2D点，提供到目标的方位角和径向距离。对于每一次探测，雷达还报告物体在径向方向上的瞬时速度。径向速度不一定与物体在其运动方向上的实际速度矢量相匹配。图2为在车辆坐标系下，雷达报告的径向与物体的实际速度的差值。
在这里插入图片描述
我们将每个雷达探测表示为自我中心坐标系统中的一个3D点，并将其参数化为P = (x, y, z, vx, vy)，其中(x, y, z)是位置，(vx, vy)是报告的物体在x和y方向上的径向速度。径向速度由自我车的运动来补偿。对于每个场景，我们汇总了3次雷达点云扫描(在过去0.25秒内的探测)。nuScenes数据集提供了将雷达点云从雷达坐标系映射到自中心坐标系和相机坐标系所需的校准参数。

3.2 CenterNet

CenterNet[34]代表了使用单摄像机进行三维物体检测的最先进技术。取图像I∈RW×H×3为输入，生成关键点热图Yˆ∈[0,1]W R ×H R×C，其中W和H为图像的宽度和高度，R为下采样比，C为对象类别数。预测ˆYx,y,c = 1作为输出，表示在图像上的位置(x, y)为中心的c类检测对象。ground-truth热图Y∈[0,1]W R ×H R×C是使用高斯核由ground-truth 2D bounding boxes生成的。对于图像中c类的每个包围盒中心点pi∈R2，在Y:，:，c上生成一个高斯热图。类c在位置q∈R2处Y的最终值定义为[34]:(这一段的意思就是，检测过程中一张图片中的同一类型的目标生成一个热图，有几种类型的目标就生成几张热图，ground-truth也是一样的操作）

其中σi是一个尺寸自适应的标准偏差，它根据每个对象的尺寸来控制热图的大小。采用全卷积编解码器网络预测ˆY。
为了生成3D bounding boxes，使用独立的网络头直接从检测到的中心点回归物体的深度、尺寸和方向。对原始深度域应用Eigen et al.[6]中使用的逆s型变换后，深度作为一个额外的输出通道Dˆ∈[0,1]W R ×H R计算。三个输出通道ˆΓ∈[0,1]W R ×H R×3的对象尺寸直接回归到以米为单位的绝对值。方向被编码为两个容器，每个容器中有4个标量，遵循Mousavian等人[18]中的方向表示。在骨干网[34]中，对于每个中心点，还预测了一个局部偏移，以补偿输出步长引起的离散化误差。
给定带注解的对象p0, p1，…在一幅图像中，基于焦损[15]，训练目标定义如下:
在这里插入图片描述

式中，N为对象个数，Y∈[0,1]W R ×H R×C为注释对象的地真热图，α和β为焦损超参数。

4 CenterFusion

在本节中，我们介绍了我们的方法，雷达和相机融合的3D目标检测。CenterFusion的整体架构如图1所示。我们采用CenterNet[34]作为我们的基于中心的目标检测网络，检测图像平面上物体的中心点，并回归到物体的其他属性，如三维位置、方向和尺寸。我们提出了一种中间融合（middle fusion）机制，将雷达探测结果与相应目标的中心点关联起来，并利用雷达和图像特征，通过重新估计其深度、速度、旋转和属性来改进初步探测。
我们的融合机制的关键是将雷达探测结果与目标进行准确的关联。中心点目标检测网络生成图像中每个目标类别的热图。热图中的峰值代表了目标可能的中心点，这些位置的图像特征被用来估计目标的其他属性。为了利用该设置下的雷达信息，需要将基于雷达的特征映射到图像上对应对象的中心，这就需要将雷达探测到的对象与场景中的对象进行准确的关联。

4.1 中心点检测

我们采用CenterNet[34]检测网络对图像进行初步检测。
首先使用全卷积编码器和解码器骨干网络提取图像特征。我们遵循CenterNet[34]，并使用深层汇聚(DLA)网络[32]的修改版本作为骨干网络。然后利用提取的图像特征预测图像上物体的中心点，以及物体的二维尺寸(宽度和高度)、中心偏移量、三维尺寸、深度和旋转。这些值由Primary Regression Heads预测得到，如图1所示。每个Primary Regression Heads由一个256通道的3 × 3卷积层和一个1 × 1卷积层组成，生成所需的输出。这为场景中每个被检测的目标提供了一个精确的2D bounding box以及一个初步的3D bounding box。
在这里插入图片描述

4.2 雷达-相机数据关联

中心点检测网络只利用每个物体中心的图像特征来回归到所有其他的属性。在此过程中，为了充分利用雷达数据，我们首先需要将雷达探测到的图像与图像平面上的对应对象关联起来。为了实现这一点，na¨ıve方法将把每个雷达检测点映射到图像平面，并将其关联到一个对象(如果该点映射在该对象的2D包围框内)。这不是一个非常鲁棒的解决方案，因为在雷达探测和图像中的目标之间没有一对一的映射;场景中的许多物体会产生多个雷达探测，也有一些雷达探测并不对应于任何物体。此外，由于雷达探测的z维不精确(或根本不存在)，映射雷达探测可能会在其对应对象的2D包围框之外结束。最后，从被遮挡物体获得的雷达探测会映射到图像中相同的一般区域，这使得在二维图像平面上区分它们非常困难，如果可能的话。（一句话概括就是，面对遮挡或是重叠的情况，雷达和相机的映射很困难）
截锥体关联机制:我们开发了一种截锥体关联方法，该方法使用对象的2D bounding box及其估计的深度和大小来创建对象的3D感兴趣区域(RoI)截锥体。有了对象的精确2D边界框，我们为该对象创建了一个截锥体，如图3所示。这显著地缩小了需要检查关联的雷达探测范围，因为该截锥外的任何点都可以被忽略。然后，我们使用估计的对象深度、尺寸和旋转来创建对象周围的RoI，进一步过滤掉与该对象无关的雷达探测。如果在该RoI内有多个雷达探测点，则取最近的点作为该目标对应的雷达探测点。
在这里插入图片描述
在训练阶段，我们使用目标的3D ground truth bounding box来创建一个紧凑的RoI截锥体，并将雷达探测与对象关联起来。在测试阶段，使用对象估计的3D bounding box 计算RoI截锥体，如前所述。在这种情况下，我们使用参数δ来控制RoI截锥体的大小，如图3所示。这是为了解释估计深度值的不准确性，因为在这一阶段，目标的深度完全是使用基于图像的特征来确定的。使用此参数扩大截锥体可以增加在截锥体内包含相应雷达探测的机会，即使估计深度略有偏差。δ值应该仔细选择，因为一个大的RoI截锥体可能包括目标附近的物体。
RoI截锥体方法使得重叠对象的关联毫不费力，因为目标在3D空间中是分离的，并且会有独立的RoI截锥体。它还消除了多检测关联问题，因为只有在RoI截锥体内距离最近的雷达检测点才与目标进行关联。然而，这并不能帮助解决z维不准确的问题，因为雷达探测可能在相应目标的ROI截锥体外，因为它们的高度信息不准确。（截锥体的方法能够解决重叠目标的关联问题，但是不能够准确估计目标的高度信息）
扩展Pillar:为了解决高度信息不准确的问题，我们引入了一个雷达点云预处理步骤，称为扩展Pillar，将每个雷达点扩展为固定大小的Pillar，如图4所示。Pillar为雷达探测到的物理对象创建了更好的表示，因为这些探测现在与3D空间中的一个维度相关联。有了这个新的表示，如果雷达探测的所有或部分对应支柱都在截锥体内，我们就简单地认为雷达探测位于截锥体内，如图1所示。
在这里插入图片描述

在这里插入图片描述

4.3 雷达特征提取

在将雷达探测与其对应的目标相关联后，我们使用雷达探测的深度和速度来为图像创建互补的特征。特别地，对于每一个与目标相关联的雷达探测，我们生成了以目标2D bounding box为中心和在目标2D bounding box内部的三个热图通道，如图4所示。热图的宽度和高度与目标的2D bounding box成比例，并由参数α控制。热图值为归一化物体深度(d)以及自心坐标系下径向速度的x、y分量(vx、vy):
在这里插入图片描述
其中i∈1、2、3为feature map通道，Mi为归一化因子，fi为特征值(d、vx或vy)， cj x、cj y为图像上第j个对象中心点的x、y坐标，wj、hj为第j个对象的2D bounding box的宽度、高度。如果两个物体有重叠的热图区域，深度值较小的那个占主导地位，因为在图像中只有最近的物体是完全可见的。
生成的热图然后连接到图像特征作为额外的通道。这些特征被用作二次回归头的输入，以重新计算目标的深度和旋转，以及速度和属性。速度回归头估计物体在车辆坐标系中的实际速度的x和y分量。属性回归头估计不同对象类的不同属性，比如Car类的移动或停放、Pedestrian类的站立或坐姿。二次回归头由3 × 3核的3个卷积层和1 × 1卷积层组成，生成期望的输出。与主要的回归头部相比，额外的卷积层有助于从雷达特征图中学习更高层次的特征。最后一步是将回归头部结果解码为3D bounding boxes。盒子解码器使用从二级回归头部估计得到的深度、速度、旋转和属性，并从主要头部获取目标的其他属性。
在这里插入图片描述

在这里插入图片描述

5 实施细节

我们使用预训练的以DLA为骨干网络的CenterNet[34]网络作为我们的目标检测网络。DLA使用迭代的深度聚合层来提高feature maps的分辨率。CenterNet比较了使用不同骨干架构时的性能，沙漏网络[21]的性能优于其他骨干架构。我们选择使用DLA网络，因为它需要更少的时间来训练，同时提供合理的性能。
我们直接使用发布的CenterNet模型，该模型在nuScenes数据集上训练了140个epoch。默认情况下，该模型不提供速度和属性预测。我们训练30个epoch的速度和属性头，并使用结果模型作为我们的baseline。在我们的网络中，二级回归头被添加到CenterNet骨干网的顶部，并使用图像和雷达特征，在两个Nvidia P5000 gpu上进行额外60 epochs 的训练，batch size为26个。
在训练和测试过程中，我们将图像分辨率从原来的1600×900像素降低到800×450像素。在训练过程中进行数据增强，随机左右翻转(概率为0.5)和随机移动(图像大小从0到20%)。参考摄像机坐标系，对雷达点云进行了同样的数据增强处理。我们没有在数据上应用任何尺寸增强，因为它改变了3D测量。在测试时，我们只使用翻转测试增强，将图像及其翻转版本输入网络，并使用网络输出的平均值来解码3D bounding boxes。我们没有使用CenterNet使用的多尺度测试增强。pillar 的尺寸在[x, y, z]方向上设置为[0.2,0.2,1.5]米，δ设置为在测试时，RoI截锥体的长度在径向方向上增加20%。
我们对大多数回归头使用L1 loss，但在中心点热图头中使用focal loss，在属性回归头中使用二进制交叉熵（BCE）损失。

6 结果

结果很好

7 消融实验

也很好

8 结论

综上所述，我们提出了一种新的雷达和相机融合算法，称为CenterFusion，利用雷达信息进行鲁棒的3D目标检测。

CenterFusion使用基于截锥体的关联方法将雷达探测结果与图像上的对象精确地关联起来，在中间融合（middle fusion）中，创建基于雷达的feature maps以补充图像特征。
我们的截锥体关联方法利用初步检测结果在三维空间中生成目标周围的RoI截锥体，并将雷达检测结果映射到图像上目标的中心。
为了弥补雷达探测高度信息的不准确性，我们还采用了pillar扩展法，将雷达点转换为三维空间中固定尺寸的pillar。

我们在具有挑战性的nuScenes 3D检测基准上评估了我们提出的方法，其中CenterFusion优于目前最先进的基于相机的目标检测方法。