5.173D目标检测自适应融合学习笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_43900988/article/details/116978600

A robust fusion scheme should dynamically adapt to sensor failure and noise, emphasizing the modalities that are less corrupted and more informative, especially those degradation and noise unseen in the train data.

1.结果融合的缺点：bagging下缓慢，效果是加权-prefer 特征融合FPN

2.特征融合：如注意力模型，图像修复算法，利用权重参数来调整特征融合的贡献大小

关注点.3D目标检测-自适应融合

1.多传感器数据类型：

基于RGB图像：它首先预测 2D 边界框，然后使用神经网络来估计缺失的深度信息，将 2D 边界框提升到 3D 空间。
激光雷达点云（三维）：相对于检测点的三维空间目标，反射强度值物体表面材质。三维表示；二维投影前视图，鸟瞰图（BEV）：点云数据是三维坐标系中的一组向量。这些向量通常用 X、Y、Z 的三维坐标表示，是一种常用的外表面形状表示方式。不仅如此，除了由 (X,Y,Z) 表示的几何位置信息之外，每个点云还可能包含 RGB 颜色像素、灰度值、深度和法线。大多数点云数据都由 3D 扫描设备生成，比如激光雷达（2D/3D)、立体相机和 TOF（飞行时间）相机。这些设备可自动测量目标表面上大量点的信息，然后以 .LAS 和 .LAZ 这两种标准文件格式输出点云。这些点云数据是由扫描设备采集的。在用于训练的数据集中，除了点云数据，还有相应的 RGB 图像。这类数据集包括 KITTI [4]、nuScenes [5]、Waymo Open [6] 等。点云数据应表示为具有N行和至少3列的numpy数组。每行对应于单个点，其在空间（x，y，z）中的位置使用至少3个值表示。如果点云数据来自LIDAR传感器，那么它可能具有每个点的附加值，例如“反射率”，其是在该位置中障碍物反射多少激光光束的量度。在这种情况下，点云数据可能是Nx4阵列。
基于RGB-D图像和多光谱图像：RGB+deep（深度信息：在计算机图形学中，深度图（Depth Map）是包含场景中目标表面与视点之间距离信息的图像或图像通道。深度图类似于灰度图像，只不过深度图中每个像素都是传感器与目标之间的实际距离。一般来说，RGB 图像和深度图是同时采集的，因此两者的像素之间存在一一对应关系。RGB-D 格式的数据集包括 Pascal VOC、COCO、ImageNet 等。/多光谱图像：红外线热成像

2.2D检测与3D检测

根据目标检测需要输出结果的不同，一般将使用RGB图像进行目标检测，输出物体类别和在图像上的最小包围框的方式称为2D目标检测，而将使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。3D目标检测目前主要的应用场景就是自动驾驶，自动驾驶车不仅仅需要识别障碍物的类型，还需要识别物体的精确位置和朝向。以提供信息给规划控制模块，规划出合理的线路。

但是在真实的三维世界中，物体都是有三维形状的，大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图Fig.1中，在自动驾驶场景下，需要从图像中提供目标物体三维大小及旋转角度等指标，在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。

无人驾驶车辆自主行驶过程中的环境感知需要多目标检测、跟踪和辨别, 辨别包括目标的身份、动态事件和活动。感知的目标对象及活动可能是道路上的交通路标、交通手势、活动的行人、行人的走势、前方静态障碍物和同向（相向）的车辆等, 特别是城市道路工况下, 大量的静态和动态目标会实时地被行驶中的智能车辆车载传感器所感知到, 比如行人检测, 不但要感知其运动或者停止等情况, 而且要判断其运动的方向和速度, 以便确定是否会妨碍车辆的正常行进。

2D检测：方向梯度直方图、霍夫变换、雷登变换、two-stage（RCNN系列）、one-stage（YOLO系列）
3D检测：1. RGB 图像：3D-GCK [29] 等方法仅使用单目 RGB 图像就能实现实时的汽车检测：它首先预测 2D 边界框，然后使用神经网络来估计缺失的深度信息，将 2D 边界框提升到 3D 空间；2点云数据：第一种是直接使用三维点云数据。这类方法没有信息丢失的问题，但是由于 3D 数据非常复杂，所以往往计算成本较高。第二种方法则是将点云处理成二维数据，这可以降低计算量，但不可避免地会丢失原始数据的一些特征；3.结合 RGB 图像与点云的目标检测：使用 RGB 图像和激光雷达点云数据来执行 3D 目标检测。该算法使用成熟的 2D 目标检测器来缩小搜索空间。它是通过从图像检测器得到的 2D 边界框来提取 3D 边界视锥，然后再在经过 3D 视锥修整过的 3D 空间中执行 3D 目标实例分割；也同时使用 RGB 图像和激光雷达点云数据作为输入，它是将 3D 点云投影成鸟瞰图和正视图。鸟瞰图表征是通过高度、强度和密度编码的，而正视图则是将点云投影到一个圆柱面上生成的。鸟瞰图可用于生成 3D 先验边界框，然后将该 3D 先验边界框投影到前视图和图像上，这三个输入生成一个特征图。该方法采用 ROI 池化来将三个特征图整合到同一个维度。整合后的数据再在网络上进行融合，然后输出分类结果和边界框。
根据输入类型（传感器种类）来划分，目前3D目标检测的方法分为：
- 单模（Lidar）
- 多模（Lidar+Camera、Radar+Camera）
根据特征提取的方法来划分，主要分为以下4种。
Point Clouds - 基于原始点进行特征提取
Voxel - 把点云划分成一个个的网格，然后提取网格的特征
Graph - 利用图的方式，对半径R内的点建立图，然后提取特征
2D View - 把3D投影到2D平面，大部分采用BEV视角，然后用2D卷积提取特征
BEV视角非常关键

*读几篇paper，体会一下啥是3D目标检测

3.自适应融合：什么是自适应融合/常见的自适应融合方式/置信度/三个方向

什么是自适应融合：
难点：这个框架必须考虑一些重要的问题, 比如来自不同类型传感器的目标跟踪轨迹和量测数据的时域上的关联和同步, 传感器的动态注册等
常见的自适应融合方式：

early-fusian & deep-fusion

为了方便分析，在该种融合策略下，笔者按照对lidar-3D-detection的分类方法分为point-based的多模态特征融合和voxel-based的多模态特征融合。其差别也就是lidar-backbone是基于voxel还是基于point的。voxel-based主导

late-fusion

4.一些补充

语义分割：语义分割是在像素级别上的分类，属于同一类的像素都要被归为一类，因此语义分割是从像素级别来理解图像的。比如说如下的照片，属于人的像素都要分成一类，属于摩托车的像素也要分成一类，除此之外还有背景像素也被分为一类。注意语义分割不同于实例分割，举例来说，如果一张照片中有多个人，对于语义分割来说，只要将所由人的像素都归为一类，但是实例分割还要将不同人的像素归为不同的类。也就是说实例分割比语义分割更进一步。
加权融合BBOX是有缺点的：即时性差，除非BBOX融合高度相似线性融合的方法是有效的，如果BBOX之间是互补的，线性融合就会很差

5.一些思考

为什么要3D而不是2D√
什么是3D目标检测√
自适应融合：大概知道了，基本噪声（高斯噪声）和自然噪声（雨雪雾霾等）对融合模型的影响，及其自适应策略，最大化模型在benchmark上的精度和泛化能力
3D目标检测/基础上自适应融合两个部分均需要从头了解：网课+论文！快一点要知道是什么
点云的backbone采用voxel-based/将camera的pixel转化到点云的BEV视图/
调研2/3/4期文章，考虑怎么结合
机器学习，比如树模型，可能的用处
设计一个自适应的应用于3D目标检测的融合算法，在噪声环境下比现在的模型要好。