论文 “V2X-ViT: Vehicle-to-Everything Cooperative Perception with Vision Transformer” 解读

本文作者提出了 V2X 鲁棒协同感知框架,这个框架使用了 ViT 视觉转换的方法。 具体来说,作者构建了一个整体注意力模型 V2X-ViT,主要由异构多智能体自注意模型(HSMA)和多尺度窗口自注意模型(MSwin)组成,分别用于获取智能体之间的交互关系和每个智能体的空间关系。 这些关键模块可以应对常见的 V2X 挑战,如信息共享不同步、姿势错误、和 V2X 组件的异构性等。 为了验证此方法,作者使用 CARLA Simulator自动驾驶模拟器和 OpenCDA 收集并创建了一个大规模的 V2X 感知数据集,并将该数据传入模型进行训练。 广泛的实验结果表明,V2X-ViT 在 3D 对象检测上具有最先进性能,即使在恶劣、嘈杂的环境下也具有稳健的性能。

本文的主要贡献如下:

  1. 提出了一种用于 V2X 感知的新视觉转换器 (V2X-ViT)。;
  2. 在V2X-ViT 框架中提出了两个新颖的注意模块 HMSA 和 MSwin;
  3. 构建并开源了一个名为 V2XSet 的新的大规模 V2X 感知数据集。

注意力机制

从大量输入信息里面选择小部分的有用信息来重点处理,并忽略其他信息,这种能力就叫做注意力(Attention)。注意力模型(Attention Model)是一种机器学习模型,其主要思想是在处理序列数据时,对输入数据的不同部分赋予不同的权重,以便于模型更加关注重要的信息。

注意力可分为聚焦式注意力(Focus Attention)和基于显著性的注意力(Saliency-Based Attention)。聚焦式注意力是自上而下的、有意识的注意力。指有预定目的、依赖任务的、主动有意识地聚焦于某一对象的注意力;基于显著性的注意力(Saliency-Based Attention)是自下而上的、无意识的。不需要主动干预,和任务无关,由外界刺激驱动的注意。

V2X框架

​​​​​​​​​​​​本文提出的 V2X 框架如 Fig.2 所示。该框架由五个顺序步骤组成:V2X 元数据共享、特征提取、压缩并共享、V2X-ViT 和检测头(回归输出)。

  1. V2X 元数据共享:在协作的早期阶段,每个智能体在通信网络中相互共享元数据,例如位姿、外部信息和智能体类型。 我们选择其中一个连接的 AV 作为主车辆,以围绕它构建一个 V2X 图,其中节点是 AV 或基础设施,边代表定向 V2X 通信通道。 更具体地说,我们假设元数据的传输是同步的,这意味着每个智能体 i 都可以在时间 t 内接收到自我姿势。 在接收到 eiego 车辆的姿态后,附近所有其他连接的智能体将在特征提取之前将自己的 LiDAR 点云投射到 ego-vehicle 的坐标系。
  2. 特征提取:作者利用基于锚点的 PointPillar 算法从点云中提取视觉特征,因为它具有低推理延迟和优化内存使用的作用。PointPillar是一种用于三维目标检测的算法,用于从点云中提取和识别三维物体。其核心思想是将点云数据转换为一种更高效的表示形式,称为“点柱”(Point Pillars)。点柱将点云数据按照空间位置和属性信息划分为规则的三维网格。每个网格单元称为一个“柱”,并将其与特定的属性值相关联。这样,点云中的每个点都可以通过其所属的柱进行索引和存储。通过将点云数据转换为点柱表示,PointPillar算法可以更有效地处理大规模点云数据,减少计算复杂度,并提供准确的三维物体检测结果。            在本文的特征提取这一步骤中,作者运将激光雷达收集到的点云图转换多为3D的点柱,然后将其散列为二维的伪图像并传入到point pillar算法中,再由算法从二维伪图像中提取信息,并生成特征图。随后,point pillar算法的主干部分对该特征图进行解码,将提取到的特征传输给车辆进行共享。
  3. 压缩和共享:作者利用一系列 1×1 卷积沿通道维度逐步压缩特征图,因为这可以减少所需的传输带宽。 然后,作者将压缩特征传输到主车辆上,在其上使用 1 × 1个卷积。
  4. V2X-ViT:注意机制来自连接智能体的中间特征。作者在整个 Transformer 中保持相同级别的高分辨率特征图,因为如果观察到缺乏高清特征会极大地损害目标检测性能。
  5. 检测头(回归输出):收到最终的融合特征图后,作者用两个 1×1 卷积层进行框回归和分类。 回归输出为 (x,y,z,w,l,h,θ),分别表示预定义锚框的位置、大小和偏航角。 分类输出是每个锚框作为对象或背景的置信度分数。作者在此使用了 smooth l1 loss 进行回归,使用 local loss进行分类。

V2X-ViT模型

本文提出的V2X-ViT模型利用 V2X 通信来提高自动驾驶车辆的感知性能。 通过使用注意力机制融合路上智能体的信息,V2X-ViT 可以有效地捕获不同智能体之间的复杂交互,并在完美和嘈杂的设置下增强协作 3D 对象检测。

作者提出了两个新颖的注意模块来应对 V2X 挑战:

  1. 异构多智能体自注意模块(HSMA),在执行注意融合时明确考虑智能体类型(包括车辆和基础设施)及其连接;
  2. 多尺度窗口注意模块(MSwin),可以通过并行使用多分辨率窗口来处理定位错误;

这两个模块将自适应地迭代融合视觉特征以捕获智能体间交互和每个智能体的空间关系,纠正由定位错误和时间延迟引起的特征错位。 此外,作者还构建了延迟感知位置编码来进一步处理时间延迟的不确定性。

​​​​​​​HMSA模型

异构多智能体自注意力(HMSA)是作者提出的一种用于 V2X 感知的新型注意力模型。它旨在在协作感知框架中捕获异构的智能体间交互,使用自注意力机制来学习不同智能体特征的重要性及其相互之间的关系。通过这样做,HMSA 可以有效地融合路上智能体的信息,从而在嘈杂的环境中提高目标检测性能。

如 Fig.3 (b) 所示,HMSA 给有向图的节点和边均附上类型。如上图所示,一共有两种类型的节点和四种类型的边。节点类型包含基础设施节点和车辆节点:ci ∈ {I, V} ;边类型包含车到车边,车到路边,路到车边,和路到路边:φ(eij) ∈ {V−V, V−I, I−V , I−I}。​​​​​​​

对于编号为ci的结点,HSMA的值Hi的计算公式为:

                                                                  Hi = Dense (ci) (sum( ATT(i,j) * MSG(i,j) ))

它包含 3 个函数:线性聚合器 Dense、注意力权重估计器 ATT, 和消息聚合器 MSG。 其中Dense是计算密度的函数,ATT(i, j)是节点 i 和 j 之间的注意力权重,MSG(i, j)是节点 i 发送到节点 j 的消息向量。将消息量与其对应的权重相乘后传入密度函数Dense中,可得到结点 i 的聚合特征。

MSwin模型​​​​​​​​​​​​​​

多尺度窗口注意力(MSwin) 是本文提出的第二个注意模块,旨在捕获多尺度的智能体内空间关系。 如 Fig.3 (c) 所示​​​​​​​,MSwin 由三个窗口分支组成,每个窗口分支具有不同的窗口大小,以捕获不同比例的空间信息。 然后使用并行处理将这三个分支组合起来,以增强模型对定位错误的鲁棒性。

MSwin 将一组智能体表示作为输入,并应用自注意力机制来学习不同特征的重要性及其相互关系。 然后将注意力输出送入三个平行的窗口分支,每个分支具有不同的窗口大小,以捕获不同尺度的空间信息。 最后,将三个分支的输出连接起来并通过密集层进行进一步处理。通过使用多尺度窗口和并行处理,MSwin 可以有效地捕获场景中对象之间的复杂空间关系,并增强模型对位置和航向噪声引起的定位误差的鲁棒性。

实验过程

作者通过 Carla Simulator 自动驾驶模拟器和 OpenCDA 收集并构建了一个包含11447个场景的 V2X 感知数据集,名为V2XSet,并用该数据集对模型进行训练。大量实验表明,V2X-ViT 可以在完美和嘈杂的设置下显着促进协作 3D 对象检测。 

作者比较了No Fusion、Late Fusion、和Early Fusion三种融合方式的效果。No Fusion 仅使用 ego-vehicle 的 LiDAR 点云;Late Fusion 从代理收集所有检测到的输出并应用非最大抑制来产生最终结果;Early Fusion 直接从附近的代理聚合原始 Li-DAR 点云。 如Table 1所示,Early Fusion的平均精度最高。

对于中间融合策略,作者将OPV2V 、F-Cooper、V2VNet、和 DiscoNet这四种方法与本文所设计的V2X-ViT模型的实验效果进行比较,所有模型都使用 PointPillar 作为主干。如Table 1所示的实验结果,在完美场景下,V2X-ViT模型在IoU阀值为0.5、0.7时,平均精度分别达到0.882、0.712;在噪音场景下,V2X-ViT模型在IoU阀值为0.5、0.7时,平均精度分别达到0.836、0.614。该模型的实验效果优于任何其他方法。 

为了评估模型对姿态误差的敏感性,作者从高斯分布中采样噪声,距离偏差为[0,0.5]米,智能体角度偏差为[0°,1.0°]。如图 Fig.4(a)(b) 所示,当位置和角度偏差保持在正常范围内时,V2X-ViT的性能仅下降不到3%,而其它介导间融合方法至少降低6%。此外,早融合和晚融合的精度在噪声很大的场景中时,V2X-ViT仍然可以保持60%左右的检测精度,而其他方法的性能显著下降,这证明了V2X-ViT对姿态误差的鲁棒性。

作者还研究了时间延迟对模型效果的影响,其中时间延迟范围为[0,400]毫秒。如图Fig.4(c)所示,延迟仅为100ms的情况下,晚期融合的平均精度显著低于无融合。尽管早期融合和其他中间融合方法的平均精度在此时并未受到太多影响,但当延迟时长持续增加时,它们的精度仍然会迅速下降,并且在400毫秒后都低于无融合的基线。相比之下,作者提出的的V2X-ViT即使在400毫秒的延迟下也能维持0.5以上的平均精度,而400毫秒的延迟已经比现实世界系统中通常的传输延迟大得多。这清楚地表明了V2X-ViT模型对时间延迟的强大鲁棒性。 

为了验证V2X-ViT模型中MSwin、SpAttn、HSMA、和DPE每一个步骤的必要性,作者进行了消融实验。最终实验结果如Table 2所示,表明当四个步骤均存在时模型的平均精度最高。此外,MSwin和HMSA步骤能为模型的平均精度带来最大的增益,分别为4.1%和6.6%。

作者还比较了不同的延迟秒数对模型精度的影响。结果如Table 3所示,这表明DPE步骤可以在各种时间延迟的情况下提高模型的性能,且模型的平均精度增益随着延迟时长的增加而增加。

 

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值