Towards Vehicle-to-everything Autonomous Driving: A Survey on Collaborative Perception

这家伙是个好家伙

已于 2023-10-12 20:11:12 修改

阅读量731

点赞数 1

分类专栏：论文阅读自动驾驶文章标签：论文阅读自动驾驶

于 2023-10-12 16:57:53 首次发布

论文阅读同时被 2 个专栏收录

14 篇文章

订阅专栏

自动驾驶

10 篇文章

订阅专栏

Towards Vehicle-to-everything Autonomous Driving: A Survey on Collaborative Perception 实现车联网自动驾驶：协作感知研究综述

摘要
1、介绍
2、V2X业务架构
3、数据集
4分类学
5、实验分析
第六章挑战和今后的工作
7、结论

实现车联网自动驾驶：协作感知研究综述)

摘要

V2X自动驾驶为发展新一代智能交通系统开辟了一个很有前途的方向。**协作感知（CP）**作为实现V2X的重要组成部分，可以克服个体感知的固有局限性，包括遮挡和远距离感知。在本次调查中，我们对V2X场景的CP方法进行了全面的回顾，为社区带来了深刻而深入的理解。具体来说，我们首先介绍了典型的V2X系统的架构和工作流程在实践中，这提供了一个更广阔的视角来理解整个V2X系统和CP在其中的作用。然后，我们深入总结和分析了现有的V2X感知数据集和CP方法。特别是，我们介绍了许多CP方法，从各种关键的角度，包括协作阶段，路边传感器的放置，延迟补偿，性能带宽权衡，攻击/防御，姿态对准等。此外，我们进行了广泛的实验分析，比较和研究目前的CP方法，揭示了一些重要的和未探索的见解。具体而言，我们分析了不同传输带宽下不同方法的性能变化，提供了一个深入的洞察性能带宽权衡问题。此外，我们研究不同的激光雷达范围下的方法。为了研究模型的鲁棒性，我们进一步研究各种模拟现实世界的噪声对不同CP方法的性能的影响，覆盖通信延迟，有损通信，定位误差，混合噪声。此外，我们研究了现有的CP方法的sim-to-真实的泛化能力。最后，我们深入讨论了问题和挑战，突出了未来努力的前景。我们的实验分析代码将在链接: https://github.com/memberRE/Collaborative-Perception上公开。
索引术语-协作感知，车辆到一切，深度学习，调查。

1、介绍

自动驾驶技术[1]，[2]已经经历了显着的进步，这有可能彻底改变运输行业，因为它可以有效地提高驾驶安全/效率，并减少交通事故。特别是，感知是实现强大的自动驾驶的最关键能力之一，使车辆能够准确地感知和理解周围环境，并相应地驾驶。随着深度学习的进步，机器感知方法在各种任务中表现出令人印象深刻的能力，包括2D/3D对象检测[3]，[4]，[5]，[6]，分割[7]，[8]，[9]，跟踪[10]，[11]等。尽管这些进步显著地提高了自主车辆的感知能力，但是感知范例仍然在于单车辆/个体感知，即，车辆依靠其机载传感器和计算设备来完成感知任务。

Fig. 1.图示V2X场景的示意图。红色汽车面临遮挡问题，绿色汽车面临远距离感知问题。通过从其他车辆（V2V）或基础设施（V2I）获得额外的感知信息，这些车辆可以实现对其周围环境的整体感知，从而提高交通安全性。

事实上，单车感知难以满足高水平自动驾驶对精准感知的需求，面临着不可避免的局限和挑战。例如，（i）车辆通常受到成本和空间限制的约束。因此，车辆通常配备有低精度传感器和低功率计算设备，这限制了自主车辆的感知能力。（ii）如图1（红色车），由于其他车辆或障碍物的阻碍，单车感知只能获得有限的视野。因此，难以实现对周围环境的整体感知，从而导致潜在的交通事故。(iii)如图1（绿色汽车），车辆需要远距离感知物体或条件，特别是在高速行驶场景中。然而，远距离对象通常在传感器数据中表现出稀疏性，例如，仅占据相机图像中的几个像素或LiDAR点云中的少量点，使其易于产生错误的感知结果。

近年来，V2X自动驾驶技术在学术界和工业界引起了极大的兴趣。V2X是指车辆可以通过通信技术与其他交通要素共享互补信息，实现更精准、更安全的自动驾驶。具体而言，根据信息传输主体和对象的不同，V2X可以分为车对车（V2 V）、车对基础设施（V2 I）、车对行人（V2 P）和车对网（V2 N），如图1所示。此外，协同感知（CP）是实现V2X的必要技术，使车辆能够与其他交通元素交换感知信息，并获得对周围环境的整体感知。因此，CP可以从根本上克服个人感知所面临的瓶颈问题。例如，车辆可以通过V2 I/V2 N利用云平台上强大的计算资源，高效地执行大规模和定期更新的感知模型。特别地，通过从其他车辆和基础设施获得额外的感知信息，如图1所示。1、车辆可以克服个体感知面临的遮挡和远距离感知问题，实现超视距感知能力。

大量的论文产生，推动了这一领域的快速发展。大规模数据集对于训练深度学习模型至关重要，大多数感知数据集都专门针对个人感知进行了注释。因此，先驱研究人员投入了大量的精力来构建V2X场景的CP数据集。与其他可以轻松从互联网收集数据的感知任务不同，由于成本过高，获取真实世界的V2X感知数据和建立基准[12]，[13]要困难得多。因此，许多作品[14]、[15]还基于各种交通模拟器收集和注释模拟数据[16]、[17]。此外，V2X协同感知是一个多智能体系统，涉及多智能体之间的信息传输和融合，这提出了独特的挑战相比，个体感知。从传输效率的角度来看，一些作品[18]、[19]致力于在降低传输带宽的同时提高性能。从信息融合阶段来看，大多数作品[18]、[20]、[21]、[22]选择融合中间特征，部分作品融合原始数据[23]或最终结果[24]。从模型鲁棒性的角度来看，一些工作试图模拟和解决通信时间延迟[25]，损失[21]，攻击[26]，定位错误[19]以及现实世界环境中可能出现的其他问题。与相关调查[27]、[28]、[29]相比，**本文在协同感知领域提供了更全面的总结和更深入的分析。除了对各种数据集和方法进行彻底的分类外，我们还提出了实用的V2X系统架构，并从各个方面进行了广泛的实验，以分析关键但尚未探索的问题，带来了有见地的讨论和有前途的未来方向。**本文的组织结构如图2所示。
在这里插入图片描述
图二.本调查概述。

综上所述，本文的主要贡献可以概括如下：
1）我们给出了一个典型的V2X系统在实际应用中的架构和工作流程，旨在为研究人员提供一个更清晰的视角来看待整个V2X系统以及CP方法在其中的作用。
2）我们提供了关于V2X数据集和方法的全面文献综述，从各个角度总结了数据集和分类方法。回顾和分类提供了一个深入的了解的关键因素CP方法在V2X场景。
3)我们测试和比较了国家的最先进的模型，从各个方面，如模型的大小和效率，提供了一个广泛的现有方法。
4)我们进行了大量的实验，以彻底调查目前CP方法对广泛的干扰在真实的世界中的鲁棒性，通过模拟各种类型的噪声，如时间延迟，有损通信，定位误差和混合噪声。
5)我们进行性能带宽权衡实验，并通过调整通信量的各种CP方法给予了深入的比较。我们还提供了跨域的泛化研究，以检查关键的模拟到真实的能力。
6)全面的研究揭示了当前方法的优缺点，并可以为社区带来新的观察和见解。我们根据我们的调查和实验分析，对开放的问题和潜在的方向进行了深入的讨论，以促进未来的学术和行业研究。

2、V2X业务架构

在这里插入图片描述图三.实际应用中典型V2X系统架构的说明。

在本节中，我们从架构角度介绍典型的V2X系统，如图3所示。旨在提供实践中的工作流程，并更清楚地了解协作感知（CP）在整个V2X系统中的作用。V2X系统通常包含四个部分，即云控制平台、第三方平台、路侧系统和联网车辆（CV）。请注意，CV包含具有更先进自动驾驶能力的联网自动驾驶车辆（CAV）。

2.1云控制和第三方平台

云控制平台具有强大的计算能力，可以对整个V2X网络进行集中控制和管理。具体而言，远程控制驾驶功能可以让训练有素的操作人员远程驾驶CV，可提供紧急接管和L4级自动驾驶能力。云平台维护高清地图（HD Map），其为CV提供高度准确和详细的地理信息，包括道路几何形状、地形高程、车道标记、交通信号、道路标志、障碍物等。高清地图对于确保安全和高水平的自动驾驶至关重要，并定期更新以保持最新的道路网络。云平台不断收集和存储路边系统和CV的多源数据，以供后续处理和应用。例如，平台监测来自路侧系统的信号，并执行状态分析和安全管理以维持路侧设备的正常操作。此外，云平台中有足够的存储和计算资源，可以开发大型模型以支持感知、预测、规划和仿真等各种任务。

第三方平台在V2X生态系统中也很重要，它提供增值服务（例如，支付），并促进利益相关者之间的数据交换。云平台可以向第三方平台中的供应商提供多源数据。例如，原始设备制造商（OEM）从云平台获取路侧设备数据，用于设备升级和维护。交通信号灯或事件等交通数据可以传输到地图供应商。通过互联网，地图供应商可以为司机提供车载或手机APP的实时地图和导航服务。此外，有了大规模的交通数据，政府机构可以提高交通管理水平。

2.2路侧系统

路边系统通常具有通信和感知能力，是实现V2X AD的关键组件，使CV能够相互通信（V2V）和周围的基础设施（V2I）。整个路边系统通常由多个子系统组成，每个子系统负责特定区域，非常像蜂窝网络。

路侧系统的计算能力介于云平台和车辆之间。由于拥有比车辆更多的物理空间，路边系统可以容纳更多的高精度和高功率传感器沿着如天气传感器，摄像头，雷达，激光雷达等。部署的算法（例如，检测、分割和跟踪）可以基于来自视觉传感器的信号来执行对道路上的特定对象的定位和感知。此外，数据采集卡可以从各种类型的交通信号（例如，交通灯和交通标志），然后将来自这些输入通道的模拟信号转换成数字数据，用于随后的处理和分析。融合模块通过组合来自采集卡的信息和视觉感知来调整和产生感知结果。通常，感知结果包含实时对象的位置和类别、事件识别、交通流量等。

V2X服务器将感知结果转换为通信消息，并通过无线通信的专用带宽频率发送给CV/云，即：基于DSRC的系统为5905-5925 MHz，基于C-V2X的系统为5855-5925 MHz。例如，基本安全消息（BSM）是用于传输诸如车辆位置、速度和方向的基本安全信息的标准化消息格式。MAP（Map Data Attribute Profile）是一种用于传输高精度地图数据的数据属性协议。信号相位和定时（SPAT）是一种标准化的消息格式，用于向车辆发送信号相位（绿色、黄灯和红灯）和信号变化的定时。路边单元（RSU）是通信集线器，在CV、云和其他RSU之间收集和中继消息。

2.3互联车辆（CV）

CV是配备了先进通信技术的车辆。车载单元（On-Board Unit，OBU）是安装在CV上的通信设备，采用无线通信技术与其他CV、路侧系统和云平台交换消息。L2-L4互联自动驾驶汽车（CAV）具有比L0-L2 CV更先进的自动驾驶能力，包括感知和规划。

CV受到成本和空间限制的约束，导致与云平台和路边系统相比，其携带低精度传感器和低功耗计算设备，包括摄像头、雷达、激光雷达和惯性测量单元（IMU）。IMU由加速度计、陀螺仪和磁力计组成，可以测量车辆的加速度、方向和角速度。

此外，CAV和普通AV之间的关键区别在于CAV实现协作感知的能力，即，CAV将来自路边系统和云平台的互补视觉信息相结合，以提高感知能力。具体来说，按融合阶段划分，有三类协同方式：早期、中期和晚期融合。
(i)在早期融合感知中，原始传感器数据（例如，RGB图像和激光雷达点云）和其他CV的传输和接收RSU或OBU。然后在任何单独处理或特征提取之前将原始数据组合，并且感知模型将组合的原始数据作为输入以产生结果。因此，早期融合提供了更好的鲁棒性，但消耗更大的带宽来传输大量的原始数据。
(ii)与早期融合相比，中间融合方法在特征级结合信息。其他CV和路边系统需要传输处理和提取的特征，这些特征与自我车辆自身感知模型的中间特征融合。这种方法可以减少数据传输量，从而实现更高效、更灵活的协作感知。
(iii)在后期融合感知中，本车、其他CV和路侧系统的独立感知结果被**传输并融合在一起以生成最终结果。**例如，当执行对象检测时，对象边界框的结果被传输并且可以经由非最大值抑制（NMS）被融合。后期融合范例具有最低的传输带宽要求，并且比早期和中间融合更容易在实际系统中实现。

因此，后期融合是目前行业中的主要解决方案。然而，后期融合的准确性和鲁棒性较差，因为它依赖于可能包含漏检和误检的独立结果，导致误差累积。感知结果包括目标定位、事件、交通流识别等。然后，规划和控制模块基于各种感知结果产生驾驶决策和驾驶动作。

由于自动驾驶汽车的发展仍处于早期阶段，路网中存在大量L0-L2级的CV，它们缺乏先进的感知和规划能力，只能提供驾驶辅助。这些CV仍然能够通过OBU、远程信息处理盒（T-BoX）和APP连接到V2X网络。注意，T-BoX是具有类似于OBU的功能的另一类型的通信设备。此外，控制器局域网（CAN）是一种可靠且经济的通信协议，它可以在多个节点之间进行数据交换和共享，支持实时控制和响应。CAN充当桥梁，将接收到的消息传输到人机界面（HMI）和高级驾驶员辅助系统（ADAS）。CV中的HMI由信息娱乐系统、车辆诊断等组成，其可以向驾驶员提供实时信息。ADAS可以提醒潜在的危险，如事故，道路施工和交通拥堵，并考虑实时交通状况，实现智能导航。HMI和ADAS可以提高安全性并降低事故风险。

3、数据集

在这里插入图片描述表1 V2X场景中协作感知的现有数据集总结。大多数数据集建立在各种交通模拟器上，有些数据集从真实的世界收集数据。更多详情请参见§3。

大型数据集对于训练广义和鲁棒的感知模型至关重要。然而，大多数感知数据集主要是针对个体感知场景构建的，对于协作感知并不实用。通过这种方式，大量的工作被投入到构建针对V2X场景定制的协作感知（CP）数据集上。我们总结了现有的合作感知数据集，详细信息如表1所示。

获取真实世界的V2X感知数据和构建基准比其他可以从互联网访问数据的感知任务更具挑战性，主要是由于成本过高。从表1中，我们观察到大多数CP数据集是基于模拟构建的，使得费用可以接受。此外，从真实的世界构建数据集近年来也得到了越来越多的关注，因为它消除了弥合模拟和现实世界之间差距的挑战。最流行的协作感知场景是V2V（车辆到车辆），而很少有数据集[14]，[21]，[40]支持V2V和V2I（车辆到基础设施）。与个体感知一样，检测也是合作感知最受欢迎的任务。

此外，该观点表示在单个帧中的协作代理的数量，并且大多数数据集支持少于5个协作代理，导致协作代理在大的空间范围内的稀疏分布。然而，在未来的V2X场景中，很可能会出现大量的互联车辆。因此，一个很有前途的方向是在单个框架中构建具有更多协作代理的数据集，实现协作代理在道路上的密集分布，并更好地与未来的场景对齐。在下面的段落中，我们分别介绍了模拟器、基于模拟和真实世界的CP数据集，并以CP任务的介绍结束。

3.1模拟器

交通模拟器是一种软件工具，允许研究人员在虚拟环境中评估算法，其中真实世界的交通场景（例如，道路布局和交通流）进行模拟。研究人员可以利用模拟器生成大量数据，用于在各种场景和条件下进行训练和测试，而无需在真实的道路上进行昂贵的物理测试。

CARLA [16]是一个先进的、高度通用的开源模拟器，专为自动驾驶研究和开发而设计。其显着的优势之一在于与强大的虚幻引擎的集成，它提供了卓越的视觉保真度和逼真的场景渲染。CARLA提供了一系列内置传感器，包括摄像头、激光雷达和雷达，使用户能够生成与真实世界感知系统紧密模拟的传感器数据。然而，CARLA的交通管理器所采用的行为规则过于简单，不能完全捕捉真实的驾驶员行为的复杂性。

SUMO [37]（城市交通模拟）是一个广泛使用的开源交通和驾驶员行为模拟器。它提供了一个强大的平台，用于模拟大规模，现实的交通场景。SUMO的主要优势在于它能够处理复杂的交通流并准确地表示驾驶员行为。SUMO考虑了车辆加速、减速、变道以及与其他车辆的交互等因素，能够更准确地描绘现实世界的交通场景。

总之，SUMO是一款功能强大的开源交通和驾驶员行为模拟器，补充了CARLA在自动驾驶框架中的能力。

3.2基于仿真的数据集

由于从真实的世界中检索数据的困难，许多协同感知的数据集是在模拟器中生成的。传统的模拟器包括CARLA [16]、SUMO [37]、OpenCDA [17]等。从模拟器收集数据在时间和预算上是经济的。然而，域之间的差距存在于模拟器和真实的世界，因此一些工作把努力缩小这样的差距。在这里，我们介绍了三个流行的基于模拟的数据集。

V2X-Sim [14]采用SUMO模拟交通流，采用CARLA收集传感器流。从路边单元和车辆检索数据，V2X-Sim支持V2 V和V2 I场景。此外，V2X-Sim提供了三个任务的基准，即：目标检测、多目标跟踪和语义分割。整个数据集被划分为8000/1000/1000帧用于训练/验证/测试，每个场景中有2-5个协作车辆。

V2XSet [21]是一个基于CARLA和OpenCDA的大规模V2X感知数据集。与以往的数据集相比，V2XSet支持模拟定位误差和时间延迟，更接近真实世界的设置。V2XSet总共有11447帧，其中训练/验证/测试拆分分别为6694/1920/2833帧。此外，V2XSet还覆盖了5种类型的道路，即：直线段、曲线段、中间街区、入口坡道和交叉点。在每个场景中，有2-7个智能代理进行协作感知。

3.3基于真实场景的数据集

随着对更真实数据的追求，基于真实世界的基准越来越受到关注。与仿真相比，真实场景展示了更复杂的交通行为和噪声数据，这有利于获得鲁棒的CP模型。在这里，我们介绍了两个基于真实世界场景的数据集。

DAIR-V2X [12]是第一个用于V2 I协作感知的大规模真实世界数据集。DAIR-V2X由三部分组成，即：DAIR-V2X-C、DAIR-V2X-I和DAIR-V2XV，其中DAIR-V2X-C包含来自车辆和基础设施的传感器信息。DAIR-V2X-C拥有38845个摄像头框架和38845个LiDAR框架。DAIR-V2XC专注于V2 I 3D对象检测问题（VIC 3D），记录了10个类的近464000个3D边界框。

V2 V4 Real [13]是第一个用于V2 V感知的大规模真实世界多模态数据集。V2 V4 Real拥有20 K LiDAR帧和40 K RGB帧，以及5个类的240 K注释3D边界框。V2 V4 Real中包括四种道路类型，即：交叉口、高速公路入口坡道、高速公路直道和城市直道，这些在美国俄亥俄州哥伦布市捕获。V2 V4 Real支持三种协作感知任务，即：3D对象检测、3D对象跟踪和Sim 2 Real域自适应。

3.4任务与评价

在本节中，我们将介绍V2X场景中流行的协作感知任务，即：协作3D对象检测和语义分割，包括它们的定义和评估指标。

3D对象检测的目的是在3D场景中产生对象的边界框并识别它们的类别。基本上，3D边界框可以表示为（x，y，z，l，w，h，θ），其中（x，y，z）表示中心，（l，w，h）表示大小，θ是边界框的航向角[44]。3D对象检测也可以在鸟瞰图（BEV）下进行，其中利用2D边界框来定位对象。3D对象检测的最常见度量是平均精度（AP），其被定义为精度-召回率曲线下方的面积。当检测到的对象在多个类别中时，平均精度（mAP）被计算为所有类别的平均AP。

语义分割的目标是预测RGB图像的像素级类别或点云的点级类别。协作语义分割通常在BEV下进行。预测和地面实况之间的**平均交集（mIoU）**被用作性能度量，其在类别之间被平均。此外，平均准确度（mAcc）也被广泛使用，其中准确度是正确分类的像素/点与所有像素/点的比率。

4分类学

在本节中，我们从各个方面总结和分类现有的协作感知方法，其中许多工作投入了重大努力，以解决关键问题，推动这一领域的快速发展。

4.1协作阶段

V2X感知的目标是利用车辆和其他设备上的传感器检测交通环境中的物体，这提出了一个多智能体传感器融合问题。V2X感知可以根据融合阶段大致分为三种类型，即，早期，中期和晚期融合，如图4所示。
在这里插入图片描述
见图4。不同合作阶段的图示。

早期融合[23]，[34]，[45]直接转换原始数据并将其合并以在处理管道中形成全面的感知。在使用相机和LiDAR传感器的系统中，来自每个传感器的原始数据可以分别在像素级和点云级进行融合。这意味着来自相机的原始图像和来自LiDAR传感器的点云被组合以形成环境的单个表示。为了实现这一点，早期融合技术通常涉及预处理和校准步骤，以对齐和归一化来自不同传感器的数据。例如，[45]将点云解采样并转换为像素级深度信息，然后与RGB图像连接。[23]应用稀疏卷积来支持低密度点云数据中的检测。[34]提出联合收割机来自不同感测点的点云以改进3D对象检测，这涉及将每个点云传输到中央融合系统，在中央融合系统中，它们被连接成单个点云并输入到检测模型中。早期融合的好处包括能够在低水平上整合来自多个传感器的信息，降低后续处理阶段的复杂性，并为下游模型提供更多信息。然而，由于不同传感器生成的数据存在差异，例如不同的分辨率、激光束和噪声水平，早期融合也可能具有挑战性。

中间融合[15], [18], [20], [21], [39], [41], [46],[47], [48], [49], [50], [51], [52], [53], [54], [54], [55], [56], [57],[58], [59], [60], [61], [62], [63], [64], [65], [66]是CP模型设计的主要方案，其中自我车辆的感知模型将自身的中间特征与其他协作Agent模型的中间特征相结合，实现协作感知。中间协作由于其在精度和传输带宽之间的平衡而引起了研究人员的注意。[46]提出了一种深度融合方案，用于联合收割机来自多个视图的区域特征，这使得不同路径的中间层之间能够进行交互。[20]提出了一种空间感知的消息传递机制，以联合推理检测和预测。基于学习的方法[47]，[48]旨在减少车辆定位误差并改善训练。[49]提出了一种通信框架，以避免连接的汽车之间的不必要的传输，减少通信带宽。[50]考虑了信息传输延迟。[15]引导网络根据来自相邻联网车辆的特征的交互来关注关键观测。[21]提出了一种用于V2X感知的统一Transformer架构，该架构可以捕获V2X系统的异构性质，并提供对各种噪声的鲁棒性。[18]计算特征的每个空间区域的置信度得分，选择用于共享的感知关键区域。[52]使用多智能体多相机传感器生成BEV分段图。

后期融合[24]，[67]，[68]，[69]，[70]，[71]，[72]，[73]是V2X协作感知中使用的实用技术，其中来自不同代理的感知结果被组合。在后期融合中，单独处理单独的传感器输出，并在决策层组合结果以创建最终感知。虽然早期融合提供了后期融合无法提供的基本上下文信息，但它需要显著的传输带宽。后期融合的优点包括无需额外训练就能合并来自不同模型的信息，以及整合来自不同数据模态的结果的灵活性。然而，后期融合也可能是具有挑战性的，这是由于需要精确对齐各个输出以及结果融合过程中复杂性增加的可能性。此外，后期融合遭受误差累积的缺点。

4.2路边视觉传感器

路边视觉传感器是V2X协作感知的关键组件，包括RGB摄像头、雷达和激光雷达。例如，LiDAR提供可靠的几何信息，并且可以直接传输到真实世界坐标系。此外，路边传感器通常安装在沿着路边的高位置处，为车辆提供超宽的视野。

与车辆上的车载视觉传感器不同，路边传感器的放置具有更大的灵活性。因此，在V2X场景中，一个重要的问题是如何确定路边传感器的最佳放置，以最大限度地提高其效益，因为不同的位置带来不同的视图。Cai等人。[74]提出了一个用于基础设施LiDAR传感器仿真的LiDAR仿真库。他们还分析了感知性能与LiDAR点云的密度/均匀性之间的相关性。Jiang等人[74]提出了一种基于感知增益的贪婪算法，该算法可以获得路边LiDAR布局优化的近似最优解，并引入了一种感知预测器，该预测器可以通过预测LiDAR布局的感知能力来快速获得感知增益。

也有一些工作集中在改善基础设施的性能只有感知。[75]改进了BEV路边传感器的深度估计方法，以支持基于摄像头的检测。[76]利用早期融合来融合来自两个路边LiDAR的点云。此外，一个单目摄像头，以提高鲁棒性。[77]提出了一种基于中心的路边激光雷达探测器。

4.3通信延迟补偿

CAV之间的通信延迟（时间延迟）在V2X的实际应用中提出了不可避免的挑战，因为它损害感知性能，甚至导致比个体感知更差的性能。为了解决这个问题，许多工程设计方法来补偿由通信延迟引起的性能下降，并表现出更大的鲁棒性的延迟。
总的来说，这些方法可以分为两类：
(i）一些方法（例如，SyncNet [50]）采用历史信息并将时间延迟补偿问题转换为时间预测问题。
(ii)一些方法设计隐式延迟感知模块，在具有模拟通信延迟的数据上进行训练，或者开发特定的传输策略以减少延迟对性能的影响，例如AutoCast [25]，AVR [78]，V2X-ViT [21]和DAIRV 2X [12]。

早期的融合方法 设计传输策略以减轻延迟。AutoCast [25]决定在每个决策间隔传输哪些对象以及以什么顺序传输，这被视为马尔可夫决策过程。该算法基于当前环境在每个时间步长选择所传输对象的集合。AVR [78]在发送端通过使用单应矩阵和光流分割来估计动态对象的运动矢量，并使用运动矢量来估计当前位置并补偿接收端的延迟。

中间融合方法采用数据驱动的隐式补偿模块。在V2X-ViT [21]中，自适应延迟感知位置编码模块（DPE）被设计用于时间对准，通过输入延迟时间信息来补偿延迟。相反，SyncNet [50]设计了一个时间预测模块，该模块采用特征-注意共生估计（FASE）方法来估计缺失的协作特征，并引入时间调制（TM）来平衡噪声。它可以作为其他中间协作方法的插件延迟补偿模块。这些方法的一个优点是它们可以端到端优化。请注意，复杂模型还可能带来额外的噪声并降低性能。

对于后期融合方法，DAIR-V2X [12]提出了时间补偿后期融合（TCLF）框架，该框架涉及连续帧之间的框匹配，速度估计，线性插值以近似车辆位置，并最终融合结果。

4.4协作效率

协作感知系统通过在不同的代理（车辆或基础设施）之间传输互补信息来提高感知性能。然而，在真实的的应用场景中，协同工作的通信带宽往往是有限的。因此，协同感知系统面临着不可避免的根本性挑战，即，**如何平衡感知性能和通信带宽之间的权衡。**大多数作品[21]，[47]，[52]通过简单地利用1 × 1卷积来压缩和解压缩沿着信道维度的传输特征来降低通信成本。这样，虽然带宽降低，但性能也相应降低。

一些作品利用可学习的方法来提高协作效率。V2 VNet [20]首先采用LiDAR主干来处理输入点云并获得BEV特征。然后，它利用变分图像压缩算法[79]来压缩该特征以实现透射特征。DiscoNet [47]设计了一个师生蒸馏法。通过特征提取和提出的矩阵值边缘权重来突出信息区域，DiscoNet可以促进更好的性能-带宽权衡。Who 2com [53]提出了一个三阶段的通信机制：请求、匹配和连接，以便选择用于通信的最佳匹配代理。When 2com [49]利用缩放的一般注意力，让自我主体决定何时进行沟通。它把协作感知问题看作是学习构建通信组，并决定何时进行通信，而无需在训练过程中对此类决策进行明确监督。FPV-RCNN [19]采用两阶段框架。它首先生成对象建议，然后在这些建议中选择关键点进行功能通信。特征选择过程减少了协作特征的冗余，从而降低了带宽需求。Where 2comm [18]通过学习空间置信度图来反映传输特征中的感知关键区域，提出了一种空间置信度感知通信策略。根据这样的置信度图，每个代理可以将空间稀疏但关键的特征传递给合作伙伴，以更少的通信带宽实现更高的性能。选择性通信[80]设计了一个两阶段通信过程。在第一阶段中，连接的代理共享轻量级自检测结果（即，检测到的对象的中心）彼此通信以确定与谁通信。然后在第二阶段中传输点特征。Lin等人。[81]提出了一种图像辅助点云压缩框架，其中从图像中估计深度信息并用于指导点云的压缩。UMC [82]引入了一个两阶段的基于熵的选择模块来选择适当的区域进行通信。

4.5对抗性攻防

众所周知，深度神经网络的鲁棒性带来了重大挑战，特别是在对抗性攻击的背景下，其安全性难以确保。此外，协同感知系统，其通信和融合模块，面临着固有的挑战，抵御敌对攻击，因为恶意或不可靠的共享信息。因此，正在努力解决这些挑战，并提高协同感知系统的安全性。

Tu等人[83]研究了对多智能体通信的对抗攻击。实验表明，干扰传输会导致性能下降。具有大量良性代理的合作系统可以有效地减轻对抗性攻击的影响。为了减轻这些攻击，他们直接采用对抗性训练。虽然它是有效的，但它的缺点是在训练过程中引入额外的开销，并且不能推广到看不见的攻击者。

Li等人[26]开发了一种名为ROBOSAC的防御策略，它展示了泛化看不见的攻击者的卓越能力。ROBOSAC利用了对合作者的智能选择，而不是使用所有可用信息进行对抗训练。潜在的假设是，来自攻击者的协作消息可能会导致大量的分歧，而来自友好协作者的消息通常会与ego-car达成共识。给定攻击者比率和采样预算，ROBOSAC得出良性合作者的最大预期数量，实现性能和复杂性之间的权衡。

V2XP-ASG [84]是一种对抗场景生成器，可以为基于LiDAR的方法生成具有挑战性的场景。详细地说，V2XP-ASG可以构建一个对抗的协作图，并以对抗和合理的方式扰乱代理的姿势。实验表明，在生成的具有挑战性的场景上进行训练可以进一步提高协同感知系统的性能。

4.6姿态对准

CP方法需要每个代理的传感器姿势来将原始数据、中间特征或最终预测转换为自我汽车的坐标。然而，姿态/定位误差通常由卫星定位噪声和协作代理之间的异步引起。不准确的传感器姿势可能会导致信息融合阶段期间的未对准，并导致显著的性能下降，甚至低于现实噪声下的单车辆性能。为了缓解这个问题，一些作品提出了专门设计的姿势对齐模块。

对于中间融合方法，Vadivelu et al.[85]提出端到端可学习的神经推理层来估计姿势误差并就误差达成共识。具体地，姿态回归模块输出姿态校正扰动并且相应地产生预测的真实相对变换。然后，一致性模块通过用马尔可夫随机场（MRF）在所有代理之间找到一组全局一致的绝对姿势来细化来自回归模块的相对姿势估计。最后，为了专注于干净的消息而忽略嘈杂的消息，他们提出了一种简单而有效的注意力机制，在平均之前为每个扭曲的消息分配权重。Yuan等人[19]提出了一种定位误差校正模块，以减轻性能恶化。该模块首先根据分类得分选择杆、围栏和墙壁的关键点，然后使用具有粗略搜索分辨率的最大一致性算法[86]来找到对应的车辆中心和杆点。最后，它使用对应关系来估计精确的位姿误差。Lu等人。[57]提出了CoAlign，这是一种新型的混合协作框架，对未知的姿势错误具有鲁棒性。它利用了一种新的代理对象的姿态图建模类似于基于图的SLAM，以提高协作代理之间的姿态一致性。它不需要任何地面实况姿势监督，因此更实用。

对于后期融合方法，Song et al.[87]提出了OptiMatch，其中设计了基于传输理论的算法来构建相关联的共同可见对象集，并且从匹配的对象对估计校正变换，并进一步将其应用于有噪声的相对变换。最后进行全局融合和动态映射。

4.7其它

异构模型融合大多数CP方法使用相同的感知模型。这样的设置是可以理解的，因为不同的模型可能由于架构和参数的不匹配而损害性能。然而，在真实的场景中，汽车可能配备有不同的协同感知模型，因为不同的公司可能采用不同的模型。[90]提出了一个模型无关的多智能体感知框架。为了对齐不同模型的置信度分布，针对每个模型独立地训练校准器。一个促进抑制聚合（PSA）被引入到处理边界框聚合。因此[90]提高了与不可知模型协作的性能，但仅适用于后期融合。[22]提出了第一个统一的多智能体异构模态框架HM-ViT，支持不同数量和类型的车辆的协作感知。[91]设计了TwoStream融合模块来处理车辆与基础设施之间的异构融合。

只有摄像机的合作感知。虽然大多数作品都集中在只有LiDAR或LiDAR相机融合设置下的合作感知，但也有一些作品深入了解了只有相机的合作感知。Wang等人[92]介绍了一种用于基于摄像机的V2 I场景的中间融合方法。考虑到车辆和基础设施在不同的距离处检测到相同的对象，由车辆和基础设施提取的特征可以在尺度上不同。为了融合多尺度特征，设计了一种多尺度交叉注意算法（MCA），该算法首先通过MeanPooling运算得到不同尺度的特征，然后利用交叉注意算法进行匹配。此外，摄像机感知通道掩蔽（CCM）技术将摄像机参数作为先验来增强图像特征。Hu等人。[93]介绍了另一项研究仅摄像机3D检测的工作。基本上，[93]提出了协作深度估计（Co-Depth）来提高深度估计的准确性。在Co-Depth中，代理共享关键深度信息以细化估计的深度概率。协作检测特征学习（Co-FL）技术允许代理选择BEV特征的感兴趣的部分以彼此共享，这节省了通信成本。

无监督学习[94]提出了一个稀疏监督的协同3D目标检测框架SSC 3 OD。具体地说，SSC 3 OD首先利用Pillar-MAE模块以无监督的方式对高层语义进行推理，然后由实例挖掘模块生成伪标签。[95]利用车辆侧和基础设施侧的点云进行对比学习。此外，[95]提出上下文形状预测作为无监督表示学习的预训练任务。

联邦学习[96]提出了联邦车辆变压器应用隐私保护计算的合作系统。联合车辆变压器的核心是安全的跨车辆注意层，其采用隐私保护技术（例如，同态加密、秘密共享）来加密多模态特征并以隐私保护方式融合它们。为了克服联邦学习中连接车辆的动态状态引起的退化，[97]设计了一个上下文客户端选择管道。详细地说，[97]基于本地数据分布的相似性对客户端进行预聚类，并选择具有最小延迟的客户端用于未来的融合。

通信损耗。Li等人。[98]提出了一个解决有损通信问题的框架。引入LCaware修复网络来修复输入要素的损坏区域。此外，V2 V注意力模块用于融合来自各种来源的特征，同时考虑车内注意力和车间注意力。此外，Ren et al.[99]利用历史信息来修复由有损通信引起的丢失信息。[99]提出了一种自适应预测模型来生成和选择有前途的功能的有损区域。

Sim-to-真实的泛化。Li等人。[100]提出S2 RViT将模拟转移到现实，以实现协作感知。具体地，利用不确定性感知Transformer来克服真实世界数据中的时间延迟和定位误差。此外，鉴别器的设计，以分类一个功能是真实的还是模拟的，帮助模型生成域不变的表示。

5、实验分析

在本节中，我们提出了广泛的定量和定性实验分析，以检查当前的协作感知（CP）方法在V2X场景。在§5.1中，我们提供了各种数据集的详细模型属性比较。在§5.2中，我们分析并讨论了性能带宽权衡问题。在§5.3中，我们研究了不同LiDAR范围的影响。从§5.4到§5.7，我们研究了模型对各种噪声的鲁棒性，包括通信延迟、定位错误、有损通信和混合噪声，其中噪声是为了模拟现实世界的应用环境而生成的。在§5.8中，我们检查了现有CP方法的从简到真实的的泛化能力。在第5.9节中，我们给出了定性比较。

我们在几个数据集上进行实验，包括基于模拟的数据集，即，OPV 2 V [15]、V2X-Sim [14]和V2XSet [21]，以及基于真实世界的数据集，即，DAIRV 2X [12]和V2 V4 Real [13]。具体来说，我们采用OpenCOOD作为OPV 2 V和V2XSet数据集的代码库。我们分别采用CoPerception和V2 V4 Real作为V2X-Sim [14]和V2 V4 Real [13]数据集的代码库。注意，在DAIR-V2X数据集上，一些方法的结果是基于OpenCOOD产生的，对于OpenCOOD不支持的方法，我们使用Where 2comm作为代码库进行实验。

实验分析中涉及的所有模型首先在完美的设置中从头开始训练，即，没有任何噪音和压缩，使用相应代码库的默认超参数，除了禁用多尺度功能。然后，在不同的设置下对预训练的模型进行微调，以进行特定的分析。我们根据验证损失选择检查点进行评估。请注意，默认情况下，V2 V4 Real数据集启用了数据扩充。

5.1模型属性的比较

在这里插入图片描述表2 OPV 2V数据集上不同CP方法的基本特征的总结和比较。表3 V2XSet数据集上不同CP方法的基本特征的总结和比较。

表4 V2X-Sim数据集上不同CP方法的基本特征总结和比较。

为了比较当前CP检测方法，我们对三个典型数据集进行评估，即OPV 2 V、V2XSet和V2X-Sim分别在表2、3和4中呈现。为了公平地比较计算成本，OpenCOOD中的LiDAR范围在所有实验中都设置为[-102.4，-38.4，-3.5，102.4，38.4，1.5]。同样，在所有实验中，CoPerception中的LiDAR范围设置为[−96.0，−96.0，−3.0，96.0，96.0，2.0]。对于V2XSet数据集，完美的设置意味着没有姿势错误或通信延迟，而嘈杂的设置遵循OpenCOOD中的标准定位错误和通信延迟。

表2、3和4示出了三个数据集上的CP方法的模型大小（Param）、计算成本（MAC）、传输大小（Transmission）和效率（推断时间）。请注意，推理时间是指主网络从输入到输出的计算时间。从这些表中，我们发现，早期融合和后期融合方法具有较低的计算复杂度。然而，中间融合方法通常比早期融合和晚期融合方法表现得更好，特别是在噪声环境下。

5.2性能-带宽权衡分析

协作感知系统的目的是通过在不同的代理之间传递互补信息来增强感知性能。然而，在现实世界的应用中，通信带宽通常是有限的和可变的。**因此，为了充分利用有限且不稳定的带宽，在传输量和精度之间取得更好的平衡是CP模型设计的关键。**在本节中，我们将探讨各种方法的性能和带宽权衡。

为了进行公平的比较大多数中间融合方法，如V2 VNet [20]，我们利用1 × 1卷积来压缩和重构沿着通道维度的传输特征。通道压缩比从×1（20）变为×256（28），即传输特征图的通道数从256变为1（×20压缩比对应的模型没有压缩模块）。此外，Where 2comm [18]采用空间置信度感知的通信策略，并且具有256个固定数量的信道。
我们首先在完美设置上训练每种方法的未压缩基础模型（具有256个通道）。对于每个压缩率，我们对模型进行3-10个时期的微调。在训练Where 2comm时，我们禁用多尺度并将AttFusion用于融合模块。对于早期融合，通过最远点采样（FPS）实现压缩而无需微调。对于来自其他智能体的点云，仅考虑落在自我汽车的检测范围内的点，并且FPS仅应用于这些点。所有这些方法都在理想的设置下进行了测试。通信量计算如下：
在这里插入图片描述
其中N表示发送元素的数量，C表示信道的数量，16表示以fp 16数据类型发送数据，这几乎不会引起性能损失。然后，将基于位的卷转换为log 2尺度上的兆字节。在基于通道压缩的中间融合方法中，N通常是全特征图分辨率H × W。对于早期融合，N是待透射的点云的大小，并且C是对应于点云的三维坐标和反射率的4。对于后期融合，N是NMS之后的边界框的数量，并且C是表示3D边界框的位置的7。
在这里插入图片描述图五.性能-带宽权衡。x轴表示带宽（以log 2为单位），y轴表示AP性能。

图5 b显示了V2XSet [21]的结果。中间融合方法没有显示出显着的性能下降随着压缩比的增加。当压缩比从×20增加到×25时，大多数方法的平均精度下降不到5%，OPV 2 V的最大下降为4.37%[15]。这些结果表明，适当减少信道数量可以有效地消除冗余的协作信息。只有在高压缩比（×28，×27，×26）时，性能才会显着下降，接近10%。

在DAIR-V2X-C和V2 V4 Real数据集中也可以观察到类似的趋势。参见图5a和图5c在这两个真实世界数据集上，基于信道缩减的中间融合方法在压缩比从×20增加到×25时仅表现出轻微的性能下降。只有当压缩比增加到×27和×28时，性能才会显著下降。

Where 2comm [18]基于空间置信度，减少了空间域中的冗余，并且与基于信道压缩的中间融合方法相比表现出更平滑的性能退化，如图5 b和图5a.所示。可以观察到，与基于信道维度中的冗余的压缩相比，基于空间维度中的特征图的稀疏性的压缩具有更精细的控制粒度。

对于早期融合，原始点云数据是大量的且未经处理的，但是点云数据的显著比例是冗余的。**如图5 b和图如图5a所示，**在DAIR-V2X-C和V2XSet数据集上，当点云被压缩到其原始大小（4096个点）的约0.1倍时，性能仅表现出1%的下降。在此压缩比之前，点云仍然保留了足够的形状特征，以供检测算法提取足够的特征信息。随着点云被进一步压缩，性能迅速恶化，并且曲线呈现陡峭的线性下降。

总体而言，基于空间置信度的方法的曲线是平滑的，并显示出潜力。通道维度也显示出显着的冗余，这两个维度的更好的集成是一个有前途的方向。同时，早期的融合方法，没有特别设计，显示出竞争力的性能相比，中间融合方法。在未来，更有效的点云滤波和压缩方法有望应用于早期融合。

5.3不同LiDAR范围的比较

分析不同距离目标的检测精度是3D检测任务的常用度量。它可以揭示不同距离的性能变化。对于协同感知任务，骨干通常是相同的，重点是分析不同融合模块对检测精度的影响。

我们进行了一个实验，以调查目标检测结果的准确性不同的目标范围。具体来说，我们将检测结果分为三个范围：0-30m、30-50m、50-100m。目标距离是相对于自我汽车的。通过分析不同模型在不同范围内的性能，我们的目的是提供深入的范围对对象检测的协同感知的背景下的影响。重要的是，以确定是否主要有助于提高附近的遮挡目标的准确性，或提高远程感知的准确性，为自我汽车的融合模块。
在这里插入图片描述表5耐用性评价。各种设置下DAIR-V2X-C、V2XSet和V2 V4 Real数据集上的3D对象检测结果，其中AP@0.7用于V2XSet，AP@0.5用于DAIR-V2X-C和V2 V4 Real。请注意，为简单起见，省略了“%”。时间延迟：所有代理的随机时间延迟范围为0到500 ms。
通信丢失：使用固定范围内的随机噪声对传输特征进行像素级替换。
混合噪声：将所有上述噪声和定位误差（高斯噪声：平均值=0，标准偏差=0.2）。

在表5中，Perfect列显示了DAIRV 2X-C、V2XSet和V2 V4 Real上不同距离目标的不同方法的精度。将早期融合和中间融合方法与无融合方法进行比较，两种融合方法在所有三个范围内均显示出显著的改善。这些结果表明，融合模块有效地提高了检测精度附近的遮挡和远程感知的情况下，这是至关重要的协作感知任务。

5.4时延下的鲁棒性分析

时间延迟或通信延迟是现实世界V2X通信中普遍存在的问题。它诱导了自我特征和接收到的协作特征之间的异步。实用的协作感知方法有望对时间延迟具有鲁棒性。

在本节中，我们将探讨模型对时间延迟的鲁棒性。我们基于在完美设置中训练的模型对方法进行了微调，延迟从0到500 ms均匀采样。在测试期间，我们采用固定和随机延迟场景。在固定延迟场景中（图6），我们为每个代理设置一个固定的延迟（范围从0到500 ms），以将其特征传输到自我汽车。在随机延迟场景中（表5），我们为每个代理设置从0到500之间的均匀分布中采样的延迟。
在这里插入图片描述见图6。对通信延迟的鲁棒性。不同时滞下模型的性能比较。请注意，所有模型都对具有{100，200，300，400，500}随机时间延迟的数据进行了微调。

在上述条件下，所有模型的性能相应地下降。如图6 b和表5中的时间延迟列，V2X-ViT [21]对V2XSet中的延迟表现出很强的鲁棒性。具体而言，在随机延迟场景中，性能下降仅为19.9%，而其他场景下降超过20%。此外，在固定延迟场景中，每增加100 ms延迟，V2X-ViT的性能下降小于4%。相比之下，与中间融合方法相比，早期融合和晚期融合表现出更严重的性能下降，表明对延迟的鲁棒性差。当延迟时间增加到200 ms时，早期融合和晚期融合的AP分别下降了48.64%和54.4%。

DAIR-V2X-C上的结果见图6a。DiscoNet展示了最好的鲁棒性，在随机延迟场景下性能下降仅为0.37%。然而，关于V2 V4 Real的结论（图6c）是不同的，因为所有三种融合方法都显示出具有相似幅度的相对严重的性能下降。

总体而言，结果表明延迟是影响V2X感知性能的关键因素。此外，研究结果强调了设计对传输延迟具有鲁棒性的融合方法的重要性，以确保在现实世界中的可靠和准确的感知。

5.5抗定位误差的鲁棒性分析

协作感知模型依赖于两个协作主体之间的相对协调来融合它们的信息。因此，定位的质量从根本上影响信息融合的过程。虽然先进的本地化技术（例如，GPS）在感知系统中得到了广泛的应用，定位误差是不可避免的。通过这种方式，实现对定位误差具有鲁棒性的合作感知模型是至关重要的。

为了便于相关研究，我们在两个数据集上进行了实验（即，DAIR-V2X-C & V2XSet），其中协作感知模型在完美定位的环境中训练，同时在具有模拟定位噪声的环境中测试，而无需任何微调。噪声采用高斯分布，均值为0，标准差可变。
在这里插入图片描述见图7。对定位误差的鲁棒性。模型在完美的设置中被训练并且直接应用于定位误差设置，即，将均值为0的高斯噪声应用于LiDAR姿势。通过分别改变航向误差（RYP维度）和位置误差（XYZ维度）的标准偏差来逐渐调整噪声水平。

基于DAIR-V2X-C的实验结果如图所示7a。与中融合和后融合方法相比，早期融合方法对定位误差的敏感性更高，当定位误差标准为0.6m时，其AP@0.5下降了70.5%。此外，虽然弱于其他中间融合方法时，没有定位误差，Disconet有轻微的性能下降时，错误的存在。这种现象表明，当精心设计的融合方法提高性能在完美的设置，鲁棒性的定位误差可能会伤害。

图7 b显示了V2XSet上的结果。通常，航向误差对性能的影响小于位置误差。随着定位噪声的增加，早期融合和晚期融合算法的性能急剧下降，而中间融合算法具有较好的鲁棒性。

5.6抗有损通信的鲁棒性分析

大多数协作感知方法假设理想的通信，并且不考虑有损通信对特征共享的影响。丢包和信号干扰等有损通信在真实的世界中很常见[101]，[102]，[103]，[104]，导致不准确的中间特征共享，从而损害协作感知性能。

在本节中，我们将研究有损通信对不同协作检测方法的影响。最初，我们在没有任何压缩的理想通信下训练模型（即，在完美设置中），然后在有损通信环境中对其进行微调。为了模拟有损通信对协作感知的影响，我们采用了Li等人提出的方法。[98]，其对协作中使用的中间特征的概率p进行均匀采样。然后，在固定噪声范围[0，29.5]（由原始中间特征范围确定）内的中间特征中的元素被替换为概率为p的随机噪声。

在表5的Lossy Comm.列中，有损通信对大多数模型都有负面影响，特别是对模拟数据集V2XSet。其中，在有损通信下，V2XSet中的2S获得44.3%，下降37.2%，DAIR-V2X-C中的2S获得47.9%，下降18.9%。V2X-ViT在V2XSet中获得50.1%，减少33.7%，在DAIR-V2X-C中获得47.4%，减少18.7%。一些模型表现出更高的鲁棒性。V2 VNet在V2XSet中获得63.3%，减少16.04%，在DAIR-V2X-C中获得57.0%，减少1.4%。CoBEVT在V2XSet中达到66.1%，下降了14.3%。

总而言之，大多数CP方法通常容易受到有损通信的影响。考虑到不完美的通信是真实的存在于现实世界中，设计对有损通信鲁棒的方法具有重要意义。

5.7抗混合噪声的鲁棒性分析

为了更真实地模拟真实世界的场景，我们考虑了一个混合噪声设置，它结合了时间延迟，定位误差和有损通信，以评估各种模型在这些组合噪声下的表现。同样，我们在混合噪声设置下微调训练良好的模型，而不进行任何压缩，使时间延迟，位置噪声和有损通信的设置与前几节保持一致。

如表5中的混合噪声列所示，CoBEVT [52]、DiscoNet [89]、V2 VNet [20]、V2X-ViT [21]、Where 2 Vet [18]和OPV 2 V [15]在DAIR-V2X-C [12]和V2XSet [21]中表现出不同程度的性能下降。一般来说，在涉及各种类型的噪声的现实场景中，当前的协作感知模型表现出准确性的显著下降。有效地处理复杂的噪声仍然是一项具有挑战性的任务。

5.8模拟到真实的综合评估

模型应该在不同的场景中是鲁棒的，例如，地理位置、协作代理的数量以及传感器类型和布置。然而，在多个设置下获取训练数据不仅耗时且昂贵，而且难以覆盖真实的应用中所有可能的情况。因此，协同感知模型的泛化能力尤为关键。
在这里插入图片描述
表6综合评价。灰色文本是指模型在V2XSet[21]上训练但在DAIR-V2X-C[12]上评估时的AP Drop。

在本节中，我们通过在模拟数据集V2XSet上进行训练，并在现实数据集DAIR-V2X-C上进行评估，并使用CoAlign [57]的补充注释来评估几个模型的泛化能力。这两个数据集在LiDAR类型和位置、协作代理的数量等方面有所不同，导致显著的域间隙。为了进行比较，我们直接在DAIR-V2X-C上训练这些模型，并在相同的数据集上对它们进行评估，而没有域间隙。在这个实验中，我们假设一个完美的设置没有时间延迟和定位误差。此外，我们在训练和评估中只考虑带有Car类型的标签。如表6所示，当训练和推理之间存在域差距时，所有选定的方法都有显着的精度下降（约30%）。这种性能下降要求模型具有更强的泛化能力和有效的域适应/泛化方法的协同感知。

5.9定性分析

为了以更直观的方式分析协作感知方法，我们在DAIRV 2X-C上可视化了某些检测结果（图11）。8），V2XSet（Fig.第9段）。在每张图像中，我们使用绿色框表示地面实况，红色框表示预测。
在这里插入图片描述
见图8。DAIR-V2X-C上的可视化。
图8示出了DAIR-V2X-C中的场景，其中自我汽车正在接近十字路口。基本上，这个场景包括两个LiDAR传感器，一个来自中间道路上的自我汽车，另一个来自十字路口的路边基础设施。如果没有来自路边基础设施的信息，无协作方法由于长距离和遮挡而无法检测交叉口处的汽车。与其他方法相比，V2X-ViT [21]和Where 2 ViT [18]输出更准确的检测结果，但航向角的预测需要进一步改进。
在这里插入图片描述
见图9。V2XSet上的可视化。

图9呈现了来自V2XSet的曲线上的检测结果。在这个场景中有四辆协作汽车，主要分布在右侧区域。除了非协作方法，所有其他方法都成功地检测到右下角的汽车，显示出协作感知的优势。相比之下，左侧区域的检测性能较差，因为此处不存在协作汽车。此外，与早期融合和中期融合相比，后期融合往往会给予更多的虚警。

第六章挑战和今后的工作

在本节中，我们将深入讨论剩余的挑战和问题。因此，我们讨论了一些有前途的研究方向，可能有助于进一步推进V2X协作感知的发展。

6.1性能-带宽权衡

如第5.2节所述，带宽和性能之间的权衡对于V2X场景中的CP方法至关重要。通常，用于减少带宽的方法可以被分类为两种模式，即，基于选择和基于压缩，旨在消除空间和信道冗余。目前，考虑空间冗余的方法很少，大多数方法仅通过设计融合模块和自动编码器来关注信道冗余。因此，一个有前途的方向是同时考虑减少空间和信道冗余。

此外，对于每个压缩率，需要进行模型微调，这是耗时的并且导致粗略的压缩率控制。此外，在基于学习的数据压缩领域，可以针对V2X CP模型采用和修改诸如可变比特率、比特分配（特征流）、缩略图和分布式编码的方法。这些方法可以通过根据空间和时间维度中的不同数据的重要性为它们分配不同的压缩率来进一步细化压缩率的分配。此外，基于代理的传输环境来适配适当的压缩率是另一个方向。因此，未来的工作可能会集中在探索，以改善压缩率的分配，提高压缩效率和协作感知系统的适应性。

6.2模拟器

物理资产模型（例如，当前模拟器的场景（例如车辆、建筑物）与真实的环境的差距一般很大，模拟器中的传感器模型很难再现现实世界中的一些常见现象，如摄像机动态模糊、LiDAR的运动失真等。同时，大多数模拟器忽略了不同天气对传感器数据和数据传输过程的噪声影响。未来，模拟器还可以在高真实感资产、通信传输、场景编辑等方面进行探索，缩小传感器数据的领域差距，实现场景多样化。一种可行的方法是使用AIGC技术来增强模拟器，例如使用NeRF生成3D资产，构建更逼真的物理资产库，并通过基于生成技术的域迁移方法对模拟数据进行二次渲染。已经有一些工作来模拟不同天气下的LiDAR噪声[105]，以及一个使用NeRF重建现实场景的模拟平台[106]。

6.3激光雷达放置

为了优化LiDAR感知性能，LiDAR传感器的放置至关重要[107]。最近，一些文献从LiDAR放置的角度考虑了LiDAR感知问题[107]，[108]，这是一个新的视角和关键，因为不正确的LiDAR放置可能导致质量差的感知数据，从而导致较差的感知性能。随着V2X应用的快速发展，有必要知道如何选择最佳布局，以最大限度地发挥基础设施传感器的优势。现有的LiDAR布局研究主要集中在车辆上，未来将迫切需要考虑基础设施传感器的布局问题。由于基础设施的放置，LiDAR具有更高的自由度，其中需要考虑位置位置和滚动，俯仰和偏航角度。另一方面，现有文献提出了评估不同LiDAR放置的方法，而不是直接优化和搜索传感器位置。一个可行的未来研究方向将是直接优化LiDAR的数量和每个LiDAR的放置位置，以实现上级的感知性能。

6.4数据集和协作图

当前的CP数据集倾向于具有约5个协作代理，如§3中所述，导致代理在广阔的空间范围内稀疏分布。然而，预计未来V2X场景中联网车辆的普及率将大幅提高。因此，一个有前途的方向是开发数据集，具有更大数量的合作代理在一个单一的框架内，从而实现密集分布的代理在道路上。这一方向将更好地与未来的场景保持一致，并使研究人员能够探索更全面的解决方案。

大多数当前的作品假设建立一个完全连接的图，其中自我汽车从所有代理接收信息。这对于现有CP数据集中有限数量的CAV（约5）是可接受的。然而，当CAV的数量显著增加时，密集协作图的资源消耗变得不可接受。在这种情况下，协作图的边应该是稀疏的，而不是完全连接的图。因此，未来的工作可以考虑如何建立稀疏图和传输的功能的基础上，整个场景。代理可能需要交换小的元信息，以帮助决策或选择一个超级节点来综合各种信息。此外，具有密集CAV场景的数据集可以推进研究，并且稀疏CAV场景可以从密集场景中随机采样。未来的工作还可以探索高级图学习技术，以提高CP在密集图场景中的性能。

6.5传输方案

目前，V2X的信息传输方案不够高效。当每个代理传输数据时，它向所有其他代理广播或单播数据的多个副本，这导致高带宽开销和高通信延迟。因此，一种潜在的解决方案是使用路侧单元作为路由节点来均匀地收集和分发信息，这可以有效地减少带宽和延迟。

此外，依赖路边单元作为重要的路由节点可能限制灵活性，例如，一些道路不包含智能路边单元。因此，更好的方式是基于诸如距离、可计算性、带宽等因素从V2X网络中动态地选择CAV作为逻辑路由节点。以这种方式，充当可移动逻辑路由节点的车辆可以代替固定的路边单元执行信息收集和分发。此外，依赖于基于路由节点的传输范例的方法可能面临跨区域切换的潜在问题，即，当车辆在由不同路由节点管理的两个区域之间切换时，这也可以被视为一个有价值的研究方向。

6.6泛化

6.6.1 Sim2Real

训练CP模型需要大量的注释数据。然而，收集真实世界的数据集是耗时且昂贵的，并且当前的数据集通常仅涉及少量CAV或用于协作的基础设施，使得难以满足真实场景中的各种要求，例如密集CAV场景和恶劣天气条件。一种合适的方法是使用模拟工具，如CARLA [16]来生成模拟的协作感知数据。然而，模拟数据和真实世界数据在许多方面不同，例如传感器类型、反射模式和道路环境。显著的sim2real域间隙导致点云密度、分布、反射率等方面的差异。这对模型的泛化能力提出了挑战。目前的工作已经在sim2real中进行了V2V通信的初步实验[13]。未来的工作可以集中在提高模拟的保真度和多样性，以及提高现有方法的泛化能力。

6.6.2建立切实可行的合作观念

CP系统在实际应用中面临着复杂的噪声挑战，包括时延、位置噪声、有损通信（丢包、通信噪声和中断）等。关于时间延迟，尽管在训练期间对时间延迟进行编码可以使得模型能够在没有显著的附加计算的情况下感知和校正特征，但是组合时间信息和时间延迟补偿可以更有助于预测准确的特征。SyncNet [50]率先尝试利用历史信息来补偿时间延迟，但推断每个帧需要提取所有历史信息，这可能会显着增加推断时间。因此，使用类似滑动窗口的方法来随时间动态地处理时间信息可能是更好的选择，保持全局特征以记忆窗口之外的历史信息。此外，将时域检测模块集成到时延补偿的流水线中可能是另一个有前途的方向。

此外，当前的大规模数据集缺乏足够的多样性和复杂性，其中真实的世界中的传感器可能由于诸如不利天气的各种噪声而生成低质量的数据。为了构建一个更强大的系统，迫切需要在复杂环境中收集数据并提出相应的方法。目前的工作[84]研究了模拟场景中的对抗性数据生成。未来的作品还可以构建更真实的场景，进一步填补模拟与现实之间差距。

另一个有希望的方向是探索多领域连续学习技术，以提高在未知环境中的泛化能力。多领域连续学习技术可以使感知模型能够随着时间的推移从新的领域学习和适应，同时保留从先前领域学习的知识。

6.7融合方法

6.7.1早期融合

早期融合由于其高带宽要求而受到挑战。然而，对于感知任务，高密度的点云并不总是必要的。§5.2中的实验表明，与中间融合相比，简单地对原始点云进行下采样可以实现具有竞争力的带宽-精度权衡。受此观察的启发，未来的工作可以修改早期融合方法的先进点云压缩方法，进一步提高性能，同时降低带宽。此外，通过端到端优化或深度点云压缩来增强原始点云对各种真实世界噪声的鲁棒性也是一个有趣的方向。

6.7.2中间融合

阻碍中间融合实用化的一个主要挑战是如何实现不同中间融合模型之间的协作。所有车辆都部署同一型号是不现实的。即使是同一家公司，由于车辆上的软件版本不同，也可能存在不同的车型。当共享功能来自不同的模型时，存在显著的域差距，这很容易导致性能下降。虽然在这方面已经进行了初步探索，但在跨模式协作和系统设计的性能上仍有相当大的提升空间。

6.7.3晚期融合

代替直接传输对象框，未来的后期融合方法可以传输对象的软概率分布，这可以进一步提高性能上限，而带宽使用仅增加最小。Ego-car可以使用概率分布来执行锚初始化、框细化等。然而，在具有挑战性的环境中，如显着的定位误差和通信噪声的后期融合的鲁棒性和泛化性能方面仍有改进的空间。一个有趣的研究方向是联合收割机三种融合方案的优点，实现多级融合架构。

6.8安全和隐私

为了参与V2X系统，汽车不可避免地与其他汽车和基础设施共享信息。这样的连接可能会导致几个隐藏的危险：
（i）用户的隐私可能通过信息传输泄露;
（ii）黑客可能入侵V2X网络并对系统进行攻击，这可能导致故意的交通事故。因此，对V2X系统应进行严格保护，防止出现上述情况。

一些策略可能有助于解决问题。
例如，隐私保护计算技术可以应用于CP方法中以保护数据内的隐私。
此外，数据在传输前可以进行加密，以确保隐私和安全，对抗性攻击和防御技术可以应用于V2X系统。
此外，应该为自动驾驶汽车设计一个独立的紧急驾驶计划，当V2X系统被黑客攻击时启用。
此外，还应制定相关法律，以促进V2X自动驾驶的应用。

7、结论

在这项调查中，我们提出了一个全面的审查对车辆到一切自动驾驶场景的协作感知。我们开始简要介绍V2X自动驾驶和协同感知。为了提供V2X自动驾驶的系统视图，我们提出了V2X系统的典型架构和工作流程，并描述了协作感知在整个系统中的作用。此外，我们总结和比较现有的数据集的协作感知。对于分类，我们从不同的角度对协作感知方法进行分类。此外，我们进行了大量的实验，以评估现有的方法，包括模型的效率，鲁棒性，泛化等。并彻底讨论结果以提供未探索的见解。最后，我们展望了开放的挑战和问题，为未来的研究提供了潜在的方向和解决方案。