Collaborative Perception for Autonomous Driving :Current Status and Future Trend
0.论文摘要
感知是自动驾驶系统的关键模块之一,近年来取得了很大进展。然而,单个车辆的有限能力导致感知性能提高的瓶颈。为了突破个体感知的局限,协作感知被提出,它使车辆能够共享信息来感知视线和视野之外的环境。本文综述了有前途的协作感知技术的相关工作,包括介绍了基本概念,概括了协作模式,总结了协作感知的关键要素和应用。最后,我们讨论了这一研究领域面临的挑战和问题,并给出了一些潜在的进一步方向。
1.Introduction and Motivation
自动驾驶是智能交通系统的关键技术,也是一个很有前途的工程项目,可以从根本上改变人类社会的生活。虽然过去几十年学术界和工业界都取得了很大进展,但自动驾驶仍然是当今一个重要的研究课题,尤其是受到最近计算机视觉和深度学习发展的启发。自动驾驶的关键模块之一是感知,其目标是感知周围环境并提取与导航相关的信息,包括目标检测、跟踪、语义分割等。感知曾经被认为是自动驾驶的技术瓶颈。在过去的几年里,随着大规模训练数据的增加和深度学习算法的发展,感知性能得到了显著提高。然而,这不足以满足实际高水平自主能力的需求,因为高水平或完全自主的车辆不需要人的监督,完全依赖于车辆的感知。
制约自动驾驶感知性能的一个主要因素是每辆车基于自身的局部感知周围环境感知传感器,即个体感知。然而,个体的感知能力是有限的,因此感知会因有限的视野、模态缺失、稀疏的传感器数据和其他负面因素而降低。图1显示了个体感知的两个重要问题,即长期的遮挡和稀疏数据。解决这些问题的方法是在同一区域内的车辆彼此共享集体感知信息(CPM)来协作感知环境,这被称为协作感知或合作感知。
受益于通信基础设施的更好建设和通信技术的发展,如V2X(车辆到一切)通信,车辆可以以可靠的方式交换它们的信息,这使得它们之间的协作成为可能。最近的工作[11,12]表明,车辆之间的协作感知可以提高环境感知的准确性以及交通系统的鲁棒性和安全性。此外,自动驾驶汽车通常配备高保真传感器以实现可靠的感知,这导致成本昂贵。协同感知可以放松对单个车辆感知设备的苛刻要求。协作感知通过与附近的车辆和基础设施共享信息,使自动驾驶汽车能够克服一些感知限制,如遮挡和短距离视野。然而,实现实时和鲁棒的协作感知需要解决由通信容量和噪声引起的一些挑战。最近,有一些研究合作感知策略的工作,包括合作什么,何时合作,如何合作,共享信息的对齐等等。
在本文中,我们回顾了以前关于自动驾驶的协作感知的工作。本文的主要贡献如下:1)归纳了现有的协作感知模式,并对各自的方法进行了分析;2)总结了自动驾驶的协作感知的关键要素,并介绍每种成分各自的研究。iii)我们讨论了自动驾驶协作感知领域的公开挑战和问题。
本文的其余部分组织如下。在第二节中,我们介绍了协作感知的管道及其四种模式。在第3节和第4节中,我们分别总结了协作感知在自动驾驶中的关键要素和应用。在第5节中,我们讨论了公开的挑战和问题。最后,第6节对本文进行了总结。
2 Collaboration mode: When and What to collaboration
感知的流水线是先将车辆采集的原始数据输入编码器,再对编码器输出的中间特征进行解码,输出最终的感知结果。在这一节中,我们根据协作发生在管道中的时间将协作模式分为四类,并分别详细分析了它们的优缺点。
2.1 Early collaboration
早期协作在输入空间进行协作,输入空间在车辆和基础设施之间共享原始感官数据。它汇总了所有车辆和基础设施的原始测量数据,以促进整体视角。因此,每辆车都可以进行后续处理,并基于整体视角完成感知,见图2(a),这可以从根本上解决单智能体感知中出现的遮挡和长程问题。[5,2]采用了早期协作模式,并借助丰富的信息证明了其有效性。然而,共享原始传感器数据需要大量的通信,并且容易因重数据负载而使通信网络拥塞,这在大多数情况下阻碍了其实际使用。
2.2 Late collaboration
后期协作在输出空间进行协作,促进每个个体智能体输出的感知结果的融合,实现细化,见图2(c)。[3]采用后期协作开发感知和定位系统,并处理两辆车之间通信链路的延迟和掉线问题。[4]研究了共享检测对象的时间和空间对齐,并提出使用非预测的发送方状态进行转换,从而忽略发送方运动补偿。虽然后期协作是带宽经济的,但是它对智能体的定位误差非常敏感,并且由于不完全的局部观察而遭受高估计误差和噪声。
2.3 Intermediate collaboration
中间协作在中间特征空间中进行协作。它能够传输由每个单独智能体的预测模型生成的中间特征。在融合这些特征之后,每个智能体解码融合的特征并产生感知结果,参见图2(b)。从概念上讲,我们可以将代表性信息压缩到这些特征中,与早期协作相比,可以获得经济的通信带宽,与晚期协作相比,可以提升感知能力。很多工作[6,14,7,8,9]都认同这个想法,采用中间协作和特征共享。在实践中,这种协作策略的设计从两个方面具有算法挑战性:i)如何从原始测量中选择最有益和最紧凑的特征进行传输;以及ii)如何最大限度地融合其他智能体的特征以增强每个智能体的感知能力。
2.4 Mixed collaboration
如上所述,每种协作模式都有自己的优缺点。因此,一些工作采用混合协作,即结合两种或两种以上的协作模式来优化协作策略。[2]提出了在传感器具有高可见性的情况下共享高级信息(后期协作)和在可见性差的情况下共享低级信息(早期协作)。他们的方法基于这样的观察,即靠近传感器的物体将具有高密度的点,因此更有可能使用单个传感器的观察来检测。DiscoNet[32]利用采用早期协作的教师模型来指导采用中间协作的学生模型的培训。在参考阶段,放弃了消耗通信带宽的教师模型,而采用了学生模型因为它在训练阶段就从教师模型中学习了知识,所以可以在较低的通信带宽下保持优异的性能。
3.Key Ingredients of Collaborative Perception Technology协同感知技术的关键要素
3.1 Collaboration graph
图具有对非欧几里得数据结构建模的能力和良好的可解释性,是建模协作感知过程的有力工具。在一些工作中,参与协作感知的车辆组成一个完整的协作图,其中每辆车是一个节点,两辆车之间的协作关系是这两个节点之间的边。V2VNet[14]利用图神经网络来聚合和组合来自其他车辆的消息。[32]所提出的具有矩阵值边权重和矩阵中的每个元素的盘图反映了特定空间区域的智能体间注意力,允许智能体自适应地突出显示信息区域,如图3(a)所示。此外,一些工作[18,17]基于图技术研究了车辆通信中的资源分配问题,其中每个车对车(V2V)链路被视为图中的一个节点,如图3(c)所示。
图3:协作图的两个例子。(a)在[32]中提出的协作图:每个节点代表一个智能体,而两个车辆之间的协作关系由具有矩阵值权重的边表示,该边突出显示信息区域。(b)(c)举例说明[17]中提出的协作图。(b)显示车辆网络的结构,而(c)是(b)的图形表示。
3.2 Pose alignment
由于协同感知需要融合来自不同地点和不同时间的车辆和基础设施的数据,因此,实现准确的数据对齐对协同感知的成功具有重要意义协作。[4]介绍了时间和空间排列的回顾,包括合作感知所需的坐标系和变换。[3]在考虑延迟的情况下,利用扩展卡尔曼滤波器通过外推来补偿位置和相对距离测量值。V2VNet[14]和DiscoNet[32]采用了姿态感知策略,其假设是车辆可以访问自身及其合作者的准确姿态和位置,以便协作感知可以通过学习的空间感知特征图融合来成功。[15]指出定位噪声在现实世界中很常见,在实际噪声量下,姿态感知策略的性能下降到单智能体性能以下。他们提出了端到端的可学习神经推理层,学习估计姿态误差,使车辆就这些误差达成共识。[16]利用神经层来学习数据对应,而不需要其他智能体的姿态信息。
3.3 Information fusion
信息融合是多agent系统的核心组成部分,其目标是有效地融合来自其他agent的信息最丰富的部分。CommNet[22]采用平均操作来进行信息融合,VAIN[19]考虑了一种注意力机制来确定哪些智能体将与哪些智能体共享信息。几乎所有后来的融合方法[25,23,24]都采用了注意机制,因为它可以自适应地计算两个智能体之间的关系。DiscoNet[32]利用掩码来反映每个空间区域的智能体间注意力,并将其性能与一些基本的融合方法进行比较,如求和、平均、最大化、串联和最先进的方法。
3.4 Resource allocation with reinforcement learning
现实环境中有限的通信带宽要求我们充分利用现有的通信资源,这就使得资源分配和频谱共享变得非常重要。在车载通信环境中,快速变化的信道条件和日益增长的业务需求使得分配问题的优化变得非常复杂,很难用传统的优化方法来解决。一些工作利用多智能体强化学习(MARL)来解决优化问题。[28]使用深度强化学习来选择要传输的数据,并减轻了网络负载。对于MARL,[18,17]侧重于优化资源分配,[27]侧重于频谱共享。[26]引入了联合强化学习来加速训练过程。
4 Applications of Collaborative Perception协同感知的应用
协作感知可以应用于许多涉及多智能体感知的任务。在本节中,我们重点关注自动驾驶和群体智能的两个重要任务,基于点云的3D对象检测和3D场景的语义分割,协作感知应用于此。
4.1 Collaborative 3D object detection
基于激光雷达点云的三维目标检测是协同感知研究中最受关注的问题。原因如下:i)激光雷达点云比图像和视频具有更多的空间维度。ii)激光雷达点云可以在一定程度上保留人脸、车牌号等私人信息。iii)点数据是融合的合适数据类型,因为当点数据从不同姿态对齐时,比像素损失更小。iv)3D对象检测是自动驾驶感知的基本任务,许多任务如跟踪和运动预测都基于该任务。图4(a)示出了协作对象检测的示例,其中具有不同颜色观察值的车辆旨在以协作方式检测周围车辆。图5比较了基于单一感知和协作感知的点云的3D对象检测结果,说明了协作感知的有效性。
图4:应用协作感知的两个任务。(a)协作3D对象检测的示例,其中具有不同颜色观察的车辆旨在以协作方式检测周围车辆。(b)在存在意外障碍的情况下,协同语义分割给出期望的输出,而个体感知可能失败。
图5:基于3D激光雷达点云的单车目标检测和协作目标检测的性能比较。红色和蓝色边界框代表对象检测和地面实况的输出;(a)自我车辆单视图对象检测,(b)合作车辆单视图对象检测和(c)自我车辆处的协作对象检测。引自[8]
4.2 Collaborative semantic segmentation of 3D scenes
3D场景的语义分割也是自动驾驶所需的关键任务。3D场景目标的协作语义分割,以为给定观察值(图像、激光雷达点云等)的每个智能体产生语义分割掩码。)的3D场景。[23,24,16]关注具有有限通信带宽的协作语义分割。图4(b)说明了在存在意外障碍的情况下利用多视图的协作语义分割的有效性。
5.Open Challenges and Issues 公开的挑战和问题
5.1 Communication Robustness
高效协作依赖于智能体之间的可靠通信。然而,通信在实践中并不完善:i)随着网络中车辆数量的增加,每辆车可用的通信带宽是有限的;ii)由于不可避免的通信延迟,车辆很难从其他车辆接收实时信息;iii)通信有时可能中断,导致通信中断;iv)V2X通信遭受攻击[34]并且不能总是提供可靠的服务。尽管通信技术在不断发展,通信服务质量也在不断提高,但上述问题仍将长期存在。然而,大多数现有的工作采用这样的假设:信息可以实时无损地共享,因此考虑这些通信约束并设计鲁棒的协作感知系统对进一步的工作具有重要意义。
5.2 Heterogeneous and cross-modality 异质和跨模态
大多数协作感知工作关注基于激光雷达点云的感知。然而,有更多类型的数据对感知有用,如图像和毫米波雷达点。利用多模态感觉数据是更有效协作的潜在方法。此外,不同级别的自动驾驶汽车在某些场景中提供不同质量的信息。因此,如何在异构车辆网络中进行协作是协作感知进一步实际应用的问题。不幸的是,很少有工作关注异构和跨模态的协作感知,使其成为一个开放的挑战。
5.3 Large-scale dataset
如第1节所述,通过增加大规模数据集和开发深度学习方法,感知性能得到了提升。然而,协作感知研究领域的现有数据集要么规模小,要么不公开。例如,[5]将不同时间戳的ego车辆视为KITTI[30]中的多个合作者车辆,而基于V2VNet[14]提出的高保真激光雷达模拟器[31]的V2V-Sim并不公开。最近,[29]作为车辆——基础设施协作自动驾驶的大规模数据集发布。但是,它不包括V2V场景,目前也没有公开。因此,公共大规模数据集的缺乏阻碍了协作感知的进一步发展。此外,大多数数据集都是基于模拟的。虽然仿真是一种经济和安全的验证算法的方法,但需要真实的数据集来使协作感知在实践中得到应用。
6.Conclusion
这篇关于协作感知的综述涵盖了自动驾驶的主要技术细节和应用。我们引入了协作感知的概念,并分析了不同协作模式的优缺点。然后归纳了协同感知技术的关键要素和两个重要的应用任务。最后,我们讨论了这一研究领域面临的挑战和问题,并给出了合作感知的一些潜在的进一步方向。