前言
根据不同的融合阶段,协作感知可以系统地分为三种主要类型:早期、中期和后期协作。早期的合作整合了来自车辆和基础设施的原始感官数据,提供了一个全面的视角。例如,Arnold等人。首先对全局坐标系中每个传感器上的各自点云进行预处理。随后,这些点云被传送到一个集中的融合系统,在那里它们被组合成一个整体的点云并被输入到检测模型中。然而,这种类型的协作会迅速压倒有大量数据流量的通信网络,使其在大多数情况下不切实际。相比之下,晚期协作在输出空间进行协作,这在带宽上是经济的,但对噪声和估计错误很敏感。中间协作能够交换由相关代理创建的中间特征,并在最近几年显示出巨大的潜力。考虑到实际应用场景中的带宽限制,提出了各种合作策略来决定谁、什么时候、在哪里、进行通信。在收到其他代理的特征后,现有的方法采用注意力机制、图神经网络、maxout和加法来聚合互补的场景信息。
一、Introduction
在协作感知领域流行的方法包括四个阶段:消息提取(Message Extraction)、消息打包(Message Packing)、消息聚合(Message Aggregation)、消息解码(Message Decoding)。
这个领域的主要挑战是有效地利用有限的带宽来达到最佳性能。这包括其他代理如何在信息打包过程中最大限度地压缩,同时基本完整地保留有用的信息,以及自我代理如何利用它们在信息聚合过程中重建并合并成一个统一的场景表示。为了兼容带宽的限制以及可以最大程度上可以携带更多的有用信息,这篇文章是针对中间融合提出以下问题:
中间融合中存在的问题:
a)信息打包过程中的物体特征破坏(Object feature destruction during message packing.)
- 通道压缩(Channel Compression):存在跨信道的异质性的问题,也就是说不同通道可能编码完全不同的物理量(例如通道1是高度,通道2是速度)
- 空间选择(Spatial Selection):只传送置信度高区域的特征
b)长距离协作的低效消息聚合(Inefficient message aggregation for long-range collaboration)
- 问题本质:有效信息可能就占20%,但需要处理大量冗余数据(传输整个地图而非关键对象)
c)隐式结构表示通信(Implicit structure representation communication)
- 问题本质:体素化操作牺牲了三维几何细节。(车辆轮廓模糊化),这样就会导致在协作之后,多源信息融合提高了物体存在的确定性使置信度分数提高,而由于隐式表示无法精确传递几何细节,导致框位置/尺寸偏差,所以iou达不到0.8
这三个问题形成技术闭环:密集表征导致信息打包时失真,失真后的数据在远距传输时效率低下,而接收方又难以从隐式表达中解析出有效结构信息。这解释了为什么作者要转向点簇(point cluster)这种稀疏表征——就像用矢量图形替代位图,既能保留关键结构特征,又显著降低数据传输量:
d)信息打包过程中的对象特征保存(Object feature preservation during message packing)
- 通过增减点簇数量(而非压缩特征维度)调节数据量。
e)与范围无关的有效信息聚合(Range-irrelevant efficient message aggregation)
- 点集群可以方便地与同一物体相关联,并通过集合合并进行聚合,而不需要填充到相同形状的联合视场
f)明确的结构表示通信(Explicit structure representation communication)
- 点集群充分保留了原始坐标空间中物体的几何结构信息
二、Overall architecture
- 所有代理的原始点云由共享点聚类编码器(PCE)处理,该编码器对物体表面的前景点进行分割,并根据距离度量将其划分为聚类。从这些点聚类中的每一个,我们提取并制定点坐标、中心坐标和聚类特征作为相应的中间表示。
- 然后,我们提出了一个点聚类包装(PCP)模块,以过滤噪声背景聚类,并通过提议生成纠正前景聚类中涉及的点。通过减少包含的点的数量,可以减少点集群的带宽使用量。在收到其他代理的信息后,我们用无参数方法解决姿势误差和时间延迟问题,然后通过姿势变换将多个代理的点集群的坐标空间对齐,这使得自我代理能够从自己的坐标空间获得代理-集群图作为综合场景表示。
- 至于消息聚合,我们提出了一个点集群聚合(PCA)模块,在这个模块中,点集群匹配被用来寻找属于同一物体的点集群,并将它们合并到一个新的点集群中,该集群包含具有线性复杂性的完整物体信息。
三、Challenge
- 点集群编码器(PCE)将所有代理的原始点云编码为相应的点集群表示,用于信息提取
- 点集群包装(PCP)模块怎么以灵活地控制每个点集群所包含的点的数量,同时尽可能地保持其几何结构。
- 点集群聚合(PCA)模块怎么整合来自其他代理的点集群,车辆A检测到卡车前部,车辆B检测到卡车尾部。怎么识别为同一物体
- 姿势误差和时间延迟问题的无参数解决方案
四、Method
4.2 PCE (Point Cluster Encoder)
- 特征提取:每个点的特征= 点所在体素特征 + 点相对体素中心的偏移量
- 前景点分割:使用MLP预测每个点的前景概率
- 预测每个前景点到其所属物体中心的偏移量,MLP处理点特征,输出3D偏移向量
- 点簇分组:若两点预测中心的欧氏距离 < ϵ 则归为同一簇
- 点簇特征提取(SIR模块)
Pq:簇内点坐标,Cq:预测簇中心, ⊖为逐点减法。[;]表示沿通道维度的连接
解释:公式3是将每个点的特征与点与中心点的距离按照通道位置拼接,后经过MLP,公式4是先用maxpool进行降采样,作为全局特征广播到每个点上,后经过MLP,如此往复经过6层之后,最后经过线性层和maxpool转化为全局特征
经过pce模块后,得到是点簇的信息,此时点集群中会存在噪声,其包含一个物体的所有点,而PCP为了去除噪声以及降低通信带宽
4.3 PCP(Point Cluster Packing)
4.3.1 生成bounding box
根据输入的簇特征,通过分类和回归分别生成置信度和框的信息,从而达到剔除背景噪声点簇,保留前景物体簇。
4.3.2 点簇压缩(SD-FPS采样)
- 输入:
- 点坐标P={p1,…,pNfg}∈RNq×3。
- 语义得分Sf∈RNq(来自前景分割模块,预测得到的分数)。
- 分布得分Sd∈RNq(通过核密度KDE估计计算 得分越高表示局部点越稀疏)。
- 采样过程:
- 初始化:空采样集P~,距离数组Dpoint 初始化为无穷大。
- 迭代选择:
- 首点选择:语义+分布得分最高的点。
- 后续点选择:基于综合得分d~point=(Sf)λs⋅(Sd)λd⋅Dpoint,选择得分最高的点。
- 更新距离:每次选择新点后,更新其他点到已选点的最小距离。
- 输出:采样点集P~,
接下来就是针对不同车提取到的点簇信息整合到一起
4.3 PCA(Point Cluster Aggregation)
首先根据位姿将协作点簇转到ego车下
4.3.1 点簇的匹配
计算点簇之间中心点的距离,使用一个阈值来决定是否属于同一个物体
4.3.2 点簇合并
对匹配成功的点簇进行信息融合:
- 几何合并:
- 坐标合并:直接拼接所有点坐标 (9)
- 中心更新:取中心均值 (10)
- 特征融合:
- 特征池化:平均池化协作与本地簇特征(11)
- 框参数选择:保留置信度更高的边界框 (12)
4.3.3 后优化
引入了L2层SIR模块,通过预测边界框参数的残差Δres 来提升检测精度:
1. 残差优化目标
2. SIR模块设计
SIR模块在PCA阶段的后优化中进行了针对性改进:
3. 残差优化的优势
相比直接回归边界框参数,残差学习具有以下优势:
- 收敛稳定性:初始框 B¨s 已接近真实框,残差 Δres 的数值范围较小,网络更易优化。
- 抗噪声能力:点云噪声对残差预测的影响小于对绝对值的预测(如直接预测尺寸)。
- 多阶段优化:PCA阶段的框选择(基于置信度)提供可靠初值,残差修正进一步微调。
4. 损失函数设计
4.3.4 IoU损失详细解析
传统的二分类标签(如0或1)无法精确反映预测框的质量,而IoU损失通过软标签(Soft Label)为不同质量的预测框分配连续监督信号,从而更精细地优化模型。
1. 软标签公式的解析
论文中定义软标签中:
- u:预测框与真实框的3D IoU值(范围[0,1])。
- 公式含义:
- 当 u<0.25 时,标签为0(低质量预测,直接抑制)。
- 当 0.25< u< 0.75 时,标签线性增长。
- 当 u>0.75 时,标签为1(高质量预测,鼓励模型输出高置信度)。
2. 交叉熵损失(IoU损失)的实现
论文将IoU软标签视为目标概率,使用交叉熵损失优化预测置信度c^:
- 物理意义:迫使模型预测的置信度 c^ 逼近真实IoU的软标签值。
五、Robustness
5.1 Pose Correction
5.1.1 位姿矫正的触发条件
位姿矫正的触发 不直接依赖簇中心距离是否超过阈值,而是基于以下两种场景:
- 匹配失败率过高:当协作Agent的点簇与Ego的点簇匹配成功率(dq,r<ϵpose的比例)低于预设阈值(如50%),判定为位姿误差过大。
- 跨Agent检测结果冲突:同一物体在不同Agent的检测框(中心、方向)差异显著(如IoU < 0.3),但点簇分布存在潜在一致性。
论文提出一种基于点簇匹配的联合优化方法,直接利用点云的低层几何信息进行位姿矫正,而非依赖检测框。具体步骤如下:
5.1.2 坐标系对齐(粗矫正)
5.1.3 点簇匹配与位姿定义
5.1.4 位姿一致性误差建模
5.1.5 联合优化(细矫正)
5.2 2 Latency Compensation
τj → i ;t:包括处理延时和传输延时
t`:采集数据时刻
t:数据达到ego时刻
通过历史两帧的数据得到物体的瞬时速度,然后根据τj → i ;t得到延迟补偿位移
六、Experiments
6.1 Evaluation Metrics
6.1.1 Nego
以前的方法都是在比较AP的值,但是存在以单个ego agent的检测结果评估性能,未考虑协作参与者的贡献,本文提出基于 ego agent感知到的目标点数(Nego),将场景中的目标分为三类:
类别 | 定义 | 评估目标 |
---|---|---|
SP-O | 目标几乎无法被ego agent单独感知,依赖其他agent提供信息。 | 验证消息打包(压缩)对完整信息的保留能力。 |
SP-E | ego agent独立感知效果更好,其他agent的信息仅作为补充。 | 评估单智能体基线性能,协作增益有限。 |
CP | 目标需多智能体协作才能完整感知(部分信息来自ego,其他信息来自协作方)。 | 验证协作流程的整体有效性。 |
横坐标表示ego车对单个目标感知到的点云数量(Nego)的不同范围,纵坐标是此目标的数量
6.1.2 AP
6.1.3 performance-bandwidth
横坐标是通信量,纵坐标是AP,可以实现在通信量最小的前提下达到最高AP
Where2Comm和V2X-ViT的通信量对AP(Average Precision)影响的差异源于两者的核心设计理念与信息处理机制不同。Where2Comm通过动态信息选择机制,仅传输高信息熵的关键区域特征,并结合注意力驱动的特征补全,确保即使压缩通信量也能保留核心检测信息,因此AP对带宽变化不敏感;而V2X-ViT依赖全局特征传输,其性能直接受特征完整性的制约,通信量增加意味着更多细节(如小目标或遮挡区域的特征)得以保留,通过跨智能体注意力融合后显著提升检测精度,因此AP随通信量增加而明显上升。简言之,Where2Comm通过智能筛选与补偿实现稳定性,而V2X-ViT的性能则与特征完整性强相关。
6.1.4 Heading Error
此图展示了不同方法针对定位噪声的鲁棒性,验证了V2X-PC可以处理大的噪声干扰,而不需要进一步微调和额外的模型参数。
6.1.5 时间延迟
模型对时间延迟的鲁棒性,范围从0到500ms,从图中可以看出V2X-PC在随着延迟的增加,AP也有类似的下降,但V2X-ViT和Where2comm都需要用不同噪声水平的数据进行微调,而我们的V2XPC可以以零点拍摄的方式适应任意的噪声水平。
6.1.6
将目标按ego agent扫描的点云数量分类(SP-O、CP、SP-E),评估了不同协作感知方法在AP@0.7上的性能
6.2 Ablation Studies
6.2.1 Number of Feature Channels in PCE
从表中可以看出特征通道数大幅压缩后性能不下降,原因是公式(3)和(4)中MLP的设计通过显式融合几何信息实现了几何显式编码与位置信息主导的效果
6.2.2 Sampling Point Clusters with Different Ratios and Methods
RPS 随机采样点簇,无筛选策略;FPS 基于几何距离的最远点采样,保留空间分布;SD-FPS 动态结合语义置信度与密度分数筛选关键点簇
-
AP@0.7显著提升:
SD-FPS对比FPS提升的核心原因是:
- 密度筛选保留关键结构:高密度点簇(如车辆中心、行人躯干)包含更多几何细节,提升边界框回归精度(IoU≥0.7)。
- 语义-密度互补性:即使某点簇语义置信度较低(如被遮挡车辆),若其密度高,仍可能被保留,避免漏检。
6.2.3 Features for Object Pose Calculation during Pose Correction
表5中评估了不同特征的AP@0.5/AP@0.7。"点中心 "表示用聚类点的平均坐标表示物体的姿势。"聚类中心 "表示用估计的聚类中心代表物体的姿势。
利用 "点中心 "方法来确定物体的姿势校正,会导致明显的性能下降。由于激光雷达通常对物体进行部分扫描,通过对所有聚类点的坐标进行平均来直接表示一个点聚类,会导致与真实物体中心的明显偏移
当姿态误差(如跨车坐标系对齐偏差)增大时,采用 点中心(Point Center) 方法的AP(Average Precision)反而更高,可能源于其 对粗粒度误差的天然鲁棒性 和 冗余信息的误差补偿能力
6.2.4 Lower Bound for Matching during Latency Compensation
ε_latency 是延迟补偿模块中 运动位移量的筛选下限阈值,用于判定目标是否处于“显著运动状态”
ε_latency = 0或极低:强制对所有目标(包括静止目标)进行延迟补偿,因模型假设冲突导致误差累积,AP显著下降。
6.3 Qualitative Analysis
6.3.1 分别有无协作的定性比较结果
6.3.2 延迟补偿前后的实际比较结果
边界框中的黄色和蓝色的点分别表示来自小我私家车和道路基础设施的集群中心。假阳性结果由白色虚线椭圆突出显示,
6.3.3 姿势校正前后的检测结果
通过对齐所有代理之间的集群,我们可以纠正噪声姿势,并获得高精度的边界框