【Collaborative Perception - 3】Where2comm（NeurlPS2022）

小雨的杰拉多尼

已于 2022-10-17 16:34:23 修改

阅读量1.4k

点赞数 6

分类专栏： ReadPaper 文章标签：人工智能深度学习计算机视觉

于 2022-10-16 20:29:53 首次发布

本文链接：https://blog.csdn.net/weixin_44649327/article/details/127257151

版权

ReadPaper 专栏收录该内容

5 篇文章 2 订阅

订阅专栏

题目

Where2comm: Communication-Efficient Collaborative Perception via Spatial Confidence Maps
论文地址
 仓库地址

本文强调的内容是在传输数据的时候，要传输那些有用的信息，避免占用宝贵的带宽。（方式是构建 Spatial Confidence Maps）
在这里插入图片描述

0.摘要

协同感知问题存在感知性能和通信带宽之间的基本权衡。

提出了 Spatial Confidence Map，作用是It empowers agents to only share spatially sparse, yet perceptually critical information, contributing to where to communicate.

Where2comm 高效通信的协同感知网络（两个优势）：

采用更加实用的压缩过程，通过关注感知关键区域，使用更少的沟通来实现更高的感知性能。
可以通过动态调整通信涉及的空间区域来处理变化的通信带宽。（之前模型都是固定带宽等）

1. Intro

强调了很重要的观点：之前的所有方法都是默认了一个假设，即当两个agents进行沟通的时候，那就有义务平等的交互交互所有观察到的空间信息。
然而这样的假设就会占用过多不必要的带宽

就像Figure 1中所说的，所有的agents都需要讲到点子上！！！就是说要传输有用的信息。

（画外音：自己看到这的时候就感觉眼前一亮，站到了更高的层次，觉得下边应该会讲述怎么去定义这个有用的信息和搜到有用的信息。）
在这里插入图片描述
spatial-confidence-aware communication strategy：
每一个agents决定where to communicate。即每个agent提供空间稀疏但关键的特征来支持其他agent，同时通过多轮通信向其他agent请求互补的信息，实现高效互利的协作。

三个主要部分：

Spatial confidence generator：生成一个空间置信图来显示感知关键区域
Spatial confidence-aware communication module：新的message packaging方式决定where交流，通过新的沟通图构建决定who交流
Spatial confidence-aware message fusion module：融合从其他agents接收到的所有消息，更新每个agent的特征图。

2. Related work

Based on direct perception supervision, we apply supervised learning to optimize the communication strategy in both trade-off perception ability and communication cost.
In this work, we leverage the proposed spatial confidence map to promote more compact messages, more sparse communication graphs, and more comprehensive fusion, resulting in efficient and effective collaboration.

3. Problem formulation

对于N个agent， $\mathcal{X}_i$ 是agent i 观测到的内容， $\mathcal{P}_{i->j}^{(k)}$ 是在第k轮，agent i 传给agent j的信息。然后通过可训练参数为 $\theta$ 的感知网络 $\Phi_{\theta}$ ，得到的结果与agent i的感知监督 $\mathcal{Y}_i$ （我的理解是GT值）进行 $g (\cdot,\cdot)$ 评估。
在这里插入图片描述
协同感知的目标就是实现所有agent的感知性能的最大化，条件是在总沟通的 $B$ 和沟通轮数 $K$ 下。

4. Where2comm

总共分为五个模块（包含上文所说三个主要部分）

Observation encoder
作用：从传感器数据中提取特征图。
Spatial confidence generator:
作用：生成 spatial confidence map.
Spatial confidence-aware communication module:
作用：基于此spatial confidence map 生成 紧凑的信息和稀疏的通信图 来节省通信带宽。
Spatial confidence-aware message fusion module
作用：利用信息丰富的 spatial confidence priors 来获得更好的聚合
Detection decoder
作用：将特征图变为分类置信度和bbox回归两个目标值。

4.1 Observation encoder

对于输入数据 $\mathcal{X}_i$ ，特征图的输出如下。其中特征图的上标代表是在 communication 之前获取的特征图。

对于二维图像输入：二维输入 —> 编码函数 $\Phi_{enc}$ 提取特征 —> 提取到的特征从front-view 变为 BEV图
对于三维点云输入：三维输入—> 离散化为BEV 图 —> 编码函数 $\Phi_{enc}$ 提取特征

所谓BEV图：即鸟瞰视角。用一个统一的全局坐标，省去了复杂的坐标转换，提供了更好的agent间交互。

4.2 Spatial confidence generator

这部分所生成的空间置信图，是为了展现不同空间区域的感知重要程度的。
比如目标检测任务中，包含物体的区域就比背景更重要（因为其能帮助由于视线遮挡而导致的漏检，而忽视背景区域可以帮助节省带宽。）

重要程度是通过 检测置信图【detection confidence map】 来实现的，检测中包含高置信度的物体即更加感知重要。

feature map —> detection decoder得到detection confidence map —> $\Phi_{generator}$ 得到spatial confidence map

其中 $\mathcal{F}_i^{(k)}$ 是对于第i个agent、第k轮的特征图

通过多次交流轮，来通过聚合其他agent的信息来迭代更新特征图。

4.3 Spatial confidence-aware communication

利用generator模块生成的空间置信图来：

选择特征图中信息最丰富的区域（where to communicate）
选择最beneficial的融合partner（who to communicate）

从两个功能入手：
打包紧凑的消息（通过空间稀疏的特征图） + 传输消息（通过稀疏连接的通信图）

4.3.1 Message packing（信息打包）

打包内容

a request map（哪些区域agent需要再了解一些）
a selected feature map（空间稀疏但却对感知起到关键作用的特征图）

4.3.1.1 request map

对于request map来说，与空间置信图就是负相关的。置信度低就表明在此区域有一些丢失信息（没有物体 / 因为遮挡而丢失，都有可能）

4.3.1.2 selected feature map

a selected feature map $\mathcal{Z}_{i->j}^{(k)}$ 由一个二值选择矩阵和第一步encoder得到的feature map $\mathcal{F}_i^{(k)}$ 做元素级相乘得到。

而这个二值选择矩阵 $M_{i->j}^{(k)}$ ，用来表示是否选择这个区域（1表示选择，否则0）。

矩阵 $M_{i->j}^{(k)}$ 是第k轮i传给j的。利用的是第i个agent自己的spatial confidence map和上一轮第j个agent传来的request map。
在这里插入图片描述 $\odot$ 是元素级的相乘。 $\Phi_{select}(·)$ 是用来选择最关键区域的：在带宽限制条件下，选择最大元素的所在位置（可用高斯滤波：消除outliers + 带入部分上下文信息）。

二者结合对融合有利： $R_i^{(k)}$ 为下一次提供了空间上的先验，请求下一轮在第i个agent上的补充信息。 $\mathcal{Z}_{i->j}^{(k)}$ 为第i个agent提供了这一轮所需的信息。
$\mathcal{Z}_{i->j}^{(k)}$ 是稀疏的，降低communication的损耗
$\mathcal{Z}_{i->j}^{(k)}$ 由 $M_{i->j}^{(k)}$ 决定，为不同感知重要性的空间区域动态分配communication budget。

4.3.2 Communication graph construction（通信图构建）

通信图：决定when and who to communicate
第i和第j个agent沟通的必要性：由第i个agent有的信息和第j个agent需要的信息的overlap来决定。

在第一轮没有其他agent的信息，只能用全连接来把自己的消息广播给所有其他的agents。对于剩下的轮数，看一下agent i 和agent j 的交互是否有必要（只要 $M_{i->j}^{(k)}$ 中有一个元素是被激活的，那么就认为是有必要的。也就是看一下矩阵M的最大值）。用 $A_{i->j}^{(k)}$ 来表示communication graph的邻接矩阵。
在这里插入图片描述
其中h和w是用来索引选取的空间区域的。

4.4 Spatial confidence-aware message fusion

通过聚合从其他代理接收到的消息来增强每个代理的特性。

利用多头注意力机制，在每个空间位置融合来自多个代理的相应特征。
The key technical design is to include the spatial confidence maps of all the agents to promote cross-agent attention learning.
（此处也定义了ego attention weight，也就是对自身的weight。即 $W_{i->i}^{(k)}$ , 其中 $\mathcal{Z}_{i->i}^{(k)}=\mathcal{F}_{i}^{(k)}$ ）

$W_{j->i}^{(k)}$ 代表的是为了融合在第k轮中agent j 发来的特征，agent i 的attention权重。
在这里插入图片描述
其中多头注意力机制输出为scaled dot-product attention weight.
值得注意的是：

spatial confidence map $C_{j}^{(k)}$ 对 attention 的 weight 有贡献，因为其代表了高感知关键区域。
权重使用 $H * W$ 的分辨率，在不同空间区域实现更灵活的信息融合。

下一步：
在这里插入图片描述
$FFN$ 是前馈神经网络的简写， $\mathcal{N}_i$ 是 $A^{(k)}$ 中定义的agent i 的邻居。 $\mathcal{F}_i^{(k+1)}$ 是第k+1轮后融合的feature map。

*Sensor positional encoding

传感器位置编码表示每个 agent 的传感器与其观测到的物体之间的物理距离。该算法采用基于 sensing distance 和特征维数的标准位置编码函数。在输入到 transformer 之前，利用每个位置的位置编码将特征加起来。

4.5 Detection decoder

将特征解码为目标，即类别和bbox回归的输出

其中的维度7代表(c, x, y, h, w, cos α, sin α) class confidence, position, size and angle

4.6 Training details and loss functions

监督的两个任务：spatial confidence generation + object detection
因为spatial confidence map的生成和特征检测中detection decoder的作用类似，因此重用其参数：

其中 $\mathcal{O}_i$ 是agent I的真值，detection loss在《Objects as Points》论文汇总提到。

然后对于多轮的训练任务，采用curriculum learning strategy 的学习策略，来让模型在多种communication环境下更鲁棒。

5. 实验过程

主要分为三类实验：

在 V2X-communication 辅助自动驾驶的设定下，进行了只有二维图像输入的3D物体检测。（数据集：OPV2V）
在无人机群的设定下，进行只有二维图像输入人的3D物体检测。（数据集：CoPerception-UAVs）
激光三维数据输入的3D物体检测（数据集：DAIR-V2X、V2X-Sim dataset）

数据集

OPV2V：vehicle-to-vehicle collaborative perception dataset。它包括12K帧的3D点云和带有230k注释3D框的RGB图像。感知范围是40m×40m。

V2X-Sim：vehicle-to-everything collaborative perception dataset。包括10K帧的3D LiDAR点云和501K的3D boxes。感知范围是64m×64m。

CoPerception-UAVs（Proposed）：作者组织的 a UAV-swarm-based collaborative perception dataset。包括131.9K航拍图像和1.94M 3D boxes。感知范围是200m×350m。

DAIR-V2X：唯一的real-world collaborative perception dataset。每个样本包含两个agents:一个车、一个infrastructure，并带有3D标注。感知范围是201.6m×80m。

数值实验结果

红色曲线是在不同带宽下评估的单一Where2comm模型。在这里插入图片描述
轮数：随着轮数稳步提升，也验证了Where2comm可以很好地在各种通信带宽和轮数上work。

本文遵循V2VNet和vx2-vit中的定位噪声设置(均值为0m，标准差为0m-0.6m的高斯噪声)，并在所有三个数据集上进行实验，验证了对现实定位噪声的鲁棒性。
在这里插入图片描述
原因是:1)融合模块中强大的transformer架构有注意力地选择了最适合的协同特征;2)空间置信度图有助于滤除噪声特征，这两种设计协同工作，减轻噪声定位失真的影响。

可视化结果

这个图很能代表融合的效果，第一个Drone的图像被大楼挡住了，通过第二个Drone给的图像信息，Drone1的检测结果从e图中的丢失信息变到了j图中的能够正常监测到全部的被遮挡目标。
在这里插入图片描述
与其他方法的比较：

两个消融实验

一个是对于选择矩阵之前使用高斯滤波与否的结果对比
一个是在信息融合模块中，各个部分起到的作用大小

6. 总结

主要就是用Spatial confidence map来指导关注哪里的信息，进行传输

Each agent offers spatially sparse, yet perceptually critical features to support other agents; meanwhile, requests complementary information from others in multi-round communication.