SyncNet：基于Latency-Aware 的V2V协同感知

superbzhoucc

已于 2022-10-17 18:09:24 修改

阅读量1.2k

点赞数

分类专栏：协同感知 # 特征级融合 # 融合考虑通信延迟文章标签：人工智能深度学习机器学习

于 2022-10-13 20:38:04 首次发布

本文链接：https://blog.csdn.net/weixin_43635795/article/details/127293143

版权

协同感知同时被 3 个专栏收录

37 篇文章 33 订阅

订阅专栏

特征级融合

13 篇文章 7 订阅

订阅专栏

融合考虑通信延迟

5 篇文章 2 订阅

订阅专栏

论文标题：Latency-Aware Collaborative Perception
发表期刊/会议：ECCV 2022
开源代码：https://github.com/MediaBrain-SJTU/SyncNet
数据集：V2X-Sim数据集（LiDAR-based V2V scenario）

任务：利用V2V协同感知实现基于LiDAR的 3D 目标检测任务。
挑战：现有的协作感知方法通常考虑到一个理想的通信环境。然而，在实践中，通信系统不可避免地受到延迟问题的影响，导致的性能下降和自动驾驶安全问题。

3 方法

为了减轻不可避免的延迟造成的影响，提出了latency-aware协作感知系统，该系统主动将多个车辆的异步感知特征适应于同一时间戳，促进协作的稳健性和有效性。为了实现这样的特征级同步，提出了一个新的延迟补偿模块SyncNet，其利用了 feature-attention symbiotic estimation和time modulation技术。

3.1 Latency-aware collaborative perception system

所提出的latency-aware协作感知系统采用特征融合方式，由五个部分组成：（假设在一个场景中，有N个车辆在感知环境，车辆之间的协作发生在离散的时间戳，每辆车有一定的采样率。i 是接收车辆，j 是发送车辆）
i) 编码模块：从原始数据中提取感知特征；
在这里插入图片描述

τ_j→i为发送车辆向接收车辆传输数据的延迟时间，其是离散的并随时间变化。
ii) 通信模块：在不同的通信延迟下，各车辆之间传输感知特征，接收车辆从其他合作车辆那里接收感知特征。

iii) 延迟补偿模块：将多个车辆的特征同步到同一时间戳；为了补偿延迟，通过利用发送车辆的历史特征和接收车辆感知到的实时特征来估计发送车辆在当前时刻的特征和两车之间协作注意力权重。
在这里插入图片描述
k是一个超参数，表示每辆车在内存中存储历史特征的帧数。
iv) 融合模块：聚合所有同步的特征（估计的协作信息），产生融合特征；

v) 解码模块：采用融合特征，获得最终感知输出。

3.2 SyncNet：延迟补偿模块

系统的关键组件是延迟补偿模块SyncNet，通过利用历史协作信息来同时估计当前时刻的特征和相应的协作注意力，以实现特征级同步。

SyncNet包括两部分：
1）Feature-attention symbiotic estimation (FASE)，采用两个分支的pyramid LSTM （P-LSTM）特征估计分支获得当前时刻最有信息量的协作特征，attention估计分支找到当前合作中信息量最大的区域，P-LSTM使用前一个时间戳的估计特征图和协作注意力，作为两个分支的下一个时间戳的输入。
2）Time modulation，利用延迟时间在估计的特征与接收的异步特征之间分配时域注意力，以自适应调整协作特征的最终估计。
在这里插入图片描述

3.2.1 FASE

FASE通过特征估计分支和注意力估计分支同时估计特征和其相应的协作注意力。每个分支由P-LSTM组成，它对一系列历史合作信息进行建模并估计当前状态。

P-LSTM：为捕捉协作特征的空间相关性，将LSTM中的矩阵乘法修改为多尺度卷积结构。
P-LSTM和普通的LSTM的主要区别是：LSTM没有专门考虑提取空间特征；conv-LSTM提取单一尺度的空间特征；而拟议的P-LSTM是为了捕捉多个尺度的从局部到整体的特征。
多尺度卷积结构：

参数：延迟时间τ，历史帧数k。（假设t₀为当前时间）
状态初始化：两个P-LSTM分支中的hidden state 和cell state
输入：自车（接收车辆）在当前时刻感知的实时特征、合作车辆（发送车辆）感知的k帧历史特征；（两个分支共享相同的输入）
在这里插入图片描述
，W_j^(t)和F_j^(t)分别表示在 t 时刻从第 j 个车辆到第 i 个车辆的协作注意力权重和特征。e^(t)为t 时刻的P-LSTM 输入，h_F^(t)、c_F^(t)、h_W^(t)和c_W^(t)分别为两个P-LSTM分支中的hidden state 和cell state。

3.2.2 Time modulation

为了解决，当延迟较低时，由延迟引起的性能下降相对于FASE导致的估计噪声要小，提出了Time modulation，基于延迟时间给原始特征（在低延迟时更好）和估计特征（在高延迟时更好）分配一个权重，然后基于这个时域注意力权重将两个特征进行融合，以产生更全面和可靠的估计。

将FASE估计的协作特征/注意力、接收的异步特征/注意力和延迟张量 三者的拼接，分别通过两个具有sigmoid激活函数的轻量级CNN（m_F和m_W），获得每个空间区域的特征估计和协同注意力估计的置信度，以反映各空间区域的估计不确定性水平：

其中，T_F∈R ^H×W×C和T_W∈R^H×W为延迟时间τ∈R的扩展得到的延迟张量，其形状分别与FASE估计的特征和协同注意力权重矩阵相同。
根据置信度矩阵M_F^(t), M_W^(t) ，分别将估计的特征/注意力与原始的异步特征/注意力聚合：

预计当延迟较高时，置信度矩阵会有更高的权重，估计的特征/注意力会对最终的估计有更大的贡献。

3.3 损失函数

设Y_i^(t)为第i个车辆在时间戳 t 的感知输出的GT，H_i^(t)为第i个车辆在时间戳t 汇总实时协作信息后的特征GT，F_i^(t)为第i个车辆在时间戳 t 的特征图GT，W_j→i^(t)为第j个车辆在时间戳t 与第i个车辆之间的协作注意力GT。损失函数为：
在这里插入图片描述
其中，λ表示每个项目的权重，output(-)是最终的感知损失，fusion(-), feature(-), weight(-)分别是融合特征、中间估计特征和估计协作注意力的损失。

4 实验

4.1 数据集

V2X-Sim包括训练集的80个场景和测试集的11个场景。每个样本平均包含2.67个车辆，包括3D点云输入和3D边界框注释。3D点云是由一个具有32个通道和70米最大范围、20Hz旋转频率和5Hz记录频率的激光雷达产生的。为了模拟延迟情况下的协作感知，以异步时间戳加载数据，延迟时间从指数分布中随机产生。

4.2 训练

curriculum learning 策略：模仿人类的学习过程，主张让模型先从容易的样本开始学习，并逐渐进阶到复杂的样本和知识。在计算机视觉和自然语言处理等多种场景下，在提高各种模型的泛化能力和收敛率方面表现出了强大的能力。

为了处理灵活的延迟时间，在各种延迟设置下训练模型，但是，训练损失随着延迟时间的增加而急剧增加，导致训练过程的不稳定和脆弱。为了解决这个问题，采用了 curriculum learning 策略，每10个 epochs逐渐增加1个延迟时间，直到10。之后，用均值为5的指数分布对延迟时间进行随机抽样，进一步升级模型以适应灵活的通信延迟。

总结

针对协同感知中的通信延迟问题，提出了latency-aware协同感知系统，能够在聚合之前同步协作特征，减轻延迟造成的影响，以提高多车感知的性能。
为实现特征级的同步，提出了延迟补偿模块SyncNet，通过利用历史协作信息联合估计当前时刻缺失的中间特征和协作注意力，来缓解延迟的影响。

局限：估计特征和估计注意力的GT、自车特征图GT存在噪声。

superbzhoucc

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SyncNet：基于Latency-Aware 的V2V协同感知

针对协同感知中的通信延迟问题，提出了latency-aware协同感知系统，能够在聚合之前同步协作特征，减轻延迟造成的影响，以提高多车感知的性能。为实现特征级的同步，提出了延迟补偿模块SyncNet，通过利用历史协作信息联合估计当前时刻缺失的中间特征和协作注意力，来缓解延迟的影响。局限：估计特征和估计注意力的GT、自车特征图GT存在噪声。
复制链接

扫一扫