【计算机视觉】Delivering Arbitrary-Modal Semantic Segmentation（多模态语义分割）

重生之我在CUC写代码

已于 2024-01-25 18:11:33 修改

阅读量202

点赞数

文章标签：计算机视觉人工智能深度学习图像处理

于 2023-06-22 17:03:46 首次发布

本文链接：https://blog.csdn.net/weixin_54098256/article/details/131339845

版权

【2023年CVPR论文】
总链接：https://jamycheung.github.io/DELIVER.html
代码链接：https://github.com/jamycheung/DELIVER
论文链接：https://arxiv.org/pdf/2303.01480.pdf

abstract

动机

多模态融合能提高语义分割的鲁棒性
但，融合任意数量的模态有待探索

创新点

提出DELIVER arbitrary-modal segmentation benchmark，包含Depth，LiDAR，multiple Views，Events和RGB
提供四种天气情况的数据集 and五个传感器故障情况
提出任意夸模态分割模型CMNEXT：它包含一个自查询中心（SQ-Hub）which can 从任何模态中提取有效信息，以便后续与RGB表示进行融合
引入Parallel Pooling Mixer（PPX）：它能高效灵活地从辅助模式中获取鉴别线索

实验效果

mIoU达到了66.30%，与单模态基线相比，增加了9.10%

Introduction

背景

发展：模块化传感器爆炸式发展，用于语义分割的多模态融合发展迅速，aim at 强大的场景理解，达到更高的分割精度
痛点：缺少融合多模态的工作，即向任意模态语义分割（AMSS）的趋势

AMSS的两个发现

需要提供多样化的互补信息来提高分割精度
多种传感器的联合使用能有效地改善单个传感器故障的问题，常见的传感器故障（如激光雷达抖动）如下图所示：

本文工作

baseline：CARLA模拟器
Deliver多模态数据集：
- 包含几种模式（depth lidar views events RGB）
- 包含四种极端天气情况
- 包含五种传感器故障形式
CMNEXT分割模型（任意跨模态融合模型）：
- 作用：
  - 克服单个传感器的故障
  - 提高分割的鲁棒性
- 合并了多模态融合范式，即Hub2Fuse范式（如下图c所示）
  - 不依赖于成本高昂的单独分支结构（如下图a所示）
  - 也不依赖于经常丢失有价值的信息的单一联合分时结构（如下如b所示）
- 具有两个分支的非对称架构
  - 一个用于RGB
  - 另一个用于多种补充模式
Self-Query Hub（SQ-Hub）（用于选择信息特征）
- 目的：设计两个分支结构来获取多模态线索（其一）
- 作用：
  - 在Hub2Fuse的hub步骤中从辅助模态中收集有用的互补信息，在与RGB分支融合前，从所有模态源中动态选择信息特征。
  - 便于将其扩展到任意数量的模态，而增加的参数可以忽略不计（每个模态~0.01M）
Parallel Pooling Mixer（PPX）（用于获取识别线索）
- 目的：设计两个分支结构来获取多模态线索（其二）
- 作用：
  - 为了避免系数模式难以处理的问题，利用交叉融合模块，充分利用密集和稀疏模式，将它们与PPX耦合，有效灵活地忽的最有区别性的线索。
实验
- 在6个数据集上取得了最先进的性能

Related Work

语义分割

完全卷积网络引入端到端每像素分类范式中，语义分割取得显著进展
- 范式捕获多尺度特征，附加通道和自我注意块，细化上下文鲜艳，利用边缘检索得到增强
视觉转换器在识别任务中的应用，出现了密集的预测转换器and语义分割转换器，以及掩模分类范式，来处理实物和分割
transformer结构的额发展，基于MLP的、池化的、卷积的块取代注意力。
问题：PGB图像不能提供足够的纹理，如低光照和快速移动的场景。

多模态语义分割

概念：通过从补充模态中获取互补特征，如深度，热量，偏振，事件，lidar和光流来获取互补特征。
已有工作：
- CMX，通过多级跨模态交互处理RGB-X分割
- 附加的多模态融合方法，涉及目标检测，医疗和材料分割以及flow估计
缺点：
- 大多集中在融合互补的线索上，没有充分考虑在某些模态故障的情况下的多模态学习。

CMNeXt: Proposed Framework

为实现任意模态分割，CMNEXT框架通过在Hub2Fuse凡是中使用双分支结构来构建。

CMNeXt Architecture

结构图

在RGB分支中有multi-head自我注意（MHSA）块，在伴随的分支中有我们的并行池混合器（PPX）块。
在hub步骤中，SQ-Hub从补充模式中选择信息性特征。
在融合步骤中，使用特征校流模块（FRM）和特征融合模块（FFM）进行特征融合。
在各个阶段之间，通过添加融合的特征来恢复每个模态的特征。
将四阶段融合的特征转发到分割head进行最终预测。

结构说明

encoder-decoder architecture

encoder是一个双分支和四级编码器

双分支

一个是RGB（对于语义分割必不可少）
另一个是其他模式的次要分支

四级结构（four-stage）

遵循先前的CNN/Transformer模型来提取金字塔特征

预处理

为了模态表示的一致性，我们对激光、雷达和事件数据进行imge-like的预处理。

MHSH模块

逐步处理RGB数据

PPX模块

处理激光，雷达和事件数据

经过four stages处理后，得到

M+1组four-stage特征图 $\boldsymbol{f}_{l}^{m} \in\left\{\boldsymbol{f}_{1}^{m}, \boldsymbol{f}_{2}^{m}, \boldsymbol{f}_{3}^{m}, \boldsymbol{f}_{4}^{m}\right\}, m \in[1, M+1]$
在第lth stage，每个分支的block number是bl∈{4、8、16、32}，步幅为sl∈{4、8、16、32}，通道尺寸为Cl∈{64、128、320、512}。

Hub2Fuse 和 SQ-Hub

在每个stage中，M+1个特征用Hub2Fuse中进行处理
在hub stage中，通过SQ-Hub，M个特征图将被合并在一个特征fq中

融合步骤

在融合步骤中，合并后的特征fq将通过跨模态特征校正模块（FRM）和特征融合模块（FFM）与RGB特征进一步融合，称为f。
这两个模块能够更好地实现多模态特征融合和交互，在RGB与稀疏特征融合时是至关重要的
在stage之间，通过添加融合特征f将分别恢复M+1特征图。

分割预测

encoder后，将四级特征fl∈{f1、f2、f3、f4}转发到decoder中进行分割预测。我们使用MLP解码器作为分割head。

Self-Query Hub

功能：在与RGB特性融合之前选择补充模式的信息特征
计算m个分数掩码Qm：给定M个补充特征
$\left\{\boldsymbol{f}^{m} \mid m \in[1, M], \boldsymbol{f}^{m} \in H \times W \times C\right\}$
采用self query模块计算每个特征fm的信息分数掩码Qm∈H×W，公式如下：
$\begin{aligned} \hat{\boldsymbol{f}}^{m} & =\mathrm{DW}-\operatorname{Conv}_{3 \times 3}(C, C)\left(\boldsymbol{f}^{m}\right), \\ Q^{m} & =\operatorname{Sigmoid}\left(\operatorname{Conv}(C, 1)\left(\hat{\boldsymbol{f}}^{m}\right)\right), \end{aligned}$
- 说明：DW-Conv3×3（Cin，Cout）（·）表示一个内核大小为3×3的Depth-Wise的卷积层
对M个特征{fm|m∈[1，M]}进行交叉模态比较
用最高的分数的{fm|m∈[1，M]}中的patch pm（也就是M个modalities中最有效地patch）填补融合特征图fq中的每个patch pq。公式如下：
$\begin{aligned} \boldsymbol{f}^{q} & =\left\{p^{q} \mid p^{q} \in H \times W\right\} \\ & =\phi\left(\left\{\boldsymbol{f}^{m}+Q^{m} \cdot \hat{\boldsymbol{f}}^{m} \mid m \in[1, M]\right\}\right) \\ & =\phi\left(\left\{p^{m} \mid p^{m} \in H \times W, m \in[1, M]\right\}\right), \end{aligned}$
- 说明： $\phi$ 是一个从{fm+Qm·fˆm|m∈[1，M]}中选择最大pm的操作。
合并后的特征fq被转发到并行池混合器（PPX）

Parallel Pooling Mixer

作用：有效和灵活地从上述SQ-Hub中的任意模态补充中获取鉴别线索。
思路：
- 给定来自SQ-Hub的合并特征图fq∈H×W×C，应用7×7DW-Conv层来聚合局部信息。
- 这三个并行池化层用于捕获多尺度模态特征，它将与剩余的模态特征求和，并通过1×1卷积混合。
- 然后，利用s型函数计算加权的注意力。
公式：
$\begin{array}{l} \hat{\boldsymbol{f}}^{q}=\mathrm{DW}-\operatorname{Conv}_{7 \times 7}(C, C)\left(\boldsymbol{f}^{q}\right) \\ \hat{\boldsymbol{f}}^{q}:=\sum_{k \in\{3,7,11\}} \operatorname{Pool}_{k \times k}\left(\hat{\boldsymbol{f}}^{q}\right)+\hat{\boldsymbol{f}}^{q}, \\ \boldsymbol{w}=\operatorname{Sigmoid}\left(\operatorname{Conv}_{1 \times 1}(C, C)\left(\hat{\boldsymbol{f}}^{q}\right)\right), \\ \boldsymbol{f}^{w}=\boldsymbol{w} \cdot \boldsymbol{f}^{q}+\boldsymbol{f}^{q} \\ \end{array}$
Squeeze-and-Excitation（SE）模块
- 作用：进一步在SQ-Hub的跨模态补充通道中加入更多的空间整体知识。
- 因此，加权特征fw被传递给前馈网络（FFN）和SE模块，以增强信道信息。公式如下：
  $\hat{\boldsymbol{f}}^{w}=\operatorname{FFN}(C, C)\left(\boldsymbol{f}^{w}\right)+\operatorname{SE}\left(\boldsymbol{f}^{w}\right)$
PPX块后，使用FRM&FFM模块[49]将fˆw与RGB特征融合，形成最终融合特征fl∈{f1、f2、f3、f4}
总结：PPX包括两个进展：
- (1)并行池化层，在注意部分有效加权；
- (2)特征混合部分的通道增强。
- PPX块的这两个特征分别有助于突出空间和通道上的跨模态融合特征。

The DELIVER Multimodal Dataset

Sensor settings and modalities

如下图所示，我们努力创建了一个基于CARLA模拟器的大规模多模态分割数据集
提供深度、激光雷达、视图、事件、RGB数据
deliver提供了同一空间视点的六个相互正交的视图（即前、后、左、右、上、下），即，一个完整的数据帧以全景立体图的格式编码。

Adverse conditions and corner cases

提供了两种情况，包括四种环境条件和五种部分传感器故障情况（如上图所示）。
- 对于环境条件，我们考虑多云、有雾、夜间和多雨的天气条件，而不是晴天。环境条件将导致太阳的位置和照明的变化，大气漫反射、降水和阴影的场景，给强大的感知带来挑战。
- 对于传感器故障的情况，我们考虑运动模糊（MB）、过度曝光（OE）、和常见的曝光不足（UE）。