RGBD Salient Object Detection via Disentangled Cross-Modal Fusion（2020）阅读学习记录（自用）

苦哈哈小硕

于 2024-05-13 10:43:02 发布

阅读量1k

点赞数 18

分类专栏：显著性文章标签：目标检测学习人工智能

本文链接：https://blog.csdn.net/weixin_45261673/article/details/138791867

版权

显著性专栏收录该内容

5 篇文章

订阅专栏

RGBD Salient Object Detection via Disentangled Cross-Modal Fusion

**
论文链接：https://ieeexplore.ieee.org/abstract/document/9165931

创新：

1.传统的RGBD显著性目标检测的方法侧重于裁剪复杂的跨模态融合拓扑，但过拟合和歧义的情况较多。
2.主要的注意力集中怎么解耦不同的跨模态补充信息，从而简化融合过程以及提高融合的充分性。

背景介绍：

1.当前的困难：光照和背景（与显著性目标相似）
2.利用先验知识构建各种RGBD的描述符号，或者是利用深度神经网络设计更多样的多模态融合模块。
3.手工特征会限制泛化能力，因此使用深度卷积网络去提取特征，早期融合、晚期融合、多尺度融合。
4.融合路径多样化，将中间层和深层跨模态特征分开融合。
5.设计了一种渐进式的融合路径，在每个层次中涉及到跨模态的组合。
6.增加一条自下而上的路径，与自上而下的路径共同作用，补充组合通道。
7.最近的CPFP模型通过密集连接所有跨模态跨层级特征，进一步丰富了融合拓扑结构。
8.尽管跨模态的融合模式取得了成功，但是跨模态的融合过程仍然是黑盒，两个模态如何对任务做出不同的贡献，在什么场景中，什么样的信息是互补的，这些关键问题很少受到关注。
9.当显著性物体与背景环境相似时（学习到的上下文信息可能是无法加以区分的），需要借助上下文信息去进行定位。然而当所有特征都不加以区分的时候，融合模块不值哪些通道是上下文或者内容线索，因此在进行搜索和选择所需要的补充信息是极为繁琐和困难的。
10.为此，我们设计了一个跨模态去纠缠框架来显式地解耦每个模态的表示。在相同的场景中，不同的传感器往往会捕获一些相同的场景结构、目标布局和关系，本文中将其称为结构语境（不可知性更强）。图像的外观、噪音、亮度等我们将其称之为内容空间（更加具体）。上下文空间旨在捕获结构上下文(包括场景布局和对象结构)，其中相当数量的上下文在RGB - depth对中是常见的，而内容空间则是提取模态特定的内容(例如颜色和亮度)。
11.这种跨模态的交换和重构损失迫使结构语境不携带特定模态的暗示，一个可能的困难就是优化器可能会同时驱动两个不同结构的编码器（结构编码器、内容编码器）但是不学习任何有用的特征用于分享。解决方法：添加一个显著性预测损失来强制每个结构编码器从每个模态中学习具有判别性的特征。

提出的方法（模型、架构）：

1.总体架构：从两个模态中分离出相对模态无关的结构表示和模态特有的内容，使得多模态融合能够自适应的包含所需要的特征。

2.所提取到的四个特征进行组合配对，并利用生成器重构原始输入，并与原始图像做Loss，如下是损失函数。对于感知损失，我们只测量重建图像和原始图像之间的高层( Conv4 _ 3和Conv5 _ 3层)特征相似性。其中ψ i表示从VGG16网络的第i层提取的特征。λi R和λ i D是不同层的权重，在我们的实现中它们被等同地设置为1。为了重建原始的输入，这个生成器应具备结构表示和具体的内容信息。通过交换从编码的特征，交叉重构损失将迫使切换表示是模态无关的，从而表达结构上下文。**然而跨模态重建目标的另一个可能的解决方案是，**两个结构上下文编码器都只学习无用的噪声线索，而模态特异性（内容）编码器则携带所有的结构上下文和详细内容。
在这里插入图片描述

为了避免出现上述的错误 1）除了让上下文特征参与重构之外，同时强制它们同时预测显著性目标。 2）定制每个编码器的架构。具体来说，我们使用一个深度CNN (即VGG16 或resnet 50模型)作为结构上下文编码器的主干来提取高层表示。而对于模态特异性内容编码器，我们设计了一个浅层CNN，期望只提取低层模态特异性特征，而难以学习高层表示。这两种策略与跨模态重建损失一起工作，以解开每个模态的表示。