显著性：Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection

最新推荐文章于 2024-09-17 16:52:57 发布

苦哈哈小硕

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量906

点赞数 34

分类专栏：显著性文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_45261673/article/details/139686001

版权

显著性专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章地址：Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection | Proceedings of the 31st ACM International Conference on Multimedia

摘要（主要贡献）：

1.CNNs在建模自模态和跨模态的全局长程依赖方面仍然存在不足，因此提出了CNNs辅助Transformer的架构，并提出了一种新颖的RGBD SOD网络，具有点感知交互和CNN诱导细化( PICR-Net )。

2.考虑到RGB模态和深度模态之间的先验相关性，设计了注意力触发的跨模态点感知交互( CmPI )模块，以探索具有位置约束的不同模态的特征交互。

3.另一方面，为了自然地缓解Transformer带来的块效应和细节破坏问题，我们设计了CNN诱导求精( CNN-induced Refinement，CNNR )单元进行内容求精和补充。

引言：

1.卷积的感受野是局限卷积对全局进行感知的一个重要的因素，而Transformer在全局的感知上具有极大的优势。

2.现在的模型结构大概分为三种：纯卷积（代表作：MVSalNet更加突出边缘信息）、纯transformer（代表作：VST更易捕获长程依赖但是会引入许多噪声）、transformer辅助的CNNs（代表作：TriTransNet中解码器的卷积操作可能会稀释由Transformer得到的全局信息，极有可能导致漏检和误检）。

3.设计CNNR对两种网络的特性进行结合，获得全局信息和局部的细节信息。

4.交叉注意力模块：在Tr的背景下这是一个常用的策略。直接用于RGBD任务存在两个难点：1.RGB图像和深度图像只在对应位置的特征上有一定的相关性，因此在进行注意力交叉的时候具有一定的盲目性和冗余性。2.计算复杂度与尺寸的大小成正比，难以区分一体化计算是否会带来冗余的计算量。针对上述问题：提出了“cross-modality pointaware interaction (CmPI) module” 对不同模态对应点特征进行分组从而简化跨模态交互。同时引入全局显著性引导向量去强化全局性的约束，在进行模态的交互时也使得模态融合更加充分。

方法：

1.跨模态交互融合模块（Point-aware Interaction Module）：往常的方法通常是对两个模态的所有位置之间的关系都进行建模，但是两个模态之间的位置是存在一定的对应关系。提出了当前模块，其核心是用多头注意力来探索不同模态之间特征的交互关系。它们处于不同的尺度和来自不同的模态，强迫相互作用可能会产生负面影响。因此，我们在注意力操作中引入一个精心设计的掩码来抑制这种消极的交互。另一方面，在特征组内进行注意力交互后，全局向量由其他跨模态的全局向量以及自模态的局部向量进行更新。

2.细化单元（“CNN-induced Refinement Unit” ）：使得计算量和参数量更加合理，同时这个步骤中主要的目的是内容细化因此无需引入CNNs的完整网络架构只需要VGG16前面两层去提取丰富的纹理细节特征即可

解码阶段：

在每个解码阶段，首先通过CmPI模块对不同模态相同位置处的交互关系进行建模，得到跨模态表示。此后，我们使用基于Swin - Transformer的解码模块从全局角度建模解码过程中跨模态特征的长距离依赖关系。具体来说，由CmPI模块生成的跨模态特征fi rd和上一解码阶段(如果有)的上采样输出特征fi + 1↑解码器被送入两个级联的Swin - Transformer块来建模全局关系：

式中：cat表示特征维度上的级联操作，Linear为线性层，ST表示两个Swin - Transformer块，Exp表示将特征转换回空间分辨率的操作。最后，在解码器的最后，提出了一种可插拔的CNNR单元，以较低的代价解决Transformer架构下的块效应和细节破坏问题，并生成最终的显著图Sout。