Text-prompt Camouflaged Instance Segmentation with Graduated Camouflage Learning学习-CSDN博客

本文链接：https://blog.csdn.net/weixin_61585984/article/details/142779250

使用分级伪装学习进行文本提示伪装实例分割

摘要
- 主要贡献：
1. Introduction
2.Relate Work
- 2.1. **伪装实例分割 (Camouflaged Instance Segmentation, CIS)**
- 2.2. **无监督与弱监督实例分割 (Unsupervised and Weakly-Supervised Instance Segmentation)**
3.Method
4.EXPERIMENTS
- 4.1 实现细节 (Implementation Details)

摘要

伪装实例分割（CIS）旨在检测和分割与周围环境混合的对象。虽然现有的 CIS 方法严重依赖于使用大量精确注释数据进行的完全监督训练，但消耗大量注释工作却难以准确分割高度伪装的对象。尽管它们在视觉上与背景相似，但伪装的物体在语义上有所不同。由于与图像相关的文本提供了明确的语义线索来强调这种差异，因此本文提出了一种新颖的方法：第一个基于文本提示的弱监督伪装实例分割方法，名为 TPNet，利用语义区别进行有效分割。 TPNet 分两个阶段运行：伪掩模生成和自训练过程。在第一阶段，使用语言图像模型将文本提示与图像对齐，以获得包含伪装实例的区域建议。语义空间迭代融合模块旨在将空间信息与语义洞察同化，迭代地细化伪掩模。在第二阶段，分级伪装学习是一种自我训练策略，根据伪装级别从简单到复杂的图像进行序列训练，促进有效的学习梯度。通过双阶段的协作，在两个常见基准上提供了全面的实验，并展示了显着的进步，提供了一种新颖的解决方案，弥合了弱监督和高伪装实例分割之间的差距。

主要贡献：

1.提出了TPNet，首个基于文本提示的弱监督伪装实例分割框架，降低了对图像精确标注的需求。
2.设计了自训练策略——渐进伪装学习（Graduated Camouflage Learning, GCL），使模型能够根据不同复杂度的图像进行学习，显著提高了在伪装场景中的准确性和鲁棒性。
3.引入了语义-空间迭代融合模块（SSIF），将语义和空间信息进行有效整合，用于生成更精细的伪装分割结果
在这里插入图片描述

[图 2 TPNet 的概述，由伪装文本提示监督。框架有两个阶段：伪掩模生成和分级伪装学习。在第一阶段，使用 DINO 进行对象检测，使用 GPT 进行提示生成，将文本提示与图像区域对齐以创建伪掩模，并通过 SSIF 迭代细化。在第二阶段，采用分级伪装学习机制来训练基于伪装级别的实例分割模型。]

1. Introduction

主要介绍了伪装实例分割（Camouflaged Instance Segmentation, CIS）的挑战性和研究背景，以下是其主要内容：

伪装实例分割（CIS）是一个非常具有挑战性的任务，要求在高度伪装的情况下，准确地检测和分割物体。伪装物体与背景高度相似，导致它们难以被区分。CIS的研究在多个领域具有重要的应用，如野生动物保护、医学图像分割和工业缺陷检测等。

现有的CIS方法主要基于深度神经网络，尤其是Transformer架构，但这些方法通常依赖于完全监督学习，需要大量的精确标注数据。这种标注过程耗时耗力，且即使在完全监督的情况下，现有方法也很难准确分割出高度伪装的物体。因此，研究弱监督的CIS方法成为了一个重要方向，可以减轻对大量精确标注的需求。

论文提出的一个关键问题是，尽管视觉上与背景极其相似，伪装物体在语义上依然存在差异。借助文本提示（text prompt）可以提供明确的语义线索，帮助区分前景和背景。基于这一观察，论文提出了一种基于文本提示的弱监督伪装实例分割方法——TPNet。这是首次在CIS中引入文本提示，并通过结合语义和空间信息进行伪掩码生成，并通过自训练策略逐步提高模型对复杂伪装物体的分割能力。

TPNet采用了两阶段策略：

伪掩码生成阶段：通过语言-图像模型生成伪掩码，结合语义与空间信息进行迭代优化。
渐进伪装学习阶段：通过自训练策略，先从简单的图像开始训练，再逐渐处理复杂的伪装图像，提升模型的学习能力。
通过该方法，本文展示了在多个基准测试集上的显著性能提升，并证明了文本提示在弱监督CIS任务中的有效性。

2.Relate Work

主要回顾了与伪装实例分割（CIS）和弱监督/无监督实例分割相关的工作。内容分为两部分：

2.1. 伪装实例分割 (Camouflaged Instance Segmentation, CIS)

伪装实例分割近年来逐渐成为一个热门的研究领域，但由于伪装物体与背景的高度相似，这项任务相比普通的实例分割更具挑战性。以下是CIS研究中的一些重要工作：

CIS首次提出：Le 等人在 2021 年首次引入了伪装实例分割任务，并在现有的CAMO数据集上进行了实例级标注，推动了CIS任务的研究
Transformer在CIS中的应用：Pei 等人利用Transformer架构处理CIS问题，通过其强大的全局信息处理能力提升了分割效果
频率分析方法：Luo 等人引入了频率分析方法，用于从伪装物体检测任务中借鉴，使用傅里叶变换进行“去伪装”处理
基于查询的CIS方法：Dong 等人提出了一个基于查询的多任务学习框架，进一步提高了模型的分割性能

尽管这些完全监督的方法在CIS中取得了显著进展，但它们都依赖于耗时的精确标注。尤其是在前景与背景高度相似时，对伪装图像的标注变得更加困难。因此，弱监督和无监督的CIS研究尚未得到足够的探索，而本文的工作则是首次在弱监督的条件下研究伪装实例分割问题。

2.2. 无监督与弱监督实例分割 (Unsupervised and Weakly-Supervised Instance Segmentation)

尽管在CIS任务中还没有探索非完全监督的方法，但在普通的实例分割领域，弱监督和无监督的实例分割已经进行了大量研究。

无监督实例分割：DINO 等方法通过自监督学习获得显著特征，最近的LOST和TokenCut方法使用自监督ViT（视觉Transformer）特征来解决显著物体检测任务，依赖于DINO的patch特征进行图形化处理。
弱监督实例分割：不同类型的监督信号在弱监督分割中得到了广泛应用。例如，部分方法使用框监督（box supervision），通过设计专门的损失函数实现端到端的实例分割；还有一些方法使用点监督（point supervision），通过在边界框的基础上引入随机选择的点来进一步优化最终的分割。

尽管这些无监督和弱监督的方法在普通实例分割任务中取得了不错的成果，但由于伪装物体与背景高度相似，它们在CIS任务中的表现并不理想。

近期，有研究探索了无监督伪装物体检测（COD），取得了显著进展，但这类方法并不能直接应用于CIS任务，因为两者在基本目标和要求上有本质区别。

在本文中，作者首次提出了基于文本提示的伪装实例分割模型TPNet，这种方法不依赖于耗时的像素级标注，而是通过文本提示引导分割。该方法结合了丰富的语义信息来指导伪装实例的分割，克服了传统方法在处理复杂场景时的局限性。

3.Method

是论文的核心，详细介绍了TPNet的框架和关键技术。TPNet是一个基于文本提示（text prompt）的弱监督伪装实例分割框架，包含两个主要阶段：伪掩码生成和渐进伪装学习。以下是该部分的详细介绍：

3.1 概述（Overview）

TPNet框架分为两个阶段：伪掩码生成和渐进伪装学习，通过文本提示和自监督的方式逐步提高模型的分割能力。

在伪掩码生成阶段，给定一张伪装图像和一个特定的文本提示（例如“伪装物体的图片”），模型旨在生成对应的伪掩码。使用DINO模型从图像中检测出伪装区域，并结合预定义的文本提示生成伪掩码。接着，使用语义-空间迭代融合模块（Semantic-Spatial Iterative Fusion, SSIF），将语义和空间信息结合，迭代优化伪掩码。
在渐进伪装学习阶段，通过**伪装测量器（Camouflage Measurer）**对图像的伪装难度进行评估，并根据伪装程度进行分级训练。通过分阶段引入不同伪装程度的图像样本进行训练，使模型逐步掌握复杂伪装物体的分割技巧。

框架的结构图见Figure 2，展示了如何利用DINO进行物体检测、GPT生成文本提示，以及SSIF模块和渐进伪装学习机制的工作流程。

3.2 语义-空间迭代融合（Semantic-Spatial Iterative Fusion, SSIF）

该模块用于生成更精确的伪掩码，通过迭代结合语义信息和空间特征进行优化。SSIF主要由三个组件组成：

1. 语义掩码生成器（Semantic Mask Generator）

语义掩码生成器基于类激活映射（Class Activation Mapping, CAM），用于生成突出图像中感兴趣区域的热力图。在TPNet中，采用GradCAM技术，它通过利用卷积层的特征图和梯度信息，生成更精细的类激活映射。给定单实例内的伪装区域 $R^{ℎ×𝑤×3}$ 和前景类提示 𝑓，我们采用 GradCAM 来区分前景和背景类，可以表示为：
$M_{ij}{se}^{ij} = \text{ReLU}\left(\sum_k w_{k}^{f} A_{ij}^{k}\right) ]$
其中， $w_k^f$ 是前景类的权重， $A_{ij}^k$ 是第k个特征图的激活值，ReLU函数用于保持非负的激活值。

2. 空间掩码生成器（Spatial Mask Generator）

空间掩码生成器使用DINO和归一化切割算法（Normalized Cut, Ncut），空间掩模生成器。我们使用 DINO 和 NCut 来促进空间掩模的生成。 Ncut [36] 是一种基于图的图像分割算法，它利用图的谱分解将图像划分为相似区域。这是通过求解广义特征值系统来找到与第二小的特征值相对应的特征向量 𝑥 来实现的(通过图的谱分解技术生成图像的空间掩码。通过求解特征值问题，生成空间掩码)，公式如下：
$\lambda D x ]$
其中， $(W)$ 是对称矩阵， $D$ 是从 $W$ 推导出的对角矩阵， $x$ 是特征向量。空间掩码根据区域之间的相似性进行分割们使用 $𝑀_{𝑖𝑗}^{sp} = max(0, sign(𝑀_{𝑖𝑗}^{sp}−𝑥)$