论文
:https://arxiv.org/abs/2407.07520
代码
:https://github.com/IPIC-Lab/IRSAM
点评
这篇文章将SAM用于红外图像目标的识别。
核心创新点是引入边缘和多尺度信息,但其实也是很常见的了。
边缘的提取借鉴的Perona-Malik理论。
摘要
最近的“任意分割模型”(SAM)是自然图像分割领域的一项重大进步,具有强大的零样本性能,适用于各种下游图像分割任务。然而,由于自然图像和红外图像之间存在明显的领域差距,直接利用预训练的 SAM 进行红外小目标检测 (IRSTD) 任务无法获得令人满意的性能。与可见光摄像机不同,热像仪通过捕捉红外辐射来显示物体的温度分布。小目标通常会在物体边界处显示出微妙的温度变化。为了解决这个问题,我们提出了用于 IRSTD 的 IRSAM 模型,该模型改进了 SAM 的编码器-解码器架构,以学习更好的红外小物体特征表示。具体来说,我们设计了一个基于 Perona-Malik 扩散 (PMD) 的块,并将其合并到 SAM 编码器的多个级别中,以帮助它在抑制噪声的同时捕捉基本结构特征。此外,我们设计了一个粒度感知解码器 (GAD),融合来自编码器的多粒度特征,以捕获可能在长距离建模中丢失的结构信息。在 NUAA-SIRST、NUDT-SIRST 和 IRSTD-1K 等公共数据集上进行的大量实验验证了 IRSAM 的设计选择及其相对于代表性最先进方法的显著优势。代码在:https://github.com/IPIC-Lab/IRSAM。
引言
红外小目标检测 (IRSTD) 在各种实际应用中发挥着至关重要的作用,包括交通管理和海上救援。红外成像以独特的方式捕捉热辐射,受大气散射的影响小于可见光。因此,在雾或雨等具有挑战性的可见光条件下,红外图像可提供更丰富的目标信息,使其更适合检测模糊或难以区分的目标,尤其是小目标。因此,几十年来,IRSTD 一直是计算机视觉领域的一个主要焦点。
传统的 IRSTD 方法可分为三类:基于滤波器的方法、基于人类视觉系统 (HVS) 的方法和基于低秩表示的方法。然而,这些方法仅在高对比度或简单背景场景下有效,由于严重依赖超参数调整和手工制作的特征(表示能力有限),在更具挑战性的条件下效果不佳。深度学习的最新进展和 IRSTD 公共数据集的可用性提供了一种新的解决方案。使用深度学习进行 IRSTD 的方法包括生成对抗网络 (GAN)、基于 U-Net 的网络和基于 Transformer 的方法。
尽管这些方法很有前景,但它们的有效性在很大程度上取决于架构的具体设计和训练数据的规模。与自然图像数据集相比,获取此类数据本质上更具挑战性。随着对自然图像领域深度模型的广泛研究以及迁移学习在缓解下游任务训练数据有限的情况下的泛化问题方面的有效性得到证实,一个关键问题出现了:在大规模自然图像数据集上预先训练的精心设计的模型能否有效启动 IRSTD 任务?
任意分割模型 (SAM) 最近引发了人们对计算机视觉图像分割领域的兴趣。该模型建立在基于平面视觉变换器的编码器-解码器架构上,并在世界上最大的分割数据集上进行训练,其强大的零样本分割能力激发了许多将 SAM 应用于各种图像分割任务的研究。
虽然 SAM 显示出了良好的结果,但它们并不适合 IRSTD 问题,并且由于红外图像和自然图像之间的显著差异而面临挑战。(1)红外小目标图像的特点是远距离目标尺寸小,背景噪声和杂波较大,由于信噪比 (SNR) 较低,直接使用 SAM 时很难将目标与背景区分开来。(2)红外成像依赖于物体的热辐射,不同于光学成像。红外图像中物体与背景之间的辐射差异逐渐增大,导致目标边缘模糊。这种模糊边缘使得 SAM 容易将原始间隙分割成目标,尤其是在处理具有复杂结构的目标时,如图 1 所示。为了解决这些问题,我们旨在通过迁移学习推进 IRSTD 的 SAM,特别强调改进其架构以学习更好的红外小物体特征表示。
为此,我们提出了 IRSTD 的 IRSAM 模型。该模型以 SAM 为基础,通过精心设计的模块来改进其编码器和解码器,从而增强其在背景噪声和杂波环境中检测任意红外小物体的能力。具体来说,受图像处理中用于图像去噪和边缘保存的 Perona-Malik 扩散 (PMD) 方程的启发,我们设计了一个基于小波的 Perona-Malik 扩散 (WPMD) 模块,利用小波变换代替 PMD 方程中的梯度项。WPMD 被整合到 SAM 编码器的多个级别中,以帮助它在抑制噪声的同时捕捉必要的结构特征。此外,我们设计了一个粒度感知解码器 (GAD),通过双向转换器融合来自编码器的多粒度特征,以增强各种大小和形状的对象的掩码表示。为了减小模型大小和计算复杂度,我们采用轻量级的 Mobile-SAM 作为基础模型,并集成 WPMD 模块和 GAD 来构建我们的 IRSAM。
本文的贡献可以概括为:
我们首次针对 IRSTD 任务重新设计了通用视觉分割模型 SAM,并引入了 IRSAM。IRSAM 在客观指标和主观评价方面均优于 vanilla SAM 模型和最先进 (SOTA) 方法,在具有挑战性的基准测试中表现出色。
我们设计了一个WPMD模块来增强SAM编码器保留边缘相关特征的能力,同时抑制红外图像中的噪声,有效解决IRSTD任务中的低SNR问题。
我们设计了一个 GAD,通过精心设计的边缘标记融合来自编码器的多粒度特征来重建在捕获长距离依赖性时丢失的目标结构特征,从而有效地增强了各种尺寸和形状的对象的掩码表示。
相关工作
红外目标检测
传统的 IRSTD 方法包括 Top-Hat、Max-Median、WSLCM、TLLCM 、IPI、NRAM、RIPT、PSTNN和 MSLSTIPT,它们基于手工设计的特征,但这些方法都是针对特定场景量身定制的,因此在具有挑战性的情况下很难推广。基于深度学习的方法在 IRSTD 方面取得了显著进展。例如,MDvsFA应用条件生成对抗网络来解决 IRSTD 问题,来实现漏检和误检之间的权衡。基于 ACMNet的模型引入了一种采用非对称上下文调制的新型特征融合方法,而 UIUNet则集成了多个嵌套的 U-Net 网络。此外,Zhang 等人提出了一种基于 Transformer 的 IRSTD 方法,即带有随机连接注意机制的 RKformer。Zhang 等人考虑到形状特征,设计了一个受 Taylor 有限差分启发的边缘块,开发了 ISNet。为了提高信噪比,Zhang 等人从图像增强和超分辨率重建的角度设计了 Dim2Clear。为了探索轻量级网络架构,Zhang 等人首次尝试通过网络剪枝提出一种专为 IRSTD 任务量身定制的 IRPruneDet 模型。虽然这些方法已经显示出有希望的结果,但它们通常需要大规模标记数据进行训练。与自然图像数据集相比,获取此类数据本质上更具挑战性。最近,Li 等人 和 Ying 等人 最近为 IRSTD 引入了一种经济高效的弱监督方法,利用单点监督来降低注释费用。在本文中,我们从不同的角度应对这一挑战。鉴于对自然图像领域深度模型的广泛研究以及迁移学习在缓解下游任务训练数据有限的情况下的泛化问题方面已被证明的有效性,我们建议利用在大规模自然图像数据集上预训练的基础分割模型来完成 IRSTD 任务。
SAM
Transformer在计算机视觉任务中得到了广泛的应用,在各个领域都取得了有竞争力的成果。SAM 是一种基于 Transformer 的模型,专为语义分割而定制,它允许用户使用提示在任何图像中分割对象。随后,一些研究人员对 SAM 的结构进行了微调,以提高其在阴影检测和医学图像检测等复杂任务上的性能。为了降低 SAM 的计算复杂度,已经提出了 Mobile SAM 和 Fast SAM等轻量级变体。已经进行了一些尝试来增强 SAM 的解码器,以在具有挑战性的条件下改善分割效果。然而,这些方法仍然依赖提示来指导分割过程,限制了它们在 IRSTD 任务中的适用性和效率。此外,自然图像和红外图像之间固有的领域差距阻碍了 SAM 在 IRSTD 中的表现。为了应对这一挑战,我们引入了 IRSAM 模型,增强了 SAM 的编码器-解码器架构,以捕获小型红外物体的更有效的特征表示,同时利用其预先训练的知识进行分割。。
Diffusion Equation for Image Processing
非线性扩散方程解决了各向异性扩散问题,已用于根据梯度或曲率等局部图像特征调整扩散系数,以在消除噪声的同时保留边缘和纹理信息。PMD 方程引入了基于梯度的扩散系数函数,用于图像去噪和边缘保存。陈等人 将 PMD 应用于医学图像去噪,通过选择合适的扩散系数函数和参数来增强对比度和信噪比。郭等人使用可变指数函数空间设计了一种自适应 PMD。张等人提出了一种在 SAR 光学神经网络中实现的 PMD 神经模块,以减少 SAR 图像中的斑点噪声。然而,直接将 PMD 集成到神经网络中存在挑战,包括边界模糊和对噪声干扰的鲁棒性降低。在这项工作中,我们通过将小波变换的高频分量作为 PMD 方程中的图像差分来开发 WPMD 模块,旨在保留结构信息同时减轻噪声影响。
方法
整体结构
图 2 展示了所提出的 IRSAM 的整体架构,它采用了编码器-解码器结构。IRSAM 的编码器由预训练的 ViT-Tiny 主干和 WPMD 块组成。ViT-Tiny 在每一层聚合 WPMD 提取的边缘特征。对于解码器,与原始 SAM 解码器架构不同,我们融合了来自编码器的不同粒度的特征,并使用输出标记与图像特征进行交互并生成最终的高质量目标掩码。

Wavelet transform-based PMD Block
Perona-Malik 扩散方程主要应用于图像处理,其各向异性扩散的特性使得它能够在较平滑的区域促进扩散(平滑),同时抑制边缘处的扩散,从而达到改善图像质量、增强图像结构、抑制噪声的效果。红外图像经常受到噪声的破坏,并且物体边界模糊,这对将 SAM 转移到 IRSTD 任务带来了很大的挑战。因此,我们建议探索 PMD,以在此传输过程中同时保留必要的结构信息并消除噪音。我们建议不使用卷积运算符,而是使用小波变换的高频分量作为 PMD 方程中的图像微分。因此,WPMD 的输出将是输入的更平滑版本,在消除噪音的同时保留必要的结构信息。给定一张图片,其对应的 PMD 方程为
这里扩散系数。 是用于控制扩散程度的正常数。t代表步数。从公式1可以看出平滑区域的梯度幅值较小,扩散系数较大。因此扩散较强,有效去除噪声;在边缘部分,梯度幅值|∇u|较大,扩散系数g(|∇u|)较小,因此扩散较弱,保留了边缘信息。公式一可以进一步的被表达为:
另一方面,图像的二维小波变换可以表示为,
其中 F (·) 表示滤波操作。L 和 H 分别代表低通和高通。基于 Wavelet frame shrinkage, nonlinear evolution pdes, and beyond文章 中讨论的用小波框架 FLH (·) 和 FHL(·) 近似微分方程 或 的概念,并将扩散步长 △t 设置为 1,我们可以将方程 (2) 转换为离散格式. 。如图3所示,在扩散过程之后,我们使用卷积层将获得的结构特征映射到与各层编码器特征相同的维度。通过在不同层将多个WPMD模块合并到SAM编码器中,SAM编码器在保留红外图像结构特征的同时增强了其抑制噪声的能力,从而有效地解决了IRSTD任务中信噪比低和目标边缘模糊的问题。

Granularity-Aware Decoder
小型红外目标通常视觉特征有限,容易与背景或类似目标混淆。为了提高红外小目标分割的性能,既需要考虑全局上下文信息,有助于提取图像的整体语义,增强小目标的检测能力,也需要考虑局部边界信息,有助于保留小目标的空间细节,提高分割边界的精度。SAM 采用 ViT 架构,擅长捕捉长期依赖性和全局信息。先前的研究已证明 ViT 结构的早期层可以保留更一般的图像边界细节,而深层则包含更高级的语义。为了提高 SAM 在 IRSTD 任务中的表现,我们设计了粒度感知解码器(Granularity-Aware Decoder,GAD)来融合多粒度特征。通过将全局语义上下文和局部细粒度特征输入解码器,GAD 拥有更丰富的多视图知识,如图 2 所示。
首先,我们对图像嵌入进行双向交叉注意 来自编码器和输出标记包含掩码Token和全新设计的边缘Token。例如图像到标记交叉注意力和标记到图像交叉注意力
交叉注意力更新后的 整合了全局图像上下文以及其他 token 的信息,边缘 token像掩码token 一样在解码器中可学习且随机初始化。然后,我们对 进行上采样,并将其与多粒度特征 融合,以获得精细的图像特征:
这里, 表示转置卷积,用于匹配 和 的大小。 的获取方式如下:
其中 和 分别表示编码器浅层(即第一层)和深层(即第四层)的特征。Conv、Norm 和 ReLU 分别代表卷积、层归一化和 ReLU 激活函数。
最后,我们使用多层感知器(MLPs)根据更新的令牌生成动态卷积核,并将其应用于 和上采样后的 ,通过哈达玛积来获得高质量的边缘预测和掩膜预测。这个过程可以表达为:
其中⊙代表点积。最后利用得到的边缘来改善掩模的形状和大小。通过上述过程,提出的GAD在解码器中实现了多粒度特征的融合,将全局上下文和局部边界信息融入token中,最终得到高质量的红外小目标掩模。
Loss Functions
损失函数采用的是Dice Loss和BCE Loss。总的损失表示如下:
其中 λ 是平衡两个损失的超参数,根据经验设置为 10。
实验
实验细节
数据集。我们在三个数据集上进行实验,包括 NUAA-SIRST、IRSTD-1k 和 NUDT-SIRST。它们分别包含 427 张和 1,000 张具有一个或多个小目标的真实红外图像,而 NUDTSIRST 由 1,327 张小目标的合成红外图像组成。数据集中的所有图像均调整为 512×512。对于每个数据集,我们分别使用 50% 的图像作为训练集、30% 作为验证集和 20% 作为测试集。
评估指标。我们使用像素级指标(例如并集交集 (IoU) 和归一化并集交集 (nIoU)和对象级指标(包括检测概率 (Pd) 和误报率 (Fa))将提出的 IRSAM 与 SOTA 方法进行比较。
实施细节。我们采用学习率为 0.0001 的 AdamW 优化器和余弦衰减学习率调度器来训练我们的 IRSAM。该模型训练了 500 个 epoch,批量大小为 4。实验在单个 Nvidia GeForce 4090 GPU 上进行。为了进行比较,我们选择了基于 CNN 的 IRSTD 方法:ISNet、UIUNet、DNANet、Dim2Clear、ALCNet、ACMNet 和 MDvsFA,并选择了传统方法:Top-Hat、Max-Median、WSLCM、TLLCM、IPI、NRAM、RIPT、PSTNN 和 MSLSTIPT。
量化结果

如表 1 所示,传统的手工特征方法在处理具有挑战性的场景时能力有限,因此与基于 CNN 的方法相比,其性能明显较差。然而,基于 CNN 的方法在检测小目标方面表现出局限性,导致 IoU 和 nIoU 较低的 mask 预测不准确。此外,在背景噪声存在的情况下,它们学习判别性目标表示的效率会受到影响,导致检测效率低下或漏检。在 NUAA-SIRST、IRSTD-1k 和 NUDT-SIRST 数据集上,所提出的 IRSAM 在所有的评估指标上都优于 SOTA 方法。结果表明,IRSAM 可以有效地提取目标的结构信息,这归功于所提出的 WPMD 和 GAD,它们提高了 IRSTD 的 vanilla SAM 架构的学习能力以及 SAM 强大的通用分割能力。
我们还绘制了不同方法在 NUAASIRST 上的结果的 ROC 曲线,如图 6 所示。结果清楚地表明,我们的 IRSAM 比其他方法的表现好很多。提出的 IRSAM 的 ROC 曲线下面积 (AUC) 明显大于传统方法和基于 CNN 的方法。
如表 2 所示,我们将 IRSAM 与几种使用不同 Transformer 主干和 MetaAI 权重的 SAM 模型进行了比较。SAM 模型通过微调解码器或在编码器上应用 LoRA 来适应 IRSTD 任务,同时保持原始编码器参数不变,因为完全微调的计算成本过高。值得注意的是,我们的 IRSAM 仅采用轻量级 ViT-Tiny 主干,提供更高的计算效率。IRSAM 在所有指标上都优于其他 SAM 模型。此外,与其他微调方法相比,我们的 WPMD 方法展示了 SAM 在 IRSTD 任务中的卓越应用,验证了所提出的模块在将训练有素的分割模型从大规模自然图像数据集转移到 IRSTD 方面的有效性。
可视化结果

在图 4 中,我们展示了 IRSAM 和其他 IRSTD 方法的一些检测结果。如第一张包含飞机的测试图像所示,大多数传统方法和基于 CNN 的方法都存在误检现象,无法正确分割目标。相比之下,所提出的 IRSAM 不仅准确地分割了目标,而且在分割机翼和飞机主体之间的间隙方面也优于其他方法,表明所提出的方法具有良好的复杂形状目标分割能力。此外,从第 3 张和第 5 张测试图像可以看出,我们的方法可以成功分割两个相邻的物体,而其他方法可能会失败。此外,第 6 张图的结果表明,我们的方法可以对细长的物体做出更现实的预测。我们将 IRSAM 在上述场景中的出色表现归功于所提出的 WPMD 块,它可以在抑制噪声的同时有效地保留目标的结构信息。此外,从所有给定的测试图像可以看出,IRSAM 预测的掩模在形状和完整性方面都比其他方法更接近地面实况,验证了在解码器中引入多粒度特征以获得更高质量预测的想法。此外,我们在图 5 中展示了预测结果的 3D 视图。所提出的 IRSAM 在分割彼此靠近的多个对象方面表现良好。

消融实验
Impact of WPMD and GAD
如表 3 所示,我们进行了消融研究以验证 WPMD 和 GAD 在 NUAA 数据集上的有效性。对于没有 WPMD 的 IRSAM,我们在编码器中使用 ViT-Tiny 主干进行特征提取。删除 WPMD 会显著降低 IoU 和 nIoU 分数,表明模型处理目标边缘的能力下降。Pd 保持稳定,而 Fa 增加很多。对于没有 GAD 的 IRSAM,我们采用 SAM 的原始解码器。删除 GAD 会降低 IoU 和 nIoU 分数,验证了在解码器中集成多粒度特征以增强分割性能的有效性。此外,没有 WPMD 和 GAD 的 Mobile-SAM 基线(第一行)在所有指标上的表现都比提出的 IRSAM 差。
Impact of the Number of WPMD Modules

我们还进行了消融实验来研究在编码器中使用不同数量WPMD模块的效果。从表4可以看出,当WPMD特征块的数量为4时,性能优于其他。通过研究不同数量WPMD获得的特征图也可以验证这一结论。如图7所示,当WPMD块的数量为4时,得到的特征图中的目标特征明显强于其他特征。此外,如图8所示,使用WPMD有效地保留了内部细节并消除了噪音,这是拉普拉斯算子或Sobel算子无法比拟的效果。这种比较进一步证明了我们的方法在保留基本结构信息方面的有效性。

Impact of design choice of GAD
我们还进行了消融实验,以研究编码器层信息对 GAD 的影响。如表 5 所示,当 GAD 同时利用浅层和深层特征时,其表现优于其他选项。这表明 GAD 通过提供全局语义上下文和局部细粒度特征,从更丰富的多视图理解中受益,从而显著提高性能。
结论
本文介绍了 IRSAM,一种用于 IRSTD 任务的新方法。IRSAM 利用在大量自然图像上训练的 SAM 基础模型的通用分割能力,通过两个专门设计的模块(WPMD 和 GAD)增强了 IRSTD 的性能。WPMD 改进了编码器的边缘特征提取,而 GAD 在解码器中集成了多粒度特征以增强形状表示。在 NUAA-SIRST、IRSTD-1k 和 NUDT-SIRST 等公共数据集上的实验结果表明,IRSAM 在客观指标和主观评价方面均优于最先进的方法。