面向开放词汇的遥感图像语义分割
摘要
近年来,基于深度学习的方法彻底改变了遥感图像分割。然而,这些方法通常依赖于预定义的语义类别集,因此在适应新类别时需要额外的图像标注和模型训练。更重要的是,它们无法分割任意语义类别。在本工作中,我们引入了开放词汇遥感图像语义分割(OVRSISS),旨在分割遥感图像中的任意语义类别。为了解决OVRSISS数据集的缺乏,我们开发了LandDiscover50K,这是一个包含51,846张图像、涵盖40个多样化语义类别的综合性数据集。此外,我们提出了一个名为GSNet的新型框架,该框架整合了特定遥感模型的领域先验和通用视觉语言模型的多功能能力。技术上,GSNet包括双流图像编码器(DSIE)、查询引导特征融合(QGFF)和残差信息保留解码器(RIPD)。DSIE首先在双流中捕获来自特定模型和通用模型的全面特征。然后,在可变词汇表的引导下,QGFF整合专家和通用特征,使它们能够相互补充。最后,RIPD被提出用于聚合多源特征,以便更准确地预测掩码。实验表明,我们的方法大幅优于其他方法,我们提出的LandDiscover50K提高了OVRSISS方法的性能。我们将在https://github.com/yecy749/GSNet上公开提供所提出的数据集和方法。
引言
遥感图像分析旨在处理和解释遥感图像,以提供对自然环境和人类活动的见解。它作为一项关键技术,有助于改善人类福祉。作为核心方法之一,遥感图像语义分割(RSISS)有助于各种实际应用,包括提高农业产量(FAO 2018)、减轻自然灾害(Van Westen 2000)和管理土地覆盖变化(Yan, Wan, and Zhang 2022; Yan et al. 2023)。最近,深度学习通过启用自动分割方法彻底改变了RSISS。凭借不同网络的优势,研究人员利用全卷积网络(FCN)(Long, Shelhamer, and Darrell 2015)、U-Net(Ronneberger, Fischer, and Brox 2015)和视觉变换器(ViT)(Dosovitskiy et al. 2020)来提高RSISS性能。此外,对部分监督RSISS方法的兴趣日益增加,例如少样本方法(Jiang, Zhou, and Li 2022)、弱监督方法(Hua et al. 2021)和半监督方法(Li et al. 2021)。然而,现有的RSSIS方法无法分割任意语义类别,因为它们在预定义的类别集上进行训练和测试。
随着RSI技术的进步,数据标注的过度负担突显了对能够适应多样化自然环境的通用模型的需求。与自然图像不同,RSI由于其高分辨率和固有的语义模糊性(Yao et al. 2016),往往会产生更高的标注成本。然而,现有的RSSIS方法通常在预定义的类别集上使用标注数据进行训练和测试,如图1(a)、(b)和(c)所示。考虑到泛化的需求,上述缺陷变得更加显著。事实上,当前的RSISS方法不仅无法分割预定义类别集之外的类别,而且在不同领域之间也难以泛化。此外,在需要快速响应的场景中,例如自然灾害,通用模型在RSISS中的重要性被进一步放大,因为没有足够的时间进行广泛的数据标注和模型训练。更具体地说,由于遥感数据的时空变化,RSI中存在较大的领域差距。存在如此大的领域差距时,如果模型只能在特定条件下进行准确的RSISS,则其效用将受到严重限制。因此,我们提出了开放词汇表遥感图像语义分割(OVRSISS)来应对这些挑战。
OVRSISS旨在分割遥感图像中的任意语义类别。不受预定义类别集的限制,OVRSISS允许用户根据需要灵活切换所需的类别集。因此,OVRSISS不仅降低了成本,而且能够在关键情况下更快地响应。我们在图1中展示了OVRSISS与现有RSISS学习范式之间的比较。据我们所知,这是首次研究OVRSISS的挑战。认识到缺乏专门设计用于OVRSISS的数据集,我们开发了LandDiscover50K,该数据集包含51,846张遥感图像,涵盖40个不同类别。与该数据集一起,我们制定了一个全面的基准,以便对OVRSISS方法进行稳健评估。对于OVRSISS方法,有两种直观的方法。
-
首先,可以在LandDiscover50K上训练现有的开放词汇表自然图像语义分割(OVNISS)方法。然而,由于缺乏针对RSI领域的定制设计,这类方法存在显著的性能限制。
-
其次,可以通过将通用CLIP(Radford et al. 2021)替换为特定领域的RemoteCLIP(Liu et al. 2024a)来增强现有的OVNISS方法以适应RSI领域。然而,由于RemoteCLIP的泛化能力有限,观察到性能下降。这两种失败都突显了在平衡特定领域的知识与泛化能力方面的挑战。
因此,如何有效地整合RSI特定领域的先验知识,同时保持强大的泛化能力仍然是一个未解决的问题。为了解决上述挑战,我们提出了GSNet,这是一个专门针对有效整合RSI特定领域先验知识与通用CLIP的新型框架。它采用双流图像编码器(DSIE),同时从RSI主干中提取RSI特定领域的特征,并与CLIP并行提取通用特征。进一步引入查询引导特征融合(QGFF),以整合RSI特定特征和通用特征,使它们能够在可变词汇表的引导下相互补充。我们还设计了残差信息保留解码器(RIPD),以聚合多源特征,以便更准确地预测掩码。
总结
我们的贡献如下:
- 我们提出了开放词汇表遥感图像语义分割,并提出了一个名为LandDiscover50K的定制数据集。
- 我们提出了一个名为GSNet的新型框架,用于OVRSISS,首先通过DSIE提取通用和特定领域的特征,然后通过QGFF进行多源特征融合,最后通过RIPD进行信息保留和细节细化。
- 我们进行了广泛的实验,以证明我们的GSNet大幅优于其他最先进的OVNISS方法,并且我们的LandDiscover50K显著提高了OVRSISS方法的性能。
相关工作
遥感图像语义分割
现有的RSISS方法大多关注在某些基准上评估的封闭集性能。例如LoveDA(Wang et al. 2021)、iSAID(Waqas Zamir et al. 2019)等数据集的提出,使得模型能够进行稳健的训练和评估。基于这些数据集,FarSeg(Zheng et al. 2020)和AerialFormer(Yamazaki et al. 2023)等研究成功地将U-Net和ViT扩展到RSISS,提升了在这些数据集上的性能。最近,一些工作开始关注RSI领域的数据稀缺问题。例如,Li et al.(Li et al. 2021)研究了半监督RSISS,采用一致性自训练方法。Jiang et al.(Jiang, Zhou, and Li 2022)利用基于原型的语义匹配和非参数度量学习损失来解决少样本RSISS问题。Hua et al.(Hua et al. 2021)提出了特征和空间关系正则化,以提升弱监督RSISS的性能。Zhu et al.(Zhu et al. 2023)研究了RSISS中的通用领域适应性,通过对抗学习解决领域分布差异问题。然而,这些方法都无法分割任意类别。关于RSISS数据集,我们建议读者参考表1以获取更多详细信息。据我们所知,目前尚无专门针对OVRSISS的现成数据集。除了最近提出的FLAIR(Garioud et al. 2024)和SAMRS,大多数现有数据集对于OVRSISS来说太小了。对于FLAIR,它仅标注了常规土地覆盖类型,忽略了小目标,这使得其难以顺利适应OVRSISS设置。SAMRS(Wang et al. 2024)成功地将几个大规模边界框标注的RSI目标检测数据集改编为像素级标注的RSISS数据集。然而,它在土地覆盖分割任务上的泛化能力有限,而土地覆盖分割任务在RSI分析的多个应用中被广泛使用。
开放词汇表自然图像语义分割
OVNISS旨在无需为每个可能的类别提供明确的训练示例即可分割任意语义类别。最近,随着大规模预训练视觉语言模型(VLM)如CLIP的出现,OVNISS的性能得到了显著提升。在OVNISS中,主要有两种方法,即单阶段方法和两阶段方法。对于单阶段方法,LSeg(Li et al. 2022)利用CLIP的patch嵌入,结合CLIP的文本嵌入来建立patch和文本之间的相关性。SAN(Xu et al. 2023)引入了一个额外的主干,与冻结的CLIP一起,直接生成并分类区域提议。CATSEG(Cho et al. 2024)计算图像和文本嵌入之间的patch级成本体积图,并细化成本体积图以获得最终预测。此外,SED(Xie et al. 2024)通过引入分层编码器-解码器框架来提升性能。对于两阶段方法,OpenSeg(Ghiasi et al. 2022)将OVNISS任务分解为类别无关提议生成和提议分类。OVSeg(Liang et al. 2023)通过使用mask适应的图像-文本对来细化CLIP,以便更好地对mask提议进行分类。SCAN(Liu et al. 2024b)将CLIP的通用语义先验整合到提议嵌入中,以防止在已知类别上崩溃,并应用上下文偏移策略来解决全局上下文差距问题。
LandDiscover50K数据集
为了解决OVRSISS领域中缺乏通用数据集的问题,我们提出了LandDiscover50K。该数据集旨在克服现有RSISS数据集中的一些限制。LandDiscover50K包含51,846张精心挑选的高分辨率遥感图像,涵盖40个目标类别。同时,LandDiscover50K通过整合不同的传感器、分辨率、类别变化和地面采样距离,解决了RSI语义分割中的领域偏移问题。此外,LandDiscover50K可以通过整合细粒度小目标数据集和大规模土地覆盖数据集来增强模型的鲁棒性和泛化能力。
数据获取与标注
为了构建LandDiscover50K数据集,我们从提供像素级标注的现有RSISS数据集中收集图像。这些数据集包括Open Earth Map(OEM)(Xia et al. 2023)、LoveDA(Wang et al. 2021)、Deep Globe Land Cover(Demir et al. 2018)、SIOR(Wang et al. 2024)和SOTA(Wang et al. 2024),详细信息见表1。LandDiscover50K包含51,846对图像-标注,涵盖40个不同类别,这些类别来自DOTA(Xia et al. 2018)、DIOR(Li et al. 2020)、xBD(Gupta et al. 2019)、Inria(Maggiori et al. 2017)、OpenCities AI(Open Cities AI Challenge)、SpaceNet(Van Etten, Lindenbaum, and Bacastow 2018)、LandCover.ai(Boguszewski et al. 2021)、AIRS(Chen et al. 2019)、GeoNRW(Baier et al. 2021)和HTCD(Shao et al. 2021)等。为了确保全面评估、公平比较和标准化预处理,我们选择仅使用RGB模态,这种模态广泛可用,并且符合开放词汇表任务的需求。对于标注,我们的方法强调多样性和规模。我们合并了相同的类别,并保留了独特的细粒度类别。此外,我们将通用的“背景”标签整合为一个“未标注”类别,以减少由于源数据集目的不同而引入的语义偏差导致的过拟合风险。
统计与分析
如图2所示,LandDiscover50K数据集涵盖了从广阔的土地覆盖到显著目标的多样化语义类别。这种多样性对于模拟真实世界遥感任务中的固有变化至关重要。此外,LandDiscover50K在图像内为段提供了平衡的空间覆盖,有助于稳健的模型训练并减少位置偏差。关于LandDiscover50K属性的可视化详细信息,请参阅补充材料。
我们的方法
在本节中,我们将介绍用于开放词汇遥感图像语义分割(OVRSISS)的通用与专家网络(GSNet)。GSNet的整体架构如图3所示。它采用双流图像编码器(DSIE),集成了特定领域的遥感专家图像编码器和基于CLIP的图像文本对齐图像编码器。DSIE生成两种互补的特征图,然后使用查询引导特征融合(QGFF)对其进行协调,以利用通用和特定领域的优势。融合后的特征再通过残差信息保留解码器(RIPD)进行去噪和上采样,确保保留来自专家流和通用流的关键信息,从而生成最终的分割结果。接下来,我们将详细介绍GSNet的设计。
双流图像编码器
直接将CLIP应用于遥感领域或使用像RemoteCLIP这样的遥感特定模型在OVRSISS任务中表现不佳。这主要是因为RemoteCLIP在比通用CLIP模型小得多的数据集上进行预训练,此外,通用CLIP缺乏OVRSISS所需的专业知识。因此,我们提出了一种双流图像编码器,它能协同提取专家特征和通用特征。
-
通用CLIP骨干网络:按照最常见的做法,我们使用预训练CLIP的ViT/B - 16架构。更具体地说,我们采用CLIP的图像编码器(不包括最终的投影头),表示为 Φ G \Phi^{G} ΦG。给定一幅图像 I ∈ R H × W × 3 I\in\mathbb{R}^{H\times W\times3} I∈RH×W×3,我们提取最终特征 E G ∈ R H ′ × W ′ × D E^{G}\in\mathbb{R}^{H'\times W'\times D} EG∈RH′×W′×D,其中 D D D表示特征维度, H ′ , W ′ = H / 16 , W / 16 {H', W'}={H / 16, W / 16} H′,W′=H/16,W/16。对于查询集 C N C_{N} CN,我们使用CLIP文本编码器 Φ Q \Phi^{Q} ΦQ提取查询嵌入 E Q ∈ R N × D E^{Q}\in\mathbb{R}^{N\times D}