文章目录
Recognizing Unknown Disaster Scenes With Knowledge Graph-Based Zero-Shot Learning (KG-ZSL) Model
相关资料
论文:https://ieeexplore.ieee.org/document/10516579
摘要
未见类别预测是现实世界应用中的一个常见挑战,特别是在遥感(RS)图像解释领域。基于零样本学习(ZSL)的场景分类方法最近取得了显著进展,为RS领域中未见场景识别提供了一种有效的解决方案,通过语义嵌入将看到和未见类别联系起来。然而,现有的ZSL方法主要关注语义特征探索,未能有效结合图像特征和语义特征。为了解决上述挑战,我们提出了一种新颖的基于知识图谱(KG)的ZSL模型,该模型巧妙地整合了图像和语义特征以识别灾难RS场景。首先,我们构建了一个RS-KG来生成RS场景的语义特征,增强了从传统RS场景类别到灾难RS场景类别的推理能力。其次,我们提出了一种交互式注意力机制来整合图像和语义特征,专注于最信息丰富的区域。最后,我们引入了一个RS领域适配器,使模型更好地适应RS数据,将公共特征重新投射到RS领域,从而解决零样本RS场景分类任务。为了证明我们方法的有效性,我们构建了一个包含8700个高质量灾难场景的RS灾难场景数据集。广泛的实验表明,我们提出的方法在零样本RS图像场景分类设置下超越了当前的最先进(SOTA)方法。
引言
与仅依赖从图像场景中提取的特征不同,零样本学习利用辅助信息,通常以语义嵌入的形式,例如词向量或属性。例如,可以看到的类别属性可以被视为输入,为未见过的类别生成视觉特征,或者测量来自同一场景类别的图像之间的视觉相似性,并使用基于稀疏学习的标签细化方法来解决零样本任务。因此,ZSL在RS场景分类中的应用主要是从已知类别转移图像特征或计算视觉相似性。然而,基于ZSL的方法常常忽视在各种RS场景类别之间建立语义关系和文本描述。鉴于RS图像捕获的广阔多样的陆地表面结构和自然现象,这一缺陷尤为明显,这些都需要对看到和未见过的类别之间复杂的内在关系有更全面的理解。
CLIP通过将图像和上下文投影到共享的嵌入空间,然后计算它们的余弦相似度以生成相似度分数,执行零样本推理。对于上述视觉-语言模型,文本输入(即提示)在零样本任务中起着关键作用,但找到最合适的提示是一项耗时且费力的工作。即使通过广泛的微调,也不能保证生成的提示在其他下游任务上实现最佳性能。为了解决这个问题,条件上下文优化(CoCoOp)模型使用可学习的向量来建模上下文,这些向量可以以随机值或预训练的词嵌入进行初始化。同时,CoCoOp引入了一个实例条件上下文。这种方法通过将重点从特定标签集转移到每个输入实例和整个任务上,从而增强泛化能力并减少过拟合。此外,CoCoOp提出了一个名为Meta-Net的轻量级神经网络,该网络在M个上下文向量上训练,为每个输入生成一个条件标记,然后将其与上下文向量结合。尽管这些方法通过文本描述提供了上下文和背景信息,但它们常常未能捕获详细的结构化信息以及深入的领域知识。然而,这种显式的语义信息对于表示可见和不可见类别之间的特定关系至关重要,这可以有效地建立零样本推理中的推理能力。
作为一个可能的方法,知识图谱(KG)提供了一种新颖的策略来表示语义关系,通过形式为<head, relation, tail>的三元组有效地建立头实体和尾实体之间的语义关系。在RS场景分类的背景下,可以构建一个三元组,如<wildfire, near, forest>,表示野火通常位于森林附近。KG提供的语义表示可以帮助模型理解野火和森林类别之间的紧密联系。通过将从KG派生的语义表示与RS图像中丰富的视觉特征(如纹理和空间关系)相结合,可以更全面和详细地了解RS场景。
为了解决上述分析的关键问题,我们提出了一种基于知识图谱的零样本学习(KG-ZSL)模型的灾害场景识别。该模型使用图像特征、上下文特征和语义特征来增强未见灾害场景识别的能力。KG-ZSL由三部分组成:
- 对RS图像和KG三元数据的特征进行编码。它通过交互式注意力模块结合了由ViT生成的视觉特征和由KG表示模型生成的语义特征;
- 多特征整合,其中由交互式注意力模块捕获的多模态特征与文本描述提供的上下文特征逐元素相加,通过文本编码器和轻量级领域适配器(DA),并与视觉特征计算余弦相似度以获得分类结果;
- 零样本推理阶段,输入RS灾害场景图像,并通过预训练的KG-ZSL模型预测相应的灾害类别。
方法
总体框架
在本节中,我们详细介绍了KG-ZSL的框架,图1提供了我们模型的概览。
- 使用预训练的图像特征提取器来获取RS图像的图像特征。同时,我们采用了TransD模型,这是一种表示学习模型,用于从RS三元数据中提取语义特征。
- 将图像特征和语义特征同时输入到交互式注意力模块中,以实现这两种不同模态特征的有效融合。交互式注意力模块生成的多模态特征随后与提示中的上下文向量相结合,生成实例条件上下文特征。这个特征接着作为预训练文本特征提取器的输入,并通过领域适配器(DA)将特征从通用域重新映射到RS域。
- 通过计算图像特征与实例条件上下文特征之间的余弦相似度来进行零样本场景分类推断。余弦相似度最高的上下文是图像的分类标签。
与其他主流ZSL方法不同,我们的方法在两个不同的RS数据集上运行:训练数据集和未见过的测试数据集。训练数据集由包含传统RS场景的广泛图像组成。而未见过的测试数据集主要关注RS灾害场景。
视觉-语义特征提取过程
为了结合RS图像的空间信息和KG提供的语义信息,我们将三元数据和输入的RS图像映射到高维潜在空间,然后通过交互式注意力机制融合来自不同模态的两种特征。本研究利用预训练的CLIP作为图像编码器(ViT),捕捉RS图像的空间信息。ViT通过引入基于图像的自注意力机制实现对RS场景信息(例如,纹理信息和形状)的全局建模。同时,我们使用表示学习模型来获取KG中不同场景类别之间的语义关系。
TransD
我们采用一种增强的表示学习模型,称为TransD。TransD模型通过为实体和关系引入单独的投影矩阵来克服这些限制,实现更灵活和有效的表示学习过程。图2展示了KG表示模型(TransD)的细节。对于KG中的每个三元组 ( h , r , t ) (h, r, t) (h,r,t),给定 h ∈ R d h ∈ R^d h∈Rd, t ∈ R d t ∈ R^d t∈Rd, 和 t ∈ R d t ∈ R^d t∈Rd,其中 d d d表示语义嵌入空间中的维度。TransD将 h h h和 r r r从实体空间映射到关系空间,设:
h ⊥ = s u m ( W h ∗ h ) ∗ W r + h ( 1 ) h_⊥ = sum(W_h ∗ h) ∗ W_r + h (1) h⊥=sum(Wh∗h)∗Wr+h(1)
t ⊥ = s u m ( W t ∗ t ) ∗ W r + t ( 2 ) t_⊥ = sum(W_t ∗ t) ∗ W_r + t (2) t⊥=sum(Wt∗t)∗Wr+t(2)
其中 W h W_h Wh, W r W_r Wr, 和 W t W_t Wt