（AAAI，2024）Structure-CLIP：利用场景知识图谱增强多模态结构化表征

lalula1999

已于 2024-07-21 15:49:08 修改

阅读量1.4k

点赞数 9

分类专栏： CLIP 文章标签：知识图谱人工智能

于 2024-07-21 10:04:45 首次发布

本文链接：https://blog.csdn.net/weixin_44386956/article/details/140584012

版权

文章目录

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

摘要

大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能。然而，现有方法在需要结构化表示的图像-文本匹配任务上表现不佳，即表示对象、属性和关系的能力。模型无法区分“宇航员骑马”和“马骑宇航员”。这是因为它们在学习多模态表示时未能充分利用结构化知识。在本文中，我们提出了一个端到端的框架StructureCLIP，它通过整合场景知识图谱（SGK）来增强多模态结构化表示。首先，我们使用场景图指导构建语义负样本，这增加了学习结构化表示的重视。此外，我们提出了一个知识增强编码器（KEE），利用SGK作为输入进一步增强结构化表示。为了验证所提出框架的有效性，我们采用上述方法对模型进行预训练，并在下游任务上进行实验。实验结果表明，Structure-CLIP在VG-Attribution和VG-Relation数据集上实现了最先进的性能，分别比多模态最先进模型领先12.5%和4.1%。同时，MSCOCO上的结果表明，Structure-CLIP在保持通用表示能力的同时显著增强了结构化表示。我们的代码可在https://github.com/zjukg/Structure-CLIP上获得。

引言

在这里插入图片描述

尽管多模态模型在各种任务中的表现令人印象深刻，但这些模型是否能有效捕获结构化知识——即理解对象属性和对象间关系的能力——这一问题仍未解决。如图1(a)所示，图像与正确匹配的标题（“宇航员正在骑马”）之间的CLIP得分（即语义相似性），与图像和不匹配的标题（“马正在骑宇航员”）之间的得分相比，呈现出较低的值。CLIP模型表现出与词袋方法类似的倾向，它不领会句子中的细粒度语义。

我们提出了Structure-CLIP，这是一种新方法，利用场景知识图谱（SGK）来增强多模态结构化表示。首先，我们利用SGK构建更符合背后意图的词交换。其次，我们提出了一个知识增强编码器（KEE），利用SGK提取基本结构信息。通过在输入级别整合结构化知识，所提出的KEE可以进一步增强结构化表示的能力。

方法

在这里插入图片描述

通过场景图进行语义负采样

Faghri等人（2018）提出了一种负采样方法，该方法通过与正样本比较来构建负样本，以增强表示。我们的目标是构建具有相似通用表示但不同详细语义的样本，从而鼓励模型专注于学习结构化表示。

场景图生成

在我们的框架中，采用了Wu等人（2019b）提供的场景图解析器来解析文本到场景图。给定文本句子 $w$ ，我们将其解析为场景图 $G (w) =< O (w), E (w), K (w) >$ ，其中 $O (w)$ 是 $w$ 中提到的对象集合， $E (w)$ 是关系节点集合， $K (w)$ 是与对象相关联的属性对集合。

选择语义负样本

对比学习旨在通过将语义上接近的邻居拉近，将非邻居推远来学习有效的表示。我们的目标是构建具有相似组成但不同详细语义的语义负样本。因此，负样本的质量在结构化表示学习中起着至关重要的作用。给定一个图像-文本对 $I_i, W_i)$ 和从 $W_i$ 生成的相关场景图 $G(W_i)$ ，通过以下方式生成高质量的语义负样本 $W^−_i$ ：