文章目录
Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations
相关资料
摘要
大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能。然而,现有方法在需要结构化表示的图像-文本匹配任务上表现不佳,即表示对象、属性和关系的能力。模型无法区分“宇航员骑马”和“马骑宇航员”。这是因为它们在学习多模态表示时未能充分利用结构化知识。在本文中,我们提出了一个端到端的框架StructureCLIP,它通过整合场景知识图谱(SGK)来增强多模态结构化表示。首先,我们使用场景图指导构建语义负样本,这增加了学习结构化表示的重视。此外,我们提出了一个知识增强编码器(KEE),利用SGK作为输入进一步增强结构化表示。为了验证所提出框架的有效性,我们采用上述方法对模型进行预训练,并在下游任务上进行实验。实验结果表明,Structure-CLIP在VG-Attribution和VG-Relation数据集上实现了最先进的性能,分别比多模态最先进模型领先12.5%和4.1%。同时,MSCOCO上的结果表明,Structure-CLIP在保持通用表示能力的同时显著增强了结构化表示。我们的代码可在https://github.com/zjukg/Structure-CLIP上获得。
引言
尽管多模态模型在各种任务中的表现令人印象深刻,但这些模型是否能有效捕获结构化知识——即理解对象属性和对象间关系的能力——这一问题仍未解决。如图1(a)所示,图像与正确匹配的标题(“宇航员正在骑马”)之间的CLIP得分(即语义相似性),与图像和不匹配的标题(“马正在骑宇航员”)之间的得分相比,呈现出较低的值。CLIP模型表现出与词袋方法类似的倾向,它不领会句子中的细粒度语义。
我们提出了Structure-CLIP,这是一种新方法,利用场景知识图谱(SGK)来增强多模态结构化表示。首先,我们利用SGK构建更符合背后意图的词交换。其次,我们提出了一个知识增强编码器(KEE),利用SGK提取基本结构信息。通过在输入级别整合结构化知识,所提出的KEE可以进一步增强结构化表示的能力。
方法
通过场景图进行语义负采样
Faghri等人(2018)提出了一种负采样方法,该方法通过与正样本比较来构建负样本,以增强表示。我们的目标是构建具有相似通用表示但不同详细语义的样本,从而鼓励模型专注于学习结构化表示。
场景图生成
在我们的框架中,采用了Wu等人(2019b)提供的场景图解析器来解析文本到场景图。给定文本句子 w w w,我们将其解析为场景图 G ( w ) = < O ( w ) , E ( w ) , K ( w ) > G(w) = <O(w), E(w), K(w)> G(w)=<O(w),E(w),K(w)>,其中 O ( w ) O(w) O(w)是 w w w中提到的对象集合, E ( w ) E(w) E(w)是关系节点集合, K ( w ) K(w) K(w)是与对象相关联的属性对集合。
选择语义负样本
对比学习旨在通过将语义上接近的邻居拉近,将非邻居推远来学习有效的表示。我们的目标是构建具有相似组成但不同详细语义的语义负样本。因此,负样本的质量在结构化表示学习中起着至关重要的作用。给定一个图像-文本对 ( I i , W i ) (I_i, W_i) (Ii,Wi)和从 W i W_i Wi生成的相关场景图 G ( W i ) G(W_i) G(Wi),通过以下方式生成高质量的语义负样本 W i − W^−_i Wi−:
W i − = F ( W i , G ( W i ) ) , ( 1 ) W^−_i = F(W_i, G(W_i)),(1) Wi−=F(Wi,G(Wi)),(1)
其中F是提出的采样函数,W− i表示高质量的语义负样本。具体来说,对于场景图中的三元组(对象1,关系,对象2),