摘要
多模态知识图(MMKG)存储结构化的世界知识,其中包含丰富的多模态描述信息。为了克服其固有的不完全性,多模态知识图补全(MMKGC)旨在利用来自三元组的结构信息和实体的多模态信息,从给定的MMKGC中发现未观察到的知识。现有的MMKGC方法通常使用预训练模型提取多模态特征,并使用融合模块将多模态特征与三重预测相融合。然而,这通常会导致对多模态数据的粗糙处理,忽略了细微的、细粒度的语义细节及其相互作用。为了解决这一不足,我们引入了一个新的框架MyGO来处理、融合和增强来自mmkg的细粒度模态信息。MyGO将多模态原始数据标记为细粒度离散标记,并使用跨模态实体编码器学习实体表示。为了进一步增强多模态表示,MyGO结合了细粒度的对比学习,以突出实体表示的特异性。在标准MMKGC基准测试上的实验表明,我们的方法超过了20个最新模型,强调了其优越的性能。代码和数据可在https://github.com/zjukg/MyGO上获得。
1.引言
多模态知识图(MMKGs)[8]将多样化和复杂的世界知识封装为结构化三元组(头部实体、关系、尾部实体),同时将多模态数据(如图像和文本)纳入额外的实体上下文。这些广泛的三元组,以及它们的多模态内容,形成了一个庞大的多模态语义网络,