前言
这篇综述经过导师和师姐双重推荐,和我的研究方向-古诗文多模态知识图谱的搭建与应用非常契合,应当认真学习并全面理解。这里单开一篇专门记录,希望能有所收获.
这篇综述主要介绍的是KG-driven Multi-Modal (KG4MM) learning,以及Multi-Modal Knowledge Graph (MM4KG)的相关知识点和联系,最后讲解与大模型融合进行学习。
基本概念
知识图谱
具体知识图谱概念这里不再细讲,具体详细内容可以参考教材《知识图谱》,本文中将知识图谱的界定延伸至本体,语义网络等。
多模态学习
与多视角学习的区别(multiview learning)
多视角学习可以缺失任意视角仍能进行学习,但是多模态学习缺失任意模态学习都会失败。
多视角学习更多强调都过不同视角得到的同一数据源的数据,多模态学习则是强调数据源多种多样,并且包含且不限于文字,图片,视频音频等。
本文更加强调version(视图)和文本的融合,其他模态数据的学习较少涉及。
知识图谱驱动的多模态学习: 这里强调此种学习方法将知识图谱作为数据仓库使用。分为子图谱抽取和知识图谱搭建;知识图谱搭建又分为动态知识图谱搭建和静态知识图谱搭建。
*多模态知识图谱: * (这里和我的研究方向相吻合,应当重点学习并加以运用) 多模态知识图谱(MMKGs),一般被定义为:G = {E, R, A, T , V} where T = {TA, TR} with TR = E × R × E and TA = E × A × V.。被分为AMMKG 和NMMKG。
对于AMMKG来说,一般将除文本外其他模态的数据(如图片)视为实体对象的属性值:TA = E × A × (VKG ∪ VMM ), where VKG and VMM are values of KG and multi-modal data。
对于NMMKG来说,将文本和其他模态数据置于同等地位:TR = (EKG ∪ EMM ) × R × (EKG ∪ EMM )。
应当注意的是,出于对于常规知识图谱搭建的习惯和理解,现阶段大多数采用AMMKG来搭建多模态知识图谱。
搭建知识图谱
搭建常规知识图谱
共有两种常规知识图谱的搭建:一种是基于实体的知识图谱(Entity-based KGs),另一种是Text-rich型知识图谱。前者使用结构化数据或者抽取非结构化数据,通过预先定义的框架(主体)来进行知识图谱的搭建;后者拥有大量文本数据,无需通过严格的定义构建知识图谱,适合于产品或百科作为域,并且非常依赖实体抽取模型。
搭建多模态知识图谱
1.范式: 包含两大范式。第一范式为用知识图谱的符号对图像进行标记,该范式侧重于从图像中提取明确的视觉信息,并将其与已知的知识图谱中的符号直接关联。这种方法依赖于强大的图像识别技术和预先定义好的知识图谱结构,以识别和标注图像中的常见实体和关系。它适用于那些图像内容相对固定、易于通过视觉特征识别的场景;第二范式为将知识图谱的符号与图像进行关联,第二种范式 则更加关注于如何有效地表示和处理不常见的实体或长尾分布的知识。这可能涉及到更复杂的模型和方法,比如使用上下文信息来辅助解释不清晰的图像特征,或者开发能够处理模糊匹配和不确定性的技术。这种范式试图解决当图像内容复杂多变,或者与知识图谱中的符号对应关系不明显时的挑战。
相关研究
关于MMKG的搭建早在十几年前就已经存在(具体贡献和研究还是参考原文),现阶段,对于MMKG的研究已经转向应用与开发。具体贡献仍然以原文为准,在综述后面仍然可以看到相关介绍。
N-MMKG本体研究
由于A-MMKG本体与一般MMKG基本相同,因此主要研究结构更加复杂的N-MMKG的本体学。
URI前缀对于MMKG有重要的作用。,用于区分不同类的实体。分为标准前缀和自定义前缀。以下为一些热门的本体;
IMGpedia Ontology: imo
Richpedia ontology: rpo
应用镜像实体和图像单元的 实体,诸如:peng提出的本体: 引入镜像实体等概念
同时引出了当前MMKG的面临的问题,这是我认为研究方向潜在的创新点:1.一个实体可能会有多种图像表示。2.有效的从视觉模态中抽取特征非常重要。3.应当将多模态表示模型从实体上升到关系甚至三元组层。
知识图谱驱动的多模态学习任务(推理,理解)
这一节将重点讨论KG驱动的多模态推理和理解任务。具体有视觉问答(我的另一个研究方向),视觉常识推理,视觉问题生成等。在这些任务中,MMKG通常作为知识存储的仓库。
视觉问答(Visual Question Answering)
视觉问答是多模态学习基石性的任务,同时也被用来衡量多模态模型的能力。在KG-base的VQA任务中,MMKG同样起到知识仓库和存储的作用。
视觉问答由如下步骤构成:知识检索,知识表示,知识感知的模态交互,知识感知的答案确定。具体组成如下图
VQA具体流程如下
这里A代表答案,Q代表文本问题,G代表通用知识图谱,Gret代表特定背景下生成的子知识图谱,I代表图片,另外两个分别代表用于大模型与训练学习知识的参数和提取的检索器也就是特定背景下的知识图谱的参数。文章中强调检索器不是必须的,但是有检索器可以更好的有利于多模态学习。下面将分别讲解VQA的各个步骤。
知识检索
Matching-based Retrieval(基于匹配的知识检索)
简单来说,在视觉问答(VQA)中,系统需要从图像和问题中提取信息,并在知识图谱(KG)中找到相关的知识点,以回答问题。基于匹配的检索就是将问题中的关键概念和图像中的视觉对象与知识图谱中的实体和关系进行匹配,生成子知识图谱。
首先,从图像或者文本中提取信息,方法包括一些图片特征提取方法和NLP的一些方法;然后构建两个映射:第一个映射:将从问题(Q)解析出的对象与图像(I)中的视觉对象进行对应;第二个映射:将这些概念与知识库中的相关实体进行匹配。使用的技术有:贪婪最长字符串匹配(greedy longest-string matching),模板匹配,多模态实体链接等方法。这里文章又提供了一些链接方法:ViLBERT-multi-task等。接着构建临时子知识图谱和全局子知识图谱;进而构建超图和高阶语义(KAN)。最后,在知识库相关检索的问题上,文章介绍了RDF查询生成和基于词项的检索器:TF-IDF(词频-逆文档频率)和BM25,已经基于多模态的实体增强查询,这里不多做介绍。
剪枝
随后,通过剪枝,可以进一步优化子知识图谱,去掉冗余信息,这里具体细节不加以赘述。或者可以通过知识图谱剪枝通过在训练阶段对知识图谱进行精简,保留与VQA任务直接相关的三元组,避免模型在过多无关知识中进行推理。这不仅提高了训练效率,还能使模型更加精准地回答问题。这里提出了四个剪枝模型:KRISP,LaKo,KAT,RR-VEL。
Dense Retrieval(密集检索)
Dense Retrieval是一种利用嵌入表示来实现高效检索的方法。它通过将问题(Q)和图像(I)中的元素(如视觉概念和语言描述)编码成向量表示,并与知识图谱中的三元组进行相似度计算,最终找出最相关的前k个事实。
具体步骤有:嵌入表示:问题、图像中的概念(如图像中的物体,问题中的关键术语)以及知识图谱中的三元组,都通过模型(如BERT、CLIP等)被转换为向量或嵌入;相似度计算:通过计算问题、图像与知识图谱中事实的向量相似度(如余弦相似度),找到与当前Q-I对最相关的前k个知识三元组。相似度越高,说明匹配度越高;前k检索:系统检索出最相关的前k个三元组,然后对这些三元组进行进一步的推理,以得到最终的答案。具体技术应用一系列搜索引擎或预训练模型等,这里不再赘述。
搜索引擎
Search Engine Method 是指通过传统的搜索引擎(如Google或Wikipedia)来扩展VQA系统的知识来源。这在VQA任务中可以有效地为开放域问题提供答案,这些问题超出了常规知识图谱的范围。是对知识图谱的一种很好的补充。具体技术这里不做赘述。
Learnable Retriever(可学习检索)
Learnable Retriever通过模型训练来增强KG-based VQA中的知识检索能力,尤其是能够根据特定问题和图像上下文进行个性化的检索。与密集检索等方法不同,Learnable Retriever强调模型的可学习性和上下文适应性,需要更复杂的训练过程以及对不同模态信息的联合处理。具体方法不再赘述。
PLM Generation
PLM的知识生成能力正在为VQA引入新的推理路径,减少了对传统知识检索的依赖。PLM不仅能生成上下文和常识扩展,还能够直接通过语言模型中的隐性知识进行问题回答。这种方法为VQA提供了更灵活的推理方式,能够处理开放域问题,并结合更多复杂的视觉、语言和知识背景。
在传统的知识图谱驱动的VQA中,问题和视觉输入通常需要通过知识库(KB)来检索相关的事实和信息。这是一个明确的、结构化的检索过程,依赖于预先存在的知识图谱来提供推理基础。然而,PLM(例如GPT-3、ChatGPT等)具备从大量文本数据中学习和生成知识的能力,能够通过提示生成相关的文本或常识,而不依赖于外部的知识图谱或数据库。这意味着:
• PLM可以通过生成的隐式知识来回答问题或进行推理,不需要显式地从知识库中检索三元组或事实。
• VLC-BERT 和 COMET 使用PLM来生成上下文扩展,而不是依赖传统的知识检索。类似的例子包括PROOFREAD和MMReasoner,它们通过PLM生成常识性推理和视觉描述,跳过了知识库检索的过程。
那么这是否意味着传统的知识推理和知识检索不重要了呢?文中也给出了明确的指示:
在基于VQA的场景中,知识图谱和PLM可以互为补充,而非二者必然互斥。 具体来说:
• 对于一些需要精确事实和逻辑推理的问题,知识图谱仍然非常重要。它能够提供可靠的知识结构,并可以作为PLM的基础数据源,帮助回答问题。
• PLM可以弥补知识图谱的不足,尤其在涉及常识、模糊概念或开放性问题时,PLM可以生成相关知识或推理路径,增强模型的表现。
总结:
• 基于匹配的检索在需要结构化和精确推理的场景中仍然非常重要,但缺乏灵活性。
• 密集检索提供了灵活、高效的检索方式,是大规模知识库中非常重要的技术,但可解释性不足。
• 可学习检索是未来检索的重要方向,具有自适应性,但面临计算资源和数据需求的挑战。
• PLM知识生成在开放领域和常识推理方面具有显著优势,但需要结合显式知识图谱来保证答案的准确性和可解释性。
• 搜索引擎检索作为一种辅助手段,在某些场景下提供了广泛的信息来源,但精度和可靠性较差。
知识表示(Knowledge Representation)
Knowledge Representation 在多模态推理任务中起到了关键作用,它决定了如何将符号化的知识图谱(KG) 与多模态模型相结合。这一决策影响着知识的嵌入与推理效率
直接词嵌入向量技术
通过将知识图谱中的符号信息映射到向量空间,便于多模态模型将结构化知识融入推理过程中。通过这些表示,模型可以有效地使用嵌入空间中的实体和关系来进行推理、知识检索以及解答视觉问题。
主要包括:直接的文本到向量映射,压缩与向量化,去噪技术,自然语言化的三元组表示。
知识图谱嵌入(KGE)
KGE的核心目标是将知识图谱中的事实(三元组)嵌入到一个抽象的向量空间中,从而揭示实体和关系之间的深层语义关系。这种表示方式可以有效地捕捉实体间的相互作用,并简化下游任务(如知识检索、推理等)的处理。具体细节不再赘述。
以三元组方式直接输入
在一些多模态推理任务中,知识图谱的三元组(KG triples)被保持为其原始的文本格式,而不是转化为嵌入向量。通过保持原始的文本形式,模型能够直接处理和理解这些知识,参与联合推理。
一些工作将知识图谱的三元组序列化后,与视觉语言模型(VLMs)或预训练语言模型(PLMs)结合进行联合推理。这种方法能够充分利用语言模型强大的自然语言处理能力,结合知识图谱的事实进行推理和答案生成。
Knowledge-aware Modality Interaction(知识感知的模态交互)
知识感知模态交互是知识多模态推理的核心,反映了人类知识在理解世界中的应用。
Concatenation(向量拼接)
向量拼接是将不同模态(例如视觉、文本等)的特征向量直接合并成一个统一的表示。这个方法简单直接,适用于将不同模态的信息结合在一起。
拼接后的多模态特征通常会经过一个**多层感知机(MLP)**进行进一步的处理和优化。MLP的作用是通过非线性转换增强不同模态特征之间的交互,从而提高它们的融合效果。
Long Short-Term Memory (LSTM)长短期记忆网络
LSTM网络在多模态知识整合和任务推理中扮演了关键角色,尤其适用于处理序列数据(如问题的文本输入)。通过编码问题、图像描述和外部知识,LSTM为模型提供了丰富的语义表示。这种方法不仅增强了系统的推理能力,还为后续的多模态融合(如与视觉数据的结合)奠定了基础,使得LSTM成为整合知识与多模态数据的核心工具之一。
GNN(图神经网络)
GNN能够在图结构上融合来自不同模态的输入(如图像、文本和知识),并通过迭代过程捕捉各节点之间复杂的语义关系,提升多模态推理的精确性。
这里提到了改进的Mucko方法,与传统的模态嵌入拼接方式不同,他独立处理不同模态的知识图谱(KG)。它将视觉场景知识图谱、从图像描述生成的语义知识图谱、以及常识知识图谱分离处理,通过问题(Q)引导的注意力机制和跨知识图谱卷积(cross-KG convolution)来进行精确的答案确定。
Dynamic Memory Networks (DMNs)动态记忆网络
DMNs和引导注意力机制在多模态推理中的作用是非常重要的,它们通过动态记忆和知识引导来增强推理能力,并且特别适合于处理复杂的视觉问答任务。然而,实际应用中需要平衡计算效率与推理精度,同时确保输入信号的高质量,以最大化这些技术的优势。
动态记忆网络采用注意力机制过滤并提取关键信息,特别是从小规模的知识三元组嵌入中。DMNs在多数据通道之间建模交互,以获取更有效的推理线索。
引导注意力机制(Guided-Attention)与传统的自注意力不同,它使用一个单独的特征集来引导注意力学习过程,例如通过知识指导的视觉/文本嵌入,或通过问题引导的视觉/知识嵌入。这种机制能够实现多样化的融合,有效结合不同模态信息进行推理。
Guided-Attention & Transformer(引导注意力机制与transformer)
引导注意力与传统的自注意力机制不同,它使用特定的特征集来引导注意力学习过程,让模型集中关注特定的模态或信息。这为多模态融合提供了更多的控制和灵活性。引导注意力机制与Transformer架构的结合,为多模态推理任务提供了强大的信息融合能力。通过引导注意力,模型能够灵活聚焦于最相关的视觉、文本和知识特征,极大地增强了多模态推理的准确性和效果。然而,在实际应用中,这种机制的效果高度依赖于引导信号的质量,因此需要在设计时确保信号的相关性和有效性。
PLM & VLM Reasoning
预训练语言模型(PLM)与视觉语言模型(VLM)在多模态知识融合和推理中的应用正在逐步发展,特别是在视觉问答(VQA)领域中。通过将视觉和文本数据融合,VQA系统能在复杂的多模态任务中提供更精确的答案。具体来说,这类方法的核心理念分为两大类:
1. 基于嵌入的视觉信息整合:这一类方法的核心思路是将视觉数据(例如图像中的对象、区域或属性)转换为嵌入(embedding),即用向量表示。这些向量通过与文本数据结合,在统一的多模态框架内进行推理。具体方法有:视觉嵌入生成,跨模态对齐,预训练视觉语言模型(VLM)。
2. 视觉数据的文本化转换:这一类方法的不同之处在于,它们不直接处理视觉数据的嵌入表示,而是将视觉信息转换为文本格式(如图像描述或物体标签),然后将文本与原有的问题(Q)结合,统一处理为一个纯文本推理任务。具体方法有:图像描述生成,基于文本的推理。
Knowledge-aware Answer Determination