Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey综述学习笔记

前言

  这篇综述经过导师和师姐双重推荐,和我的研究方向-古诗文多模态知识图谱的搭建与应用非常契合,应当认真学习并全面理解。这里单开一篇专门记录,希望能有所收获.

  这篇综述主要介绍的是KG-driven Multi-Modal (KG4MM) learning,以及Multi-Modal Knowledge Graph (MM4KG)的相关知识点和联系,最后讲解与大模型融合进行学习。

基本概念

知识图谱

  具体知识图谱概念这里不再细讲,具体详细内容可以参考教材《知识图谱》,本文中将知识图谱的界定延伸至本体,语义网络等。

多模态学习

与多视角学习的区别(multiview learning)

  多视角学习可以缺失任意视角仍能进行学习,但是多模态学习缺失任意模态学习都会失败。
  多视角学习更多强调都过不同视角得到的同一数据源的数据,多模态学习则是强调数据源多种多样,并且包含且不限于文字,图片,视频音频等。
  本文更加强调version(视图)和文本的融合,其他模态数据的学习较少涉及。

知识图谱驱动的多模态学习: 这里强调此种学习方法将知识图谱作为数据仓库使用。分为子图谱抽取和知识图谱搭建;知识图谱搭建又分为动态知识图谱搭建和静态知识图谱搭建。

*多模态知识图谱: * (这里和我的研究方向相吻合,应当重点学习并加以运用) 多模态知识图谱(MMKGs),一般被定义为:G = {E, R, A, T , V} where T = {TA, TR} with TR = E × R × E and TA = E × A × V.。被分为AMMKGNMMKG
  对于AMMKG来说,一般将除文本外其他模态的数据(如图片)视为实体对象的属性值:TA = E × A × (VKG ∪ VMM ), where VKG and VMM are values of KG and multi-modal data。
  对于NMMKG来说,将文本和其他模态数据置于同等地位:TR = (EKG ∪ EMM ) × R × (EKG ∪ EMM )。
应当注意的是,出于对于常规知识图谱搭建的习惯和理解,现阶段大多数采用AMMKG来搭建多模态知识图谱。

搭建知识图谱

搭建常规知识图谱

  共有两种常规知识图谱的搭建:一种是基于实体的知识图谱(Entity-based KGs),另一种是Text-rich型知识图谱。前者使用结构化数据或者抽取非结构化数据,通过预先定义的框架(主体)来进行知识图谱的搭建;后者拥有大量文本数据,无需通过严格的定义构建知识图谱,适合于产品或百科作为域,并且非常依赖实体抽取模型。

搭建多模态知识图谱

1.范式: 包含两大范式。第一范式为用知识图谱的符号对图像进行标记,该范式侧重于从图像中提取明确的视觉信息,并将其与已知的知识图谱中的符号直接关联。这种方法依赖于强大的图像识别技术和预先定义好的知识图谱结构,以识别和标注图像中的常见实体和关系。它适用于那些图像内容相对固定、易于通过视觉特征识别的场景;第二范式为将知识图谱的符号与图像进行关联,第二种范式 则更加关注于如何有效地表示和处理不常见的实体或长尾分布的知识。这可能涉及到更复杂的模型和方法,比如使用上下文信息来辅助解释不清晰的图像特征,或者开发能够处理模糊匹配和不确定性的技术。这种范式试图解决当图像内容复杂多变,或者与知识图谱中的符号对应关系不明显时的挑战。

相关研究

  关于MMKG的搭建早在十几年前就已经存在(具体贡献和研究还是参考原文),现阶段,对于MMKG的研究已经转向应用与开发。具体贡献仍然以原文为准,在综述后面仍然可以看到相关介绍。

N-MMKG本体研究

  由于A-MMKG本体与一般MMKG基本相同,因此主要研究结构更加复杂的N-MMKG的本体学。
  URI前缀对于MMKG有重要的作用。,用于区分不同类的实体。分为标准前缀和自定义前缀。以下为一些热门的本体;
  IMGpedia Ontology: imo
  Richpedia ontology: rpo
  应用镜像实体和图像单元的 实体,诸如:peng提出的本体: 引入镜像实体等概念
  同时引出了当前MMKG的面临的问题,这是我认为研究方向潜在的创新点:1.一个实体可能会有多种图像表示。2.有效的从视觉模态中抽取特征非常重要。3.应当将多模态表示模型从实体上升到关系甚至三元组层。

知识图谱驱动的多模态学习任务(推理,理解)

  这一节将重点讨论KG驱动的多模态推理和理解任务。具体有视觉问答(我的另一个研究方向),视觉常识推理,视觉问题生成等。在这些任务中,MMKG通常作为知识存储的仓库。

视觉问答(Visual Question Answering)

  视觉问答是多模态学习基石性的任务,同时也被用来衡量多模态模型的能力。在KG-base的VQA任务中,MMKG同样起到知识仓库和存储的作用。
  视觉问答由如下步骤构成:知识检索,知识表示,知识感知的模态交互,知识感知的答案确定。具体组成如下图
在这里插入图片描述
VQA具体流程如下
在这里插入图片描述
  这里A代表答案,Q代表文本问题,G代表通用知识图谱,Gret代表特定背景下生成的子知识图谱,I代表图片,另外两个分别代表用于大模型与训练学习知识的参数和提取的检索器也就是特定背景下的知识图谱的参数。文章中强调检索器不是必须的,但是有检索器可以更好的有利于多模态学习。下面将分别讲解VQA的各个步骤。
  

学习ing,缓慢更新…

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值