Multi-Modal Knowledge Graph Construction and Application: A Survey


参考: 多模态知识图谱构建与应用综述

一、背景:

(1)现有的文本知识图谱大多是由纯文本表示的,这削弱了机器理解现实世界的能力,例如,如果没有“藏手礼”的经验,人们无法理解藏手礼是一种特殊的姿势(手在大衣襟翼)。因此,有必要将文字实体与相应的图像、声音和视频数据相结合。实现多模态(MMKG)是实现人机智能的必然关键步骤。
(2)多模态知识的应用在计算机其他领域的需求上也越来越迫切。在关系提取任务中,附加图像信息会大大提高视觉上明显但难以识别的属性和关系的性能,在文本生成任务中,如果参考多模态知识图谱 (MMKG),机器可以生成信息量更大的实体级句子(例如唐纳德特朗普正在发表演讲)而不是模糊概念级别描述(例如,一个金发的高个子正在演讲)。
对多模态知识图谱的如下领域进入系统性的探讨:
1、多模态知识图谱的构建: 可以采取两种不同的策略。一种是从图像到符号,即用知识图谱中的符号标记图像;另一种是从符号到图像,即定位图像中的符号。
2、多模态知识图谱的应用: 可分为两类,一类是针对多模态知识图谱本身构建问题的 In-MMKG 应用,另一类是针对多模态知识图谱下游任务的 Out-of-MMKG 应用。

二、知识图谱定义与构建所需的储备知识

多模态知识图谱两种定义:

2.1 A-MMKG

将多模态数据作为实体或概念的特定属性,如图1所示:
在这里插入图片描述
图1
这样表示的MMKG简称为A-MMKG,在A-MMKG中,多模态数据被视为属性值,因此在三元组中(s,p,o),s表示一个实体,o表示其对应的多图像之一。
在这里插入图片描述

2.2 N-MMKG

将多模态数据作为知识图谱中的实体,记为N-MMKG。多模态数据被视为实体,会有更多的模态间和模态内的关系添加到MMKG中:
在这里插入图片描述

(1)contain:一个图像实体通过图像的相对位置在视觉上包含另一个图像实体。
(2)nearBy:一个图像实体在视觉上靠近图像中的另一个图像实体。
(3)sameAs:两个不同的图像实体指的是同一个实体。
(4)similar:两个图像实体在视觉上彼此相似。
在N-MMKG中,通常将一幅图像抽象为多个图像描述符,这些描述符通常在像素级概括为图像实体的特征向量,如灰度直方图描述符、方向梯度直方图描述符,颜色布局描述符,通过这些图像描述符可以获得图像之间的关系(例如,通过图像描述符响亮的内积获得图像相似度)。
在这里插入图片描述

三、多模态知识图谱的构建

多模态知识图谱的构建通常有以下两种方式:用文本知识图谱中的文字标记图像或者将图像定位到文本知识图谱中的实体

3.1 文本标注图像

CV社区开发了许多图像标记几角方案,可用于标记图像,大多数方案学习从图像内容到各种标签集的映射,包括对象、场景、实体、属性、关系、时间等其他符号。学习过程由人工标注的数据集监督,这需要工作人员绘制边界框并使用给定标签标注图像或图像区域。
图像链接到文本可以分为细分为:视觉实体/概念提取,视觉关系抽取和视觉时间提取。

3.1.1视觉实体(概念)提取:

目的是检测和定位图像中的目标视觉对象,然后用知识图谱中的文本实体(或概念)标记这些对象。

挑战:

如何在没有大规模、细粒度、注释良好的概念和实体图像数据集的情况下学习细粒度提取模型?虽然在CV中有丰富的标注好的图像数据,但是这些数据集几乎是粗粒度的概念图像,不能满足多模态知识图谱构建对细粒度概念和实体的图像标注数据的要求。

进展:

1、对象识别方法
通过对检测到的对象的区域进行分类来标记视觉实体/概念;
为了区分图像中的多个视觉实体,需要预先训练的检测器和分类器来标记视觉实体(以及属性和场景)及其在图像中的位置。
这些检测器由监督数据训练,在检测过程中,检测器为可能的视觉对象捕获一组候选区域,并挑选出实际包含对象的候选区域。由于许多视觉对象因为实体在不同角度、位置、姿势产生重复,因此识别出的对象不直接被视为视觉实体。因此,需要选择最具代表性的视觉对象来生成视觉实体。最常见的方法是对图像区域进行聚类,其中每个聚类的中心被视为一个新的视觉实体。但是同时监督学习方案的缺点很明显,即需要大量的标注,并且需要大量的预处理工作,如预定义规则、预先确定的可识别实体列表、预训练的细粒度检测器和分类器等。
2、视觉定位方法
通过将标题中的单词或短语映射到最相关的区域来标记视觉实体/概念。
在视觉实体提取中,训练检测器需要大量带有边界框的标记数据和具有固定概念集的预定义模式,这很难用于大规模的视觉知识获取。幸运的是,有大量来自网络(例如新闻网站)的图像-字幕用于弱监督视觉知识的提取,而不依赖于标记的边界框。因此,视觉实体提取问题被简化为一个视觉定位问题,其目的是定位字幕中每个短语的对应图像区域,从而获得图像中带有标签的视觉对象。
当从弱监督的图像-字幕对中提取信息时,我们通常根据空间热力图(例如图 2 中的热力图)直接选择给定单词的活动像素作为视觉对象的区域。
在同一语义空间中共享文本和图像表示,每个短语的热图可以通过基于注意力的方法和基于显着性的方法作为跨模态权重来学习,如图 3 所示。在训练时,基于显着性的方法通过梯度计算直接将像素对给定短语的敏感度视为热力图的值。基于注意力的方法将跨模态相关性视为热力图的值,与基于显着性的方法相比,它更受欢迎。
尽管视觉定位方法不依赖于带有边界框的标记数据,但实际上仍需要人工验证。一些工作试图在训练阶段增加对常识、关系和事件参数的约束,以增加监督信息。在与 MMKG的构建相关的工作中,视觉定位的精确度低于 70%。通过视觉定位的视觉对象可以是实体(例如 Barack Hussein Obama)、概念(例如地点、汽车、石头)、属性(例如红色、短)。然而,图像和文本的语义尺度不一致可能导致不正确的匹配。例如,“部队”可能会映射到几个穿着军装的人,而“乌克兰(国家)”可能会映射到乌克兰国旗。
多模态预训练语言模型强大的表示能力增强了提取实体和概念的能力。图像块和单词的映射可以直接在模型的自注意力图中可视化,而无需额外的训练。 ViLT 的预测示例如图 4 所示。
多模态预训练语言模型如 CLIP,在数亿网络规模的图像-文本数据上进行了预训练,在著名人物和地标建筑上具有很高的准确性。一些预训练的视觉转换器模型已经具有很强的视觉对象分割能力,即使在高度模糊的情况下也能聚焦于前景对象,例如 DINO ,这将提高定位视觉对象和对齐跨模态知识的性能。

3.1.2 视觉关系抽取:

视觉关系提取旨在识别图像中检测到的视觉实体(或概念)之间的语义关系,然后用知识图谱中的关系标记它们。

挑战:

尽管视觉关系检测已经在 CV 社区进行了广泛的研究,但大多数检测到的关系是视觉对象之间的表面视觉关系,例如(人,站立,海滩)。不同的是,为了构建 MMKG,视觉关系提取任务旨在识别在知识图谱中定义的更一般类型的语义关系,例如(杰克、配偶、罗斯)。

进展:

现有的视觉关系抽取工作大致可以分为基于规则的关系抽取和基于统计的关系抽取两大类。其他一些工作主要集中在长尾关系和细粒度关系上。
(1)基于规则的关系提取: 传统的基于规则的方法主要关注一些特定类型的关系,如空间关系和动作关系。这些规则通常由专家预先定义,判别特征通过启发式方法进行评分和选择。
在基于规则的方法中,要检测的关系是根据标签的类型和区域的相对位置来定义的。例如,如果一个对象的边界框总是在另一个对象的边界框内,则它们之间可能存在 PartOf 关系。提取过程中,检测到的一对对象之间的关系反过来又会对新实例标记的附加约束。例如,“Wheel is a part of Car”表示 Wheel 更有可能出现在 Car 的边界框中。基于规则的方法提供高度准确的视觉关系,但它们

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值