Multi-Modal Knowledge Graph Construction and Application: A Survey


参考: 多模态知识图谱构建与应用综述

一、背景:

(1)现有的文本知识图谱大多是由纯文本表示的,这削弱了机器理解现实世界的能力,例如,如果没有“藏手礼”的经验,人们无法理解藏手礼是一种特殊的姿势(手在大衣襟翼)。因此,有必要将文字实体与相应的图像、声音和视频数据相结合。实现多模态(MMKG)是实现人机智能的必然关键步骤。
(2)多模态知识的应用在计算机其他领域的需求上也越来越迫切。在关系提取任务中,附加图像信息会大大提高视觉上明显但难以识别的属性和关系的性能,在文本生成任务中,如果参考多模态知识图谱 (MMKG),机器可以生成信息量更大的实体级句子(例如唐纳德特朗普正在发表演讲)而不是模糊概念级别描述(例如,一个金发的高个子正在演讲)。
对多模态知识图谱的如下领域进入系统性的探讨:
1、多模态知识图谱的构建: 可以采取两种不同的策略。一种是从图像到符号,即用知识图谱中的符号标记图像;另一种是从符号到图像,即定位图像中的符号。
2、多模态知识图谱的应用: 可分为两类,一类是针对多模态知识图谱本身构建问题的 In-MMKG 应用,另一类是针对多模态知识图谱下游任务的 Out-of-MMKG 应用。

二、知识图谱定义与构建所需的储备知识

多模态知识图谱两种定义:

2.1 A-MMKG

将多模态数据作为实体或概念的特定属性,如图1所示:
在这里插入图片描述
图1
这样表示的MMKG简称为A-MMKG,在A-MMKG中,多模态数据被视为属性值,因此在三元组中(s,p,o),s表示一个实体,o表示其对应的多图像之一。
在这里插入图片描述

2.2 N-MMKG

将多模态数据作为知识图谱中的实体,记为N-MMKG。多模态数据被视为实体,会有更多的模态间和模态内的关系添加到MMKG中:
在这里插入图片描述

(1)contain:一个图像实体通过图像的相对位置在视觉上包含另一个图像实体。
(2)nearBy:一个图像实体在视觉上靠近图像中的另一个图像实体。
(3)sameAs:两个不同的图像实体指的是同一个实体。
(4)similar:两个图像实体在视觉上彼此相似。
在N-MMKG中,通常将一幅图像抽象为多个图像描述符,这些描述符通常在像素级概括为图像实体的特征向量,如灰度直方图描述符、方向梯度直方图描述符,颜色布局描述符,通过这些图像描述符可以获得图像之间的关系(例如,通过图像描述符响亮的内积获得图像相似度)。
在这里插入图片描述

三、多模态知识图谱的构建

多模态知识图谱的构建通常有以下两种方式:用文本知识图谱中的文字标记图像或者将图像定位到文本知识图谱中的实体

3.1 文本标注图像

CV社区开发了许多图像标记几角方案ÿ

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值