MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities

这篇博客介绍了大规模多模态事件知识图谱MMEKG,它整合了99万概念事件和644种关系,通过文本和视觉知识抽取,构建了统一的跨模态事件本体。MMEKG通过事件关系抽取实现常识推理,并提出了一套知识提取系统,应用于多个数据源,生成了8亿多实例事件和9亿多关系,促进了事件理解和跨模态知识应用。
摘要由CSDN通过智能技术生成

· MMEKG : Multi-modal Event Knowledge Graph towards Universal Representation across Modalities

​ -面向跨模式普遍表示的多模态事件知识图谱

·Abstract

·提出:大规模多模态事件知识图谱——MMEKG

​ MMEKG:通过事件将不同的知识形式统一起来,相互补充、消除歧义。
​ ①该模型包括:99万个概念事件,644个关系类型
​ ②超过8.63亿个实例事件通过9.34亿个关系连接起来,在文本和/或图像中提供了丰富的上下文信息。

·开发:

一个高效的文本/可视化知识提取系统的管道(概念级+实体级),induction strategy(归纳策略)创建百万规模的概念事件和组织所有事件和关系的模式

·Introduction

·(描述概念及存在的问题)

知识图谱通常用有向图进行表示,节点表示实体,边表示两节点之间的关系,即两实体之间的关系。这种表示方法虽然简单高效,但是表达能力有限。 (Extracting event and their relations from texts: A survey on recent research progress and challenges.)如何表示更复杂的知识,如事件、情况或不同的模式,成为更广泛应用的关键问题。

·(简单介绍本文提出的模型,并给出一个简单的例子进行说明)

MMEKG将事件作为其构建的基本模块,每个事件包括一个概念(concept)、几个参数(argument)和相应的角色定义(role)。事件之间也会存在一定的关系,如因果关系、时间关系、子事件关系等,因此,在知识图谱中,一个事件可以当作另一个事件的参数(argument)。

例子:

这两个事件利用互补的参数搭建文本与图片之间的桥梁,还表明了潜在的一种常识,睡觉的时候会裹上一个围巾。

·(分点说明本文的创新点)

与xxx进行比较,创新点在于①创建一个大规模本体包含990000个概念事件和644个关系类型,涵盖了现实世界发生的大多数类型。②第一个通过细粒度事件、参数对齐的多模态知识图谱。③概念和实体事件的集合。从实体事件扩展到本体,通过上下文实例为综合推理提供概念级常识知识。

(构建MMEKG具体步骤)

①构建一个模式(schema)并获取概念事件。将FrameNet与WordNet进行组合去初始化一个高质量的事件本体,通过实体事件的本体归纳对事件本体进行自动扩展。同时,为了保证模型的灵活性与可移植性,在简单事件模型(SEM)(Design and use of the Simple Event Model (SEM) )的基础上进行扩展,以在**资源描述框架(RDF)(The Resource Description Framework (RDF) and its Vocabulary Description Language RDFS)**中定义我们的本体。
②为了从文本或图像中提取实例事件,提出知识提取系统,以支持在实际场景下快速和大规模的提取。知识提取系统包括对事件与事件关系的提取,以及两者之间的对齐。此外,该系统可以将任何输入文本/图像解析为事件图,并从MMEKG中无缝检索多模态知识。

为了涵盖各种事件,我们将提取系统应用于多个来源,包括C4 News2、Wikipedia3、Bookcorpus4和CC3M&12M 。这些数据源产生8.63亿个实例事件和9.34亿个关系。

·Overview of MMEKG

MMEKG提出四种类型的节点和四种类型的关系。节点包括:概念事件、实例事件、实体和非实体参数。概念事件:与模式无关,提供实例事件的高水平摘要。实体:事件参数。
关系包括:①概念事件之间的关系。subclassOf ,子类,表示层次关系。②实例事件之间的关系。可以进一步分类为更细粒度的子类型,如temporal(时间)、causal(因果)、co-occur(共现)。③概念事件与实例事件之间的关系。instanceOf,集成概念和实例事件。④角色关系。起连接事件的作用。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d1R4EqHc-1669637907857)(D:/ATypora%E6%96%87%E4%BB%B6/image-20221127185814470.png)]

M M E K G = ( h , r , t ) ∣ h , t ∈ E , r ∈ R . E = E c p t ⋃ E i n s ⋃ E e n t ⋃ E n e n t , R = R i n s − i n s ⋃ R c p t − c p t ⋃ R c p t − i n s ⋃ R r o l e MMEKG = {(h, r, t)|h, t ∈ E, r ∈ R}. E = Ecpt⋃ Eins⋃ Eent⋃ Enent, R =Rins−ins⋃ Rcpt−cpt⋃ Rcpt−ins⋃ Rrole MMEKG=(h,r,t)h,tE,rR.E=EcptEinsEentEnent,R=RinsinsRcptcptRcptinsRrole

*w(h,r,t)表示MMEKG中三元组(h,r,t)*的关系权重,即 真的置信度分数

·跨模态事件本体(ontology)

跨模态事件本体规定了知识类型的范围,并且提供推理能力(从实例到概念的归纳会带来新的知识,即从特殊到一般的知识;从概念到实例的演绎,没有不确定性,能够提供额外的信息)

·Schema(模式)

单事件表示(SEM和FrameNet的扩展):①每个角色有一个关联的 ekg :[role] 被用来连接事件e(实例事件),a属性(实体+非实体)②使用虚拟节点连接实例事件与边ekg :[contextOf] ,表示该事件的来源。ekg :trigger,ekg :modality,ekg : content分别表示触发词、模态、句子/图像索引。
事件与事件之间的关系:①rdf:instanceOf 实例与概念事件之间的关系 ②rdf:subclassOf 概念事件的层次结构 ③设置连接节点(linking node)*[EventRel_id] *表示实例事件之间的关系,如因果、时间等。(这样表示的好处:①可扩展性,可以表示一对多的情况;②信息统计和补充剂的集成。在不确定的推理事件中添加频率和置信度分数

·Ontology Initialization(本体初始化)

通过合并WordNet 、FrameNet和 imSitu(数据集)初始化本体。具体地,将WordNet(分层信息)中每个动词和形容词的同义词集映射到FrameNet中的框架。Frame为高级概念事件,对齐的同义词集为细粒度的概念事件。映射:首先考虑结构映射 (Leseva and Stoyanova, 2019) 的结果以及 Sentence-BERT 给出同义词集和框架定义之间的余弦相似度分数。

然后,我们通过手动将 WordNet 同义词集与带注释的帧对齐作为我们的视觉本体来扩展来自 imSitu 数据集的本体。

·Ontology Induction(本体归纳)

分类法归纳:找到更细粒度的概念事件。
给定一个初始化的概念事件o和它的一个特定角色r,首先选择由角色r与一个分类为o的实例事件连接的所有参数。然后通过推导每个短语的标题启发式地聚类这些参数。我们进一步用该词头词命名每个聚类,并通过联合考虑(1)聚类中的每个事件-角色-参数三元组的置信度得分,以及(2)每个聚类名称提供的信息量,计算每个聚类的显著性得分。最后,选择K个显著性得分最高的聚类,通过将角色r和这些名称及其触发词结合起来创建新的概念事件。相应的实例事件也归入这些新派生的概念事件。

**关系归纳法:**在实例事件之间的关系上,发现概念事件之间的尝试关系。
该得分考虑(1)子实例事件之间关系的置信度得分。(2) ot w.r.t r的共性。我们在MMEKG中添加显著性评分超过阈值的(o~h,r, o~t)。例如,在图2中,由于三重(talk.v。01, coocur, sit.v.01)超过阈值时,我们将这种关系从实例级扩展到概念级。

·Knowledge Extraction System(知识提取系统)

1)遵循已有的知识提取系统的总体框架(GAIA: A Fine-grained Multimedia Knowledge Extraction System )(RESIN: A Dockerized Schema-Guided Cross-document Cross-lingual Cross-media Information Extraction and Event Tracking System),在此基础上,拓展和优化事件相关组件。
2)在每个组件上使用通用的基准测试,保证性能。
3)将系统中的所有交叉编码器替换为双编码器,并在事件关系提取过程中进行多任务训练的联合模型,以提高效率。

·文本知识抽取

①对语料库进行预处理。首先,使用基于BERT-base Next Sentence Prediction (NSP) model和启发式规则(每个文档5-10句)确定文档边界。然后,我们通过Stanza (Qi et al., 2020)获得POS-tag和依赖树(dependency tree)。动词形容词为是触发事件的候选词。
②使用Biencoder model(Moving Down the Long Tail of Word Sense Disambiguation with Gloss Informed Bi-encoders)对候选触发词最可能的同义词集进行预测。每个同义词集都引用一个概念事件。这样就可以把文本和MMEKG联系起来。将事件检测转换为无监督的词义消歧(WSD)任务,以避免昂贵的训练数据。
③事件参数提取方法PAIE(Prompt for Extraction? PAIE: Prompting Argument Interaction for Event Argument Extraction)为提取任务提示plm,并为每个概念事件设计一个角色交互提示模板。所有角色嵌入都用作查询向量,以识别参数跨度作为答案。用FrameNet提供的注释训练模型。

·视觉知识抽取

设计了一个两级抽取网络。两种模型都使用最大的视觉态势识别数据集进行训练。(1)对于事件检测,利用预训练的ViT来获取修补后的图像特征。另一层transformer将图像分类到视觉概念事件中。(2)继Pratt et al.(2020)之后,我们使用预训练的ResNet-50作为Faster R-CNN 的主要部分,并使用条件LSTM解码器聚合角色信息,从图像中提取参数。

·事件关系抽取

temporal, causal, co-occur, and semantic relations-时间关系、因果关系、共指关系和语义关系。共指包括文本与图像的对齐

①时间、因果关系。建立文档级别的图进行推断关系,联合预测时间和因果关系作为多标签多任务分类,并基于Causal-TimeBank用来训练模型。总共有六种关系类型:Before,After, During, Includes, Included和因果关系。
②共指关系。对于文本共存,如果触发词有conj关系,通过依赖解析来识别它。对于跨模态共发生,分别从成对的图片标题中提取事件,并假设它们共发生。
③语义关系。当事件A的参数是动名词短语B时,B也可以看作是A的子事件的触发词。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
AF(Association Fusion)是一种基于关联的多模态分类方法。多模态分类是指利用多种不同类型的数据(如图像、文本、音频等)进行分类任务。传统的多模态分类方法通常是将不同类型的数据分别提取特征,然后将这些特征进行融合得到最终结果。AF方法则是通过建立数据之间的关联来实现融合。 具体而言,AF方法首先将每个模态的数据进行特征提取,得到对应的特征向量。然后通过计算每个模态之间的相关度来建立模态之间的关联。这个相关度可以通过不同的方法来计算,例如互信息、皮尔逊相关系数等。 接下来,AF方法通过关联度来调整每个模态的权重。具体来说,权重与关联度成正比,关联度越高的模态将获得更大的权重。这样一来,每个模态的重要程度就会根据数据之间的关联度动态调整。 最后,AF方法通过将每个模态的特征与对应的权重进行加权融合,得到最终的特征向量。这个特征向量可以用于进行分类任务。 与传统的融合方法相比,AF方法能够更准确地捕捉到不同模态数据之间的关联信息。这样一来,融合后的特征向量能够更好地反映整个多模态数据的特征,提高分类准确率。 综上所述,AF是一种基于关联的多模态分类融合方法,通过建立数据之间的关联来动态调整每个模态的权重,从而提高多模态分类的准确率。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值