论文导读 | KG summarization

图片

图片

图片

 

论文地址:

https://dl.acm.org/doi/pdf/10.1145/3077136.3080810

1 研究背景

Entity card是目前在各大搜索引擎中比较常用的页面。当用户搜索一个与实体相关的查询,搜索引擎将会直接在搜索页面上展示一个精简的entity card,包含实体的名称、简短的实体文本描述、实体的相关图片,以及实体的事实摘要(factual summaries)。下图就是一个entity card展示的实例,当用户在搜索引擎上查询著名物理学家爱因斯坦(Einstein), 搜索页面将显示如图所示的信息。

图片

 实体的事实摘要(factual summaries)就是指的如上图中红色框所标出的一些谓词-宾语对,表示这个实体的基本信息,如爱因斯坦的出生信息、教育信息以及家庭信息。这篇文章主要就是研究factual summaries的生成,这篇文章最重要的一个贡献点是,这是第一篇基于query文本动态生成factual summaries的工作。如上图所示,当用户查询为:Einstein education时,为用户展示的信息更多为爱因斯坦的学校、奖项和影响力信息, 当为用户查询为:Einstein family时,更多的展示爱因斯坦的家庭成员信息。

2 问题定义

搜索引擎中的实体的事实信息(entity facts)都是基于知识库的,知识库的表示形式是由三元组<subject, predicate, object>集合组成。对于一个实体 e 来说,e的Entity Fact 是指以e为主语(subject)的三元组的谓词-宾语对(predicate-value pairs)。

图片

这项工作的大体框架分为两部分,fact ranking 和 summary generation。 

Fact ranking是指给定一个entity facts集合以及一个查询语句,返回一个排序的facts集合。主要考虑两方面的特征:fact的重要性(importance)和fact与query的相关性(relevance)。重要性很好理解,就是对这个实体来说独一无二,用户最可能想了解的信息。而对于相关性,举个例子,nationality(国籍)这个谓词对于大多数类型为person的实体来说应该是比较重要的,但是对于query为“einstein awards”来说就显得不是那么重要了,更为相关的的谓词信息为awards。对于factual summaries来说,一个fact的质量定义为 utility:其值为重要性feature和相关性feature的加权和。

图片

图片

Summary generation则是给定一个排序的facts集合,构建一个entity card。生成要显示在entity card上的实体摘要不仅仅需要列出top k的事实, 还需要处理语义相同的谓词(例如website和homepage)、多值谓词(例如children)和展示上的约束(例如,最大高度和宽度,取决于设备)等问题。

图片

 

3 基本算法

3.1 Facts ranking

Facts ranking主要考虑两方面的特征:importance 和 relevance。

a) Importance

下表是本文出现的一些符号的名称及其定义:

图片

 Importance特征部分主要定义了如下的一些特征:

  • Normalized fact frequency: 这个特征统计知识库中facts的总体频率,并按知识库中谓词的总数进行规范化:

图片

  • Normalized entity frequency: 这个特征统计知识库中facts的entity-wise频率,并按知识库中实体的总数进行规范化:

图片

  • Predicate specificity: 这个特征用于标识出谓词特定事实;即具有常见object但稀有predicate的fact。以实体Canada的fact <capital,Ottawa> 为例,其predicate相对较少(仅适用于首都城市),而object是频繁出现的。因此,Predicate specificity将对象的事实频率与谓词的反向实体频率相结合:

图片

  • Object specificity: 与前者相反,这个特征用于标识出宾语特定事实;即具有常见predicate但稀有object的fact。以fact <birthdate, 1953-10-01> 为例,其object相对较少,而predicate是频繁出现的。因此,其定义如下:

图片

  • Otherfeatures:还使用了另外两个二元特征:IsNum标识object是否为数字,如果对象是实体URI,则IsEntity返回true。

b) Relevance

这组特征背后的思想是确定一个facts与信息需求的相关性,由搜索查询(q)指定。各种信息源被用来提取这些特征:查询本身、查询中的链接实体、响应查询的检索实体以及识别词语之间语义相似性的外部语料库。

  • Semantic similarity:为了解决查询q和facts之间的不匹配问题,我们根据最近的常用做法,基于wordembedding来计算它们的语义相似度。具体地说,我们使用Word2Vec和googlenews数据集上训练的300个维向量,将字符串中每两个单词之间的逐词余弦相似度进行聚合:

    图片

  • Lexical similarity: 除了语义相似性,我们还计算词汇相似度来解决拼写错误的问题。我们使用Jaro编辑距离并将其应用于查询谓词和查询对象对。

3.2 Summary generation

给定一个排序的facts集合,构建一个如下图所示的entity card。

图片

如算法1所示,Summary generation分为三个阶段。首先(从算法1的第2行)选择每行的标题并将标题转换为具有可读性的谓词信息;算法保留与事实相对应的唯一谓词,这样谓词的数量不会超过阈值h。然后(从算法1的第9行开始),选择每行的值;这是收集多值谓词值的部分。最后(从算法1的第16行开始),标题和对象值连接在一起,以满足宽度约束。

4 实验评测

实验在DBpedia(version 2015-10)上进行,同时作者使用DBpedia-entity数据集来构造query集合,这是一个用于实体查询的标准测试集。作用采用众包标注的形式来获取fact ranking的测试集,由标注人员来标注entity facts的重要性以及facts与query的相关性,标注后的数据集的分布如下图所示:

图片

Facts ranking实验

作者使用Gradient Boosted Regression Tree作为学习模型,采用5-fold交叉验证,评价指标为NDCG@5 和 NDCG@10.选取的baseline有:RELIN[2], SUMMARUM[3], LinkSUM[4].

图片

 

图片

 实验结果如上表示,本文提出的方法相比于baseline都有一定程度的提升,同时作者还做了特征消蚀(移除特征)实验,表明其定义的特征大都是有效的特征。

图片

Summary generation实验

作者采用众包评价的形式进行评测,即给定一个query,给测试人员同时展示两个Summary,由测试人员主观的评价哪个summary更好。实验结果如下面的图表所示,DynES(本文的方法)优于baseline RELIN,而且同时考虑importance与relevance相比只考虑其中一项得到的评价更高。

图片

 

5  总结

这篇文章作者介绍了动态实体摘要的问题:为entity card生成查询相关的实体摘要。作者提出了一种摘要生成算法,并通过一系列用户偏好比较表明,用户更喜欢动态(依赖于查询)的摘要,而不是静态的摘要。同时作者还构建了一个query-based 实体摘要的数据集。

 

[1] Faegheh Hasibi, Krisztian Balog, and Svein Erik Bratsberg. 2017. Dynamic Factual Summaries for Entity Cards. In Proceedings of SIGIR ’17, August 07-11, 2017, Shinjuku, Tokyo, Japan

[2] Gong Cheng, .anh Tran, and Yuzhong .. 2011. RELIN: Relatedness and Informativeness-based Centrality for Entity Summarization. In Proc. of ISWC ’11. 114–129.

[3] Andreas .alhammer and Achim Re.inger. 2014. Browsing DBpedia Entities with Summaries. In Proc. of ESWC ’14. 511–515.

[4] Andreas .alhammer, Nelia Lasierra, and Achim Re.inger. 2016. LinkSUM: Using Link Analysis to Summarize Entity Data. In Proc. of ICWE ’16.

 

 

图片

 

图片

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值