论文导读 | KG summarization

最新推荐文章于 2023-12-19 20:06:15 发布

PKUMOD

最新推荐文章于 2023-12-19 20:06:15 发布

阅读量279

点赞数

分类专栏：知识图谱论文导读

本文链接：https://blog.csdn.net/weixin_48167662/article/details/111943120

版权

知识图谱论文导读专栏收录该内容

65 篇文章 35 订阅

订阅专栏

论文地址：

https://dl.acm.org/doi/pdf/10.1145/3077136.3080810

1 研究背景

Entity card是目前在各大搜索引擎中比较常用的页面。当用户搜索一个与实体相关的查询，搜索引擎将会直接在搜索页面上展示一个精简的entity card，包含实体的名称、简短的实体文本描述、实体的相关图片，以及实体的事实摘要（factual summaries）。下图就是一个entity card展示的实例，当用户在搜索引擎上查询著名物理学家爱因斯坦（Einstein），搜索页面将显示如图所示的信息。

实体的事实摘要（factual summaries）就是指的如上图中红色框所标出的一些谓词-宾语对，表示这个实体的基本信息，如爱因斯坦的出生信息、教育信息以及家庭信息。这篇文章主要就是研究factual summaries的生成，这篇文章最重要的一个贡献点是，这是第一篇基于query文本动态生成factual summaries的工作。如上图所示，当用户查询为：Einstein education时，为用户展示的信息更多为爱因斯坦的学校、奖项和影响力信息，当为用户查询为：Einstein family时，更多的展示爱因斯坦的家庭成员信息。

2 问题定义

搜索引擎中的实体的事实信息（entity facts）都是基于知识库的，知识库的表示形式是由三元组<subject, predicate, object>集合组成。对于一个实体 e 来说，e的Entity Fact 是指以e为主语（subject）的三元组的谓词-宾语对（predicate-value pairs）。

这项工作的大体框架分为两部分，fact ranking 和 summary generation。

Fact ranking是指给定一个entity facts集合以及一个查询语句，返回一个排序的facts集合。主要考虑两方面的特征：fact的重要性（importance）和fact与query的相关性（relevance）。重要性很好理解，就是对这个实体来说独一无二，用户最可能想了解的信息。而对于相关性，举个例子，nationality（国籍）这个谓词对于大多数类型为person的实体来说应该是比较重要的，但是对于query为“einstein awards”来说就显得不是那么重要了，更为相关的的谓词信息为awards。对于factual summaries来说，一个fact的质量定义为 utility：其值为重要性feature和相关性feature的加权和。

Summary generation则是给定一个排序的facts集合，构建一个entity card。生成要显示在entity card上的实体摘要不仅仅需要列出top k的事实，还需要处理语义相同的谓词（例如website和homepage）、多值谓词（例如children）和展示上的约束（例如，最大高度和宽度，取决于设备）等问题。

3 基本算法

3.1 Facts ranking

Facts ranking主要考虑两方面的特征：importance 和 relevance。

a) Importance

下表是本文出现的一些符号的名称及其定义：

Importance特征部分主要定义了如下的一些特征：

Normalized fact frequency: 这个特征统计知识库中facts的总体频率，并按知识库中谓词的总数进行规范化：

Normalized entity frequency: 这个特征统计知识库中facts的entity-wise频率，并按知识库中实体的总数进行规范化：

Predicate specificity: 这个特征用于标识出谓词特定事实；即具有常见object但稀有predicate的fact。以实体Canada的fact <capital，Ottawa> 为例，其predicate相对较少（仅适用于首都城市），而object是频繁出现的。因此，Predicate specificity将对象的事实频率与谓词的反向实体频率相结合：

Object specificity: 与前者相反，这个特征用于标识出宾语特定事实；即具有常见predicate但稀有object的fact。以fact <birthdate, 1953-10-01> 为例，其object相对较少，而predicate是频繁出现的。因此，其定义如下：

Otherfeatures：还使用了另外两个二元特征：IsNum标识object是否为数字，如果对象是实体URI，则IsEntity返回true。

b) Relevance

这组特征背后的思想是确定一个facts与信息需求的相关性，由搜索查询（q）指定。各种信息源被用来提取这些特征：查询本身、查询中的链接实体、响应查询的检索实体以及识别词语之间语义相似性的外部语料库。

Semantic similarity：为了解决查询q和facts之间的不匹配问题，我们根据最近的常用做法，基于wordembedding来计算它们的语义相似度。具体地说，我们使用Word2Vec和googlenews数据集上训练的300个维向量，将字符串中每两个单词之间的逐词余弦相似度进行聚合：
Lexical similarity: 除了语义相似性，我们还计算词汇相似度来解决拼写错误的问题。我们使用Jaro编辑距离并将其应用于查询谓词和查询对象对。

3.2 Summary generation

给定一个排序的facts集合，构建一个如下图所示的entity card。

如算法1所示，Summary generation分为三个阶段。首先（从算法1的第2行）选择每行的标题并将标题转换为具有可读性的谓词信息；算法保留与事实相对应的唯一谓词，这样谓词的数量不会超过阈值h。然后（从算法1的第9行开始），选择每行的值；这是收集多值谓词值的部分。最后（从算法1的第16行开始），标题和对象值连接在一起，以满足宽度约束。

4 实验评测

实验在DBpedia(version 2015-10)上进行，同时作者使用DBpedia-entity数据集来构造query集合，这是一个用于实体查询的标准测试集。作用采用众包标注的形式来获取fact ranking的测试集，由标注人员来标注entity facts的重要性以及facts与query的相关性，标注后的数据集的分布如下图所示：

Facts ranking实验

作者使用Gradient Boosted Regression Tree作为学习模型，采用5-fold交叉验证，评价指标为NDCG@5 和 NDCG@10.选取的baseline有：RELIN[2], SUMMARUM[3], LinkSUM[4].

实验结果如上表示，本文提出的方法相比于baseline都有一定程度的提升，同时作者还做了特征消蚀（移除特征）实验，表明其定义的特征大都是有效的特征。

Summary generation实验

作者采用众包评价的形式进行评测，即给定一个query，给测试人员同时展示两个Summary，由测试人员主观的评价哪个summary更好。实验结果如下面的图表所示，DynES（本文的方法）优于baseline RELIN，而且同时考虑importance与relevance相比只考虑其中一项得到的评价更高。

5 总结

这篇文章作者介绍了动态实体摘要的问题：为entity card生成查询相关的实体摘要。作者提出了一种摘要生成算法，并通过一系列用户偏好比较表明，用户更喜欢动态（依赖于查询）的摘要，而不是静态的摘要。同时作者还构建了一个query-based 实体摘要的数据集。

[1] Faegheh Hasibi, Krisztian Balog, and Svein Erik Bratsberg. 2017. Dynamic Factual Summaries for Entity Cards. In Proceedings of SIGIR ’17, August 07-11, 2017, Shinjuku, Tokyo, Japan

[2] Gong Cheng, .anh Tran, and Yuzhong .. 2011. RELIN: Relatedness and Informativeness-based Centrality for Entity Summarization. In Proc. of ISWC ’11. 114–129.

[3] Andreas .alhammer and Achim Re.inger. 2014. Browsing DBpedia Entities with Summaries. In Proc. of ESWC ’14. 511–515.

[4] Andreas .alhammer, Nelia Lasierra, and Achim Re.inger. 2016. LinkSUM: Using Link Analysis to Summarize Entity Data. In Proc. of ICWE ’16.

PKUMOD

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文导读 | KG summarization

论文地址：https://dl.acm.org/doi/pdf/10.1145/3077136.30808101 研究背景Entity card是目前在各大搜索引擎中比较常用的页面。当用户搜索一个与实体相关的查询，搜索引擎将会直接在搜索页面上展示一个精简的entity card，包含实体的名称、简短的实体文本描述、实体的相关图片，以及实体的事实摘要（factual summaries）。下图就是一个entity card展示的实例，当用户在搜索引擎上查询著名物理学家爱因斯坦（E...
复制链接

扫一扫