【论文阅读笔记】Read Top News First: A Document Reordering Approach forMulti-Document News Summarization

Abstract

提取多文档新闻摘要的一种常用方法是将其重新表述为单文档摘要问题,方法是将所有文档连接为单个元文档。然而,这种方法忽略了文档的相对重要性。我们提出了一种简单的方法,在连接和汇总文档之前,根据文档的相对重要性对它们进行重新排序。重新排序使突出的内容更容易通过摘要模型学习。实验表明,我们的方法在更复杂的体系结构中优于之前的最先进的方法。

Intro

(全是废话,可以不看)

多文档新闻提取摘要(MDS)旨在从多个相关的新闻文档中提取突出信息,并将其提炼为简明的摘要。对于这个问题,有些方法使用特定于任务的体系结构。例如,王等人(2020)将多个文档组织成异构图,然后进行汇总。Zhong等人(2020)将提取摘要任务描述为语义匹配问题。最近的工作还探索将该问题重新定义为单文档摘要(SDS)问题,方法是将所有文档连接到单个元文档中,然后使用SDS模型对其进行总结(Cao等人,2017;刘等,2018;黎巴嫩诺夫等,2018;Fabbri等人,2019)。

由于新闻写作的惯例(Hong and Nenkova, 2014;Hicks et al, 2016),显著信息经常出现在新闻文章的开头。因此,许多总结系统,包括最近的神经模型(Kedzie等人,2018;Zhong等,2019),更加关注文档的开头。因此,在MDS中,在应用汇总模型之前,重要的是要考虑文档被连接起来形成元文档的顺序。

具体来说,我们认为输入中的各种文档并不同等重要。有些文件包含更突出或更详细的信息,更重要。因此,与将文档按任意顺序拼接相比,对文档进行重新排序,使重要的文档放在元文档的前面,使摘要模型更容易学习突出的内容,将会更有好处。

基于这些因素,我们提出了一种简单而有效的方法,在应用摘要模型之前,根据输入文档的相对重要性对其重新排序。我们在Multi-News (Fabbri等人,2019)和du -2004上评估了我们方法的有效性。结果表明,我们的简单重排序方法明显优于具有更复杂模型体系结构的最先进方法。我们还观察到,随着输入文档数量的增加,这种方法带来了更多的性能收益。

Method

我们将这个由m个文档{d1,…, dm},n句子{s1,…, sn}组成的元文档称为D。提取摘要的目的是提取D中的一个句子子集,对输入文档进行摘要。它通常被表述为一个二元句子分类问题,其中每个句子被分配一个{0,1}标签,以确定它是否被包含在摘要中。

下面,我们将介绍文档重排序方法,然后介绍基本摘要模型。

Document Reordering

文档重排序的目的是将元文档中的文档按照其显著性的顺序重新排列。

(感觉用处不大,没看完)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值