NLP论文阅读记录-EMNLP2023| 09 Background Summarization of Event Timelines


前言

在这里插入图片描述

事件时间线的背景总结(2310)

code
paper


0、论文摘要

生成新闻事件的简明摘要是一项具有挑战性的自然语言处理任务。虽然记者经常策划时间线来突出关键的子事件,但新闻事件的新手在了解其历史背景方面面临着挑战。
在本文中,我们通过引入背景新闻摘要任务来满足这一需求,该任务通过相关先前事件的背景摘要来补充每个时间线更新。我们通过合并现有时间线数据集并要求人类注释者为每个新闻事件的每个时间步编写背景摘要来构建数据集。我们使用最先进的摘要系统建立强大的基线性能,并提出一个以查询为中心的变体来生成背景摘要。为了评估背景摘要质量,我们提出了一个基于问答的评估指标,即背景效用得分(BUS),它衡量背景摘要回答的有关当前事件时间步长的问题的百分比。我们的实验展示了 Flan-T5 等指令微调系统的有效性,以及使用 GPT-3.5.1 的强大零样本性能

一、Introduction

为此,我们提出了背景新闻摘要的任务,该任务用背景摘要补充时间线中的每个更新。
在这里插入图片描述

背景摘要使读者能够快速掌握事件的历史背景,而无需阅读有关特定事件的数百篇新闻文章或较长的时间表。一种应用是将短文本内容(例如推文)与有关事件的新闻文章的背景信息结合起来。除了提供急需的上下文之外,这对于验证推文中描述的事件的真实性也很有用(例如,Twitter 社区注释)。在以新闻为中心的对话式人工智能环境中,可以生成背景摘要来回答用户的请求“告诉我需要知道什么来理解这个事件”。
为了构建用于背景摘要的数据集,我们确定了以重大新闻事件为中心的现有时间线数据集。具体来说,我们选择广泛使用的 Timeline17 (Binh Tran et al., 2013)、Crisis (Tran et al., 2015) 和 Social Timeline (Wang et al., 2015) 数据集——从这些数据集中识别 14 个主要新闻事件并为每个重大事件准备一个单一的事件时间表。
原始数据集包括从不同新闻机构收集的重大事件的多个时间表。为了简化我们的注释过程,我们合并了给定重大事件的所有时间线以创建单个时间线。我们向专家注释者提供这些时间表,并收集每个新闻事件每个时间步骤的背景摘要。图 1 提供了迈克尔·杰克逊去世时间线的一个示例。时间线从 2009 年 6 月 25 日开始,有一条新闻更新。以下 2 月 8 日、6 月 25 日和 11 月 29 日的更新均使用提供有关该事件的历史背景的背景摘要进行证实。
在生成的带注释数据集上,我们尝试了一套基于 Flan-T5 (Chung et al., 2022)、LongT5 (Guo et al., 2022) 和 GPT-3.5 (OpenAI, 2022) 的摘要系统。我们建议将背景摘要任务制定为两种不同的变体:(1)在通用摘要设置中,我们通过使用时间步骤 1 到 t 的过去更新的串联来生成时间步骤 t 的当前更新的背景摘要 - 1. (2) 在以查询为中心的设置中(Dang,2005;Xu 和 Lapata,2022),我们利用时间步 t 的更新作为查询。虽然背景摘要不包括来自当前更新的内容,但是当前更新仍然可以用于调节过去更新的摘要。这可能会提高背景的实用性。对于以查询为中心的摘要,我们探索了查询的多个变体,并比较了 Flan-T5 和 GPT-3.5。

1.1目标问题

新闻机构广泛报道自然灾害、政治冲突和选举等事件,并受到全世界读者的关注。生成这些事件的简洁摘要是一项具有挑战性的 NLP 任务(Chen 等人,2021)。对于热门新闻报道,记者会策划回顾性时间表,突出显示时间表上的关键子事件。然而,对于特定重大事件的新观察者来说,了解子事件更新的意义所需的历史背景可能是一项具有挑战性的考验。

1.2相关的尝试

时间线摘要是从新闻文章集合中自动提取事件时间线的任务(Chieu 和 Lee,2004)。更新摘要(Dang 和 Owczarzak,2009)涉及总结一组最近的文章,假设读者已经熟悉一组背景文章。此后,它在跟踪新闻专线(Aslam 等人,2015)和 Twitter 提要(Sequiera 等人,2018)中的事件的共享任务中得到了研究。我们提出的新颖的背景摘要任务为更新摘要任务提供了一个正交用例。背景摘要为读者提供了足够的历史背景,帮助他们了解最新的新闻更新。它总结了之前发生的事情,以解释当前新闻更新的背景。

1.3本文贡献

我们的实验表明,经过微调的 Flan-T5 系统在标准 ROUGE 指标上优于 GPT-3.5,但在事实性指标上表现不佳。这说明了与自动汇总指标相关的挑战。戈亚尔等人。 (2022)和张等人。 (2023) 强调了使用自动指标将微调系统摘要与来自高质量大型语言模型 (LLM) 的零样本摘要进行比较的困难。因此,我们还在这项工作中提出了一种新颖的基于问答的背景摘要评估,用于衡量给定背景摘要对更新的效用。首先,我们提示 GPT-3.5 生成有关更新中提到的事件和实体背景的问题。其次,我们从背景摘要中提取答案,以衡量它们在提供足够的信息方面的有效性。更新的古代历史背景。我们提出的背景实用分数(BUS)衡量的是有关当前新闻更新的问题的百分比,这些问题可以通过背景摘要来回答。我们的人工评估结果显示了 BUS 的有效性。

总之,我们的贡献如下:
1.我们提出了背景摘要的新任务,以帮助读者跟踪复杂的现实世界事件的日常更新。
2. 我们描述了一个专家注释的数据集,涵盖 2005 年至 2014 年的 14 个主要新闻事件,并有超过 1,100 个背景摘要。
3. 我们使用最先进的零样本和微调摘要系统进行基准实验。我们还探索了以查询为中心的摘要,它通过使用当前更新文本作为查询来生成背景。
4. 我们提出了一种有效的基于 QA 的评估指标,即背景效用分数 (BUS),以衡量背景摘要相对于更新的上下文的效用。

二.相关工作

现实世界中的事件往往很复杂,由无数线索组成(Liu et al., 2017),并被世界各地大量新闻机构报道。跟踪这些事件并向用户提供重要且有用的更新一直是自然语言处理和信息检索社区中许多工作的重点(Chen 等人,2021)。我们在下面重点介绍事件总结任务的两个具体变体,
时间线总结::
给定文档语料库和查询,任务是从文档中回顾性地提取重要事件并将它们放置在时间轴上(Chieu 和 Lee,2004)。典型的查询由海地地震或英国石油公司漏油等重大事件组成。数据集依赖于 BBC、路透社和纽约时报等机构的新闻记者编制的时间表。此任务的著名数据集包括 Timeline17 (Binh Tran et al., 2013)、Crisis (Tran et al., 2015)、Social Timeline (Wang et al., 2015)、entities dataset (Gholipour Ghalandari and Ifrim, 2020) 和TLS-Newsroom(Born 等人,2020)。
更新总结:
Dang 和 Owczarzak (2009) 首先提出了更新总结任务。给定两组文档 A 和 B,任务是生成文档集 B 的以查询为中心的更新摘要,假设摘要的用户已经阅读了文档集 A 中的文档。此任务已在新闻专线的文档上进行了研究(Aslam 等人,2015)和 Twitter 源(Sequiera 等人,2018)。与时间线摘要任务相反,系统无法访问未来的文档。实时向用户更新重要新闻事件对于新闻和政府机构非常重要(Guo et al., 2013)。然而,理解这些更新对于新读者来说可能具有挑战性。我们提出的背景总结任务是对更新的补充。
背景总结:
**提出了解开论文摘要的任务,其中为一篇学术论文生成两个单独的摘要:一个描述论文贡献的摘要,另一个总结论文上下文。**新闻事件的相关设置可以是事件更新和背景的清晰总结。陈等人。 (2022) 提出了电视剧记录和人工编写的摘要的数据集 (SummScreen)。与我们任务设置中的背景类似,回顾可以帮助观众了解当前剧集。一个关键的区别是,回顾通常仅提供最新剧集的信息,但不提供故事的一般背景。相比之下,背景摘要通常包括第一次更新的信息,以便将当前事件置于上下文中。
之前的一些工作研究了背景知识在标准摘要任务设置中的影响(Louis,2014;Peyard 和 West,2020)。典型的摘要设置要求系统生成文档集合的摘要,同时忽略接收者(或读者)已知的任何背景知识。 Peyard 和 West (2020) 使用了更广泛的背景定义。在他们的设置中,背景构成了用户已经熟悉的文档集合,类似于上面更新摘要定义中的文档集合A。我们对背景的定义构成了给定事件中与当前最新更新直接相关的先前更新的摘要。
长篇总结:
**我们提出的任务通常包含很长的事件时间线,要求系统执行长格式的摘要。**社区正在不断努力改进远程摘要系统。这包括书籍摘要(Wu et al., 2021)、会议摘要(Zhang et al., 2022)、电视剧本摘要(Chen et al., 2022)和长篇摘要系统评估(Krishna et al., 2022)方面的工作(Krishna et al., 2022)。 ,2023)。

三.背景总结

事件时间表可帮助读者跟踪重大新闻事件的更新。它们提供了事件随时间进展的简明概述,而无需阅读数百或数千篇有关该事件的新闻文章。然而,对于持久事件,跟踪所有子事件线程可能会给用户带来重大挑战(Liu et al., 2017)。我们假设用有关事件过去的简短背景摘要来补充每次更新可以帮助用户理解更新。我们的方法受到新闻文章的标准倒金字塔结构的启发(Pöttker,2003)。通常,新闻文章的顶部包含有新闻价值的新信息,后面是有关故事的更多详细信息,最后是必要的背景信息。这些背景信息可以帮助读者了解新闻故事的完整视角。在这项工作中,我们将其扩展到新闻时间表。

3.1 任务

给定一个由一系列更新组成的事件时间线 ⟨U1, . 。 。 ,UT ⟩,任务是生成背景摘要⟨B2,. 。 。 , BT ⟩ 适用于 U1 之后的所有更新。对于每个时间步 t > 1,我们希望找到最大化 p(Bt | U1, …, Ut−1; q) 的背景摘要 Bt,其中 q 是查询。在通用基线设置中,q为空;在queryfocused设置中,q设置为当前更新Ut。在后一种情况下,我们的目的不是总结 Ut,而是用它来将之前更新的总结引导到有助于解释当前更新 Ut 的内容。请注意,每个背景摘要 Bt 都是直接从先前的更新生成的,独立于先前的背景摘要 Bt−1。这使我们能够包含来自特定先前更新的与 Ut 相关的详细信息,而这些详细信息可能在 Bt−1 中找不到。

3.2 数据集构建

据我们所知,没有现有的数据集可以提供背景摘要。因此,我们基于三个流行的新闻时间线摘要数据集 Timeline17,为此编译了一个新的、专家注释的数据集
(Binh Tran 等人,2013)、危机(Tran 等人,2015)和社会时间线(Wang 等人,2015)。 Timeline17:该数据集由多个新闻网站汇编而成,提供了 17 个时间线,涵盖 2005 年至 2013 年的 9 个重大事件。
Crisis:Timeline17 数据集的后续数据集,涵盖 4 个重大事件的 25 个时间线。虽然它主要涵盖时间线 17 中的一部分事件,但它添加了一个新事件(也门危机)。
社交时间轴:整理了 6 个时间轴,涵盖 2014 年以来的 4 个重大事件。时间轴收集自维基百科、纽约时报和 BBC。
表 1 概述了根据三个数据集编制的 14 个主要新闻事件。由于时间线是从各种新闻网站(CNN、BBC、纽约时报等)收集的,因此许多事件都有多个时间线。由于每个时间线涵盖相同的基础事件,因此我们使用时间戳将它们合并,为每个事件创建一个时间线。在此合并过程中,我们通常会在每个时间戳中得到多个更新文本,并且可能包含重复的内容。我们要求注释者首先重写输入更新以删除任何重复的内容。我们对每个新闻事件的注释过程包含以下三个步骤: 1. 阅读输入时间线以获取对该事件的高级理解。
2. 对于每个时间步长,请阅读提供的“粗略”更新摘要。将更新重写为一个短段落,删除任何重复或以前报告的子事件。
3. 按顺序浏览时间线并为每个时间步编写背景摘要。

基于这个流程,我们聘请了三位专业注释员。对于每个时间线,我们收集三个独立的(重写的)更新和(新的)背景对。附录中的表 5 提供了我们完整的注释者指南。由于时间线中重写更新的细微差别,我们不会合并注释器时间线。表 1 提供了每个重大事件重写更新的平均长度和新注释的背景摘要。在我们的最终数据集中,时间线中的每个时间步都有三对重写的更新和背景摘要。

3.3 数据集分割

在我们的实验中,我们将 14 个主要事件分为训练集(3 个事件)、验证集(3 个事件)和测试集(8 个事件)。表 1 列出了每个分组中的事件。我们在分割中混合了短时间线和长时间线,并且测试集在时间上主要与训练/开发分割分开。
考虑到大型语言模型强大的小样本总结能力(Goyal et al., 2022;Zhang et al., 2023),我们决定只预算一小部分专家注释数据用于训练和开发,并将大部分事件留给测试集。这为我们的新任务提供了足够的数据来进一步微调基于指令的模型(Flan、GPT3+),同时保持测试集中足够的多样性。

3.4 注释者间协议

为了衡量注释者间一致性 (IAA),我们计算 ROUGE 分数2,其中一个注释者的摘要作为假设,其余两个注释者的摘要作为参考。3 表 2 列出了重写更新和新注释的 IAA 分数背景。正如预期的那样,我们在重写的更新中看到了很高的 ROUGE 分数。背景摘要的分数较低,表明背景摘要中存在固有差异。

3.5 后台效用分数 (BUS)

人们发现,诸如 ROUGE 之类的自动指标与人类对摘要的判断相关性很​​差(Louis 和 Nenkova,2013 年;Peyard,2019 年)。最近的研究强调了标准指标在比较微调和零样本摘要(Goyal 等人,2022;Zhang 等人,2023)。
为了考虑到这些限制以及评估背景质量的需要,我们为背景摘要任务提出了一种基于 QA 的指标。我们的指标,后台效用得分(BUS),衡量后台 Bt 对相应更新 Ut 的效用。
为了衡量效用,我们首先提示基于 GPT 的模型从更新文本 (Ut) 生成(背景)问题。然后,我们重新提示模型从背景文本 (Bt) 中提取答案。 BUS 衡量由背景回答的问题的百分比。图 2 显示了生成的 QA 对的示例。背景摘要应该能够回答读者在观察更新时可能提出的任何问题。虽然这些问题是潜在的,但我们通过提示基于 GPT 的模型来对它们进行采样。 BUS 的灵感来自 QuestEval(Scialom 等人,2021),这是一种可解释的基于 QA 的事实性度量标准,用于摘要。 QuestEval 通过从源中提取问题并计算源和摘要的答案范围之间的精确匹配 F1 来测量召回分数(对于精确度反之亦然)。
BUS 也与最近基于法学硕士的评估系统有切线关系,例如 Vicuna(Chiang 等人,2023),该系统探索了使用聊天机器人来评估聊天机器人。

四 实验效果

4.1数据集

4.2 对比模型

Flan-T5:T5 的指令微调版本(Raffel 等人,2020)。我们使用最大源长度为 512 个 token 的 Flan-T5-XL。4 LongT5:T5 的稀疏注意力变体,利用两种有效的注意力:局部注意力和瞬态全局注意力。源长度可能明显长于基于 T5 的系统的标准 512 个令牌限制(第 3.2 节)。我们使用最大源长度为 4096.5 GPT-3.5 的 Long-T5-TGlobal-XL:InstructGPT 模型(Ouyang 等人,2022)的变体,针对使用带有人类反馈的强化学习的对话进行了优化。我们在零样本设置中使用该模型。我们将最大源长度设置为 3696.6 我们探索通用和以查询为中心的摘要设置(第 3.1 节)。在以查询为中心的设置中,我们使用当前更新(Ut)作为摘要系统的附加输入。
以查询为中心:基于 T5 的系统的输入遵循模板“生成一个简短的以查询为中心的背景摘要”。
询问:
<查询>,背景:<过去的更新>。”对于 GPT3.5,我们使用任务后缀“生成背景的简短查询重点摘要”。我们对源和查询使用 512 和 128 限制。我们考虑两种查询变体。首先,我们使用完整更新(Ut)作为查询。其次,我们首先从中提取命名实体并将这些关键字用作查询。基于命名实体的方法消除了更新中的任何潜在噪音,并仅专注于提取有关更新中指定的重要人员或位置的背景信息。我们使用 SpaCy 英语 NER 模型从查询中提取命名实体。在我们所有的系统中,必要时我们会截断输入中最旧的更新。7我们使用 DeepSpeed 的 ZeRO Stage 3 来训练 Flan-T5 和 LongT5(Rasley 等人,2020)。我们将最大目标长度设置为 400 个令牌。
BUS:我们使用 GPT-3.5 作为我们的问答生成系统(参考 BUS-GPT-3.5)。我们每次更新都会生成五个问题,并使用 GPT 答案的启发式模式来识别无法回答的问题。8 继最近的研究表明人类与 GPT-4 具有更好的一致性(Liu 等人,2023),我们还尝试了 BUS-GPT-4.9

4.3实施细节

4.4评估指标

4.5 实验结果

4.5.1自动评估

在这里插入图片描述
表 3 显示了 Flan-T5 和 GPT-3.5 在通用和基于 NER 的查询集中设置中的验证和测试集的结果。我们报告了标准摘要指标 ROUGE(Lin,2004)、两个事实指标 QuestEval(Scialom 等人,2021)和 BERTScore Precision(Zhang* 等人,2020;Pagnoni 等人,2021)以及我们提出的分数效用度量总线(§3.5)。在通用摘要设置上,我们观察到经过微调的 Flan-T5 在 ROUGE 上优于零样本 GPT3.5。然而,零样本 GPT-3.5 模型在事实性指标和 BUS 上表现得更好。这些趋势在基于 NER 的以查询为中心的公式中也有效。有趣的是,我们发现以查询为中心的公式通常表现不佳。10 在我们的实验中,我们发现 Long-T5 在开发集上的表现低于 Flan-T5(附录中的表 9)。我们将对基于 Long-T5 的系统进行进一步评估以供未来工作。

4.5.2人工评价

我们进行人工评估,以确定人工书写的背景(第 3.2 小节)与 Flan-T5XL 和 GPT-3.5 生成的背景(通用;表 3 的上半部分)的相对质量。我们选择评估通用系统而不是以查询为中心的系统,因为它们在 ROUGE 上的卓越性能和开发集上的事实指标。
设置:
我们使用 Amazon Mechanical Turk (AMT) 平台。我们从测试集中抽取了 1,000 条新闻更新,并将每条新闻更新与以随机顺序显示的三个背景摘要配对。我们收集三位注释者对所显示的三个摘要中哪一个最好(即最有帮助)以及哪一个最差(即最没有帮助)的判断。我们使用多数投票来选出最好和最差的摘要。详细说明见附录图5。由于AMT平台上的标注者都是非专家,我们使用多种方法来获得高质量的判断,包括资格测试和时间控制;附录 A.2 中描述了包括注释者公平报酬在内的详细信息。

结果:
我们使用最佳-最差缩放(BWS;Kiritchenko 和 Mohammad (2017));表4显示他结果。这些值的计算方式为:选择最佳摘要类型的次数百分比减去选择最差摘要类型的次数百分比。值 1.0 或 -1.0 表示系统分别被一致评为“最佳”和“最差”。我们观察到,人工撰写的摘要明显优于 FlanT5-XL 和 GPT-3.5 摘要。
协议:
图 3 显示了 1000 个示例中最佳和最差摘要的投票分布。在 45% 的示例中,至少有两名注释者将人工编写的背景评为最佳。在不到 17% 的示例中,它们被评为最差。 Flan-T5 和 GPT-3.5 的最佳投票分布非常相似(23% 和 20%)。我们发现,只有不到 15% 的示例对最佳或最差系统达成一致。
理由:
由于人类背景的全面性,注释者往往更喜欢人类背景而不是 GPT-3.5。在我们收集的作为 AMT 评估一部分的理由中,人类背景被描述为“最全面”,并提供“完整的背景”。另一方面,GPT3.5 背景被描述为“太短”、“只是一个时间线”,并且提供“最少的信息”。


五 BUS Analysis

我们的人类评估结果显示了 Turker 之间的差异(图 3)。这与之前关于标准摘要数据集的工作的观察结果一致(Goyal 等人,2022 年;Zhang 等人,2023 年)。虽然人类评估可能非常有用,过去的工作强调了选择评估维度和任务设计的困难(Khashabi 等人,2022)。戈亚尔等人。 (2022) 建议根据用户在实践中如何使用系统来使用评估设置。为此,我们分析了 BUS (§3.5) 在衡量背景摘要的实际效用方面的有效性。

5.1 BUS–GPT

设置:按照我们的人工评估设置(第 5.2 节),我们比较人工编写的、Flan-T5-XL 和 GPT-3.5 背景。我们使用 BUS (§3.5) 计算可回答问题的百分比,并使用此分数来确定每次更新的最佳和最差系统。
结果:图 4 提供了使用基于 GPT-3.5 的 BUS(参考号 BUS–GPT-3.5)和基于 GPT-4 的 BUS(参考号 BUS–GPT-4)的测试集中相同 1,000 个更新的最佳/最差投票计数)。11 为了进行比较,我们还包括了人类评估的投票计数(第 5.2 节;参考 BWS)。12
通过 BUS-GPT-3.5,我们观察到人类书写的背景略优于 GPT-3.5。 Flan-T5 的表现明显不佳。 BUS-GPT-4 与我们的最佳/最差缩放人类评估 (BWS) 更加一致。这与之前基于 GPT-4 的评估工作中的类似观察结果一致(Liu 等人,2023)。
总体而言,BUS-GPT-3.5 和 BUS-GPT-4 在人工编写和 GPT- 方面表现出不同的趋势。3.5 背景。为了分析这种差异,我们提出了一种 BUS 人类评估,该评估使用人类编制的问答对。

5.2 BUS–Human

我们不依赖 GPT-3.5(或 4),而是使用 Mechanical Turk 来生成问答对。我们首先要求注释者为 1,000 条新闻更新中的每条生成 5 个背景问题。对于这些更新和问题元组中的每一个,我们将其与相关的背景摘要之一配对,并要求注释者尝试仅使用其中一个背景摘要中的信息来回答所有五个问题(或者如果摘要不包含回答)。
然后,我们将 BUS-Human 计算为每种背景摘要类型已回答问题的百分比。13 结果如图 4 所示(参考 BUS-Human)。 BUS-Human 与我们的人类评估结果 (BWS) 和 BUS-GPT-4 表现出明显的一致性,说明了我们提出的 BUS 指标的有效性。然而,这也凸显了使用 GPT-3.5 等自动系统来生成问答对的潜在缺点。

5.3 Comparison of BUS methods

问题:我们分析了 BUS-GPT-3.5、BUS-GPT4 和 BUS-Human 三个变体产生的问题。在附录中,我们提供了生成的问题,例如三个测试事件的更新:MH370 航班失踪(表 10)、也门危机(表 11)和利比亚危机(表 12)。总体而言,人类和 GPT 都会产生专门针对背景知识的问题。 Turkers 的问题具体且简短,而 GPT 问题则更加详细,通常包含两个或更多子问题。问题针对命名实体(表 10)和过去事件(表 11、表 12)等方面。
但是,我们也看到不针对背景信息的问题。来自人类和 GPT 的一些问题要求提供有关更新中描述的事件的更多详细信息。参见也门危机中 Turker 2 的 Q3 和 GPT-3.5 的 Q4(表 11),以及利比亚战争中 GPT-4 的 Q5(表 12)。有几个问题询问更新中描述的事件的后果。参见 MH370 失踪事件中 GPT4 的 Q5(表 10),也门危机中 Turker 2 的 Q4 和 Q5(表 11)。
BUS-GPT-3.5 与 BUS-GPT-4:我们注意到 BUSGPT-3.5 存在答案幻觉,即即使背景文本中没有提及,也会给出答案。另一方面,GPT-4 更擅长拒绝无法回答的问题(附录中的表 13)。这解释了我们观察到人类与 BUS-GPT-4 的一致性更好。
BUS-Human 与 BUS-GPT:我们的分析表明,人类评估仍然是我们提出的背景摘要任务的黄金标准(BWS §5.2;BUS-Human §6.2)。 GPT-4 呈现出有希望的结果,可以作为人类评估的快速、经济高效的替代方案。
应用:我们相信 BUS 可以扩展到相关的摘要任务,例如电视回顾(Chen et al., 2022)和科学文章的解缠结摘要(Hayashi et al., 2020)。类似 BUS 的指标可以衡量重述与当前电视剧集的相关性以及论文上下文与其贡献的相关性。

六 总结

为了帮助读者跟踪漫长而复杂的事件时间表,我们提出了新闻背景摘要的任务。我们对时间线中的每一次更新都提供了背景摘要,为读者提供了足够的背景信息。我们为此任务提供了一个专家注释的数据集,其中包含来自三位注释者的 1,100 多个背景摘要。在此数据集上,我们对一套最先进的摘要系统(Flan-T5、LongT5 和 GPT-3.5)进行了基准测试。我们的结果表明,零样本 GPT3.5 系统在事实性指标上优于微调系统,但在 ROUGE 上表现不佳。鉴于缺乏准确捕捉背景摘要对新闻读者效用的指标,我们提出了一种新颖的基于 QA 的指标 BUS,该指标衡量可从相应背景摘要中回答的有关更新的问题的百分比。
对于未来的工作,我们计划直接从新闻文章而不是过去的更新中探索背景摘要。以前被认为不重要但与最新新闻更新直接相关的子事件可以在此设置中捕获。我们还对针对我们的任务对基于方面的摘要系统进行基准测试感兴趣。

局限性

个性化背景:虽然背景摘要对任何新闻读者都有帮助,但其实用性可能会根据读者对事件的熟悉程度而有所不同。在我们的 BUS 分析(第 6 节)中,我们观察到两个 Turker 提出的问题存在差异。在理想的环境中,系统应该能够生成适合读者的个性化背景摘要。
本地事件:我们的数据集和系统目前仅限于选择涉及灾难和冲突的全球热门事件(表 1)。对于特定社区的本地事件,很难找到时间表,更难创建背景摘要。我们承认背景对当地事件同样有影响,并将这一扩展留给未来的工作。
新闻文章的背景:我们从过去的新闻更新中生成背景。但是,它们也可以直接从新闻文章生成。我们将此扩展留给未来的工作。

  • 28
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值