NLP论文阅读记录-EMNLP2023|05 QTSUMM: Query-Focused Summarization over Tabular Data


前言

在这里插入图片描述

通过人工编辑改进摘要(2305)

code
paper


0、论文摘要

人们主要查阅表格来进行数据分析或回答特定问题。文本生成系统可以根据用户的信息需求提供准确的表格摘要,可以促进更有效地访问相关数据见解。受此启发,我们定义了一个新的以查询为中心的表摘要任务,其中文本生成模型必须对给定的表执行类似人类的推理和分析,以生成定制的摘要。我们为此任务引入了一个名为 QTSUMM 的新基准,其中包含 2,934 个表中的 7,111 个人工注释的查询摘要对,涵盖不同的主题。我们研究了 QTSUMM 的一组强大基线,包括文本生成、表到文本生成和大型语言模型。实验结果和手动分析表明,新任务对未来研究的表到文本生成提出了重大挑战。此外,我们提出了一种名为 REFACTOR 的新方法,用于从表格数据中检索和推理查询相关信息,以生成多个自然语言事实。实验结果表明,REFACTOR 可以通过将生成的事实连接到模型输入来改进基线。

一、Introduction

1.1目标问题

在数据驱动决策的时代,表格数据作为信息简洁、结构化的表示,在促进数据分析方面发挥着至关重要的作用(Kukich,1983;Pasupat和Liang,2015;Chen等,2020c;Zhu)等人,2021;赵等人,2022a;唐等人,2023)。人们经常查阅表格来提取有价值的见解并做出明智的决策。例如,销售经理通常会探索包含特定业务问题的大型表格,以获取有关客户和流程的见解。体育教练将分析表现包含各种统计数据的表格,用于制定游戏策略和进行团队调整。然而,有效访问和理解大型复杂表格中包含的信息对于用户来说可能非常耗时(Hurst,2000;Pasupat 和Liang,2015;Pujara 等人,2021;Nan 等人,2022a)。可以根据用户的信息需求准确总结所提供的表格的文本生成系统有可能大大增强数据分析并加快获取数据洞察的过程。

1.2相关的尝试

表到文本生成的现有工作和数据集(Parikh et al., 2020; Chen et al., 2020a; Cheng et al., 2022b; Lebret et al., 2016; Moosavi et al., 2021; Suadaa et al. ., 2021)主要关注将表格数据转换为连贯的语句,旨在以人类可读的格式呈现结构化数据。然而,这些方法忽视了解决问题的根本目标。
用户寻求信息的目的。表到文本生成系统应采用更加灵活和交互式的方法,使人们能够获得适合其信息需求的用户定制摘要(Dang,2006;Xu 和 Lapata,2020;Zhong 等,2021;Xu 和Lapata, 2022; Zhou et al., 2023),如图 1 所示。 ,2020c;Nan 等人,2022b)在回答基于事实的问题方面取得了重大进展,他们的方法的主要重点是从表格中提取相关事实或实体并撰写简短的答案。然而,在现实场景中,用户往往有更复杂和多样化的信息需求,超出了简单的事实检索范围。他们期望模型能够执行类似人类的推理,并提供值得信赖的解释或分析以及提取的见解。

1.3本文贡献

综合考虑用户在查阅表格数据时的现实信息需求,我们提出了一个新的任务——以查询为中心的表格摘要。在此任务中,模型需要根据给定的表和用户查询生成用户定制的摘要。为了开展这一领域的研究,我们构建了一个名为 QTSUMM1 的人工注释表到文本生成数据集,其中包含涵盖不同主题的 2,934 个维基百科表中的 7,111 个查询摘要对。表 1 将 QTSUMM 与之前的表到文本生成数据集进行了比较。据我们所知,QTSUMM 是第一个解决基于现实场景生成用户定制表摘要任务的数据集。
我们对当前最先进的模型进行了全面评估,包括文本生成(Lewis et al., 2020;Raffel et al., 2020;Chung et al., 2022)、表到文本生成(Liu et al., 2022b;Zhao et al., 2022b;Jiang et al., 2022)和大型语言模型(Touvron et al., 2023a,b;Zheng et al., 2023;Jiang et al., 2023a;Xu)等人,2023;OpenAI,2023)。我们从不同角度的结果和分析表明,现有模型在解决这项新任务时遇到了困难,凸显了模型在执行类似人类的推理和分析以生成适合用户信息需求的摘要时所面临的挑战。
为了改进 QTSUMM 的两个文本生成系统,我们提出了 REFACTOR。给定用户查询,REFACTOR 可以从源表中检索和推理与查询相关的事实,以生成自然语言句子中的多个数据见解。我们的结果表明,直接将原始输入序列与 REFACTOR 的生成连接起来可以为最先进的基线系统带来有效的改进。

总之,我们的贡献如下:
• 我们提出了一个新的以查询为中心的表摘要任务,并构建了一个大规模基准QTSUMM,其中包含在现实情况下收集的7,111 个查询摘要对。采用严格的质量控制措施来确保数据集的高质量。 • 我们对QTSUMM 上最先进的模型进行了系统研究,并表明它们仍然远远落后于专家的表现,这激励了未来对这一新的表到文本任务的研究。
• 我们提出了 REFACTOR,用于从表中高效检索和推理与查询相关的事实。它展示了与最先进的文本生成基线相关的显着增强。

二.相关工作

在这里插入图片描述

表到文本生成

如表 1 所示,现有的表到文本生成工作和数据集通常将问题视为单句生成任务(Chen 等人,2020a;Parikh 等人,2020;Cheng 等人,2022b) ;Liu 等人,2022a),或通用摘要任务(Lebret 等人,2016;Moosavi 等人,2021;Suadaa 等人,2021)。在单句生成任务中(Parikh et al., 2020;Chen et al., 2020a;Cheng et al., 2022b),重点是使用提供的表格区域作为文本生成的控制来生成流畅且忠实的描述。然而,使用表格区域来控制文本生成与现实场景并不相符,在现实场景中,人们参考表格数据来寻求信息。通用表格摘要任务(Lebret et al., 2016;Moosavi et al., 2021;Suadaa et al., 2021)旨在根据给定领域特定表格(即体育或科学)的内容创建简洁且信息丰富的摘要。 。相比之下,QTSUMM 中的表格涵盖了不同的主题。此外,考虑到表中的众多数据点,不同的用户可能对自己的信息查找的不同方面感兴趣目的,使得创建包含表中所有重要信息的通用摘要具有挑战性。因此,在本文中,我们提出并研究了一种与以查询为中心的摘要相关的新任务设置。 FeTaQA (Nan et al., 2022b) 是一个表 QA 数据集,它通过将 ToTTo (Parikh et al., 2020) 的语句重写为问题来收集查询,并使用相同的语句作为答案。与FeTaQA相比,QTSUMM中的查询是在真实场景下进行注释的,使其更加自然,更好地反映用户的实际信息需求。

基于表格数据的推理

增强模型的表格推理能力对于表格相关的各种任务(例如表格问答)至关重要(Pasupat and Liang, 2015; Iyyer et al., 2017;zhong et al., 2018; Zhu et al., 2023d )、表事实验证(Chen et al., 2020b)和表到文本生成(Chen et al., 2020a;Cheng et al., 2022b)。一种流行的方法是使用表文本联合推理数据预训练模型(Herzig et al., 2020;Liu et al., 2022b;Zhao et al., 2022b;Liu et al., 2022a;Jiang et al., 2022) ;Dong 等人,2022;Cheng 等人,2022a;Xie 等人,2022)。然而,这些模型以端到端的方式生成文本,导致可解释性降低,并且难以处理更复杂的推理,例如算术计算。因此,我们提出了 REFACTOR,它可以从表中检索并生成与查询相关的事实作为模型输入的中间结果(Zhou et al., 2022;Zhao et al., 2023b),从而减轻文本生成模型的隐式推理过程。

面向查询多文档自动文摘

QFS 最初被制定为文档摘要任务,旨在从针对特定用户查询定制的文档生成摘要(Dang,2006)。尽管 QFS 在现实世界中具有潜在的应用前景,但由于缺乏大规模的训练数据,它仍然是一项具有挑战性的任务。现有的工作试图通过利用远程 NLP 资源来解决这个问题,包括问答(Xu 和 Lapata,2020)和释义识别(Su 等人,2020)以及通用摘要(Xu 和 Lapata,2022;Zhou 等人,2022)。 ,2023)。最近,钟等人。 (2021) 采用 QFS 进行会议总结,并提出了会议记录的人工注释基准。与文本类似,有效访问和理解大型复杂表格中包含的信息对于用户来说可能非常耗时,而 QFS 在表格到文本生成方面仍未得到探索。在这项工作中,我们将 QFS 扩展到这种新模式,以实现更有效的信息查找和决策目的。

三.本文方法

3.1 以查询为中心的表摘要

Problem Formulation

我们正式定义所提出的以查询为中心的表汇总任务如下。输入是用户查询 Q 和表 T 。表 T = W ∪ {Ti,j|i ≤ RT , j ≤ CT } 有 RT 行和 CT 列,W 是表标题,Ti,j 是第 (i, j) 个单元格中的文本内容。 QTSUMM 的任务目标是根据用户查询 Q 和源表 T 生成一段长文本摘要 Y = (y1, y2, …, yn) :
在这里插入图片描述
其中 θ 表示神经文本生成模型的参数,yi 表示生成的摘要中的第 i 个标记。

收集数据的准则

在较高层面上,数据收集过程的目标是获得高质量的用户查询和基于表格数据的相应段落长摘要。我们概述了设计基准的关键标准,以彻底评估模型的表到文本摘要能力。为了实现这一点,我们首先设计三个原则来注释一个好的查询-摘要对:
• 全面性:定制的摘要应提供足够的源表详细信息和分析,以响应用户的查询,满足用户的信息需求。
• 归属性和可信性:查询应该仅使用源表中的信息即可回答。摘要应以源表为基础,不得包含任何不忠实或无意义的文本。
• 流畅性:用户查询及其对应的表摘要都应该连贯、流畅。

注释管道

为了确保 QTSUMM 注释满足上述原则,我们精心设计了一个注释管道,包括以下步骤:

源表集合

QTSUMM 使用 LOGICNLG(Chen 等人,2020a)和 TOTTO(Parikh 等人,2020)数据集中的表作为源表,因为这些表来自维基百科,涵盖不同的领域和主题。我们过滤掉以下表格:1)太大或太小,2)仅包含字符串类型列,或 3)具有分层结构(例如,包含多个表头)。然后,我们分别从 LOGICNLG 和 TOTTO 中随机抽取 2,000 个候选表,用于查询摘要注释。

用户查询标注

给定一个表格,注释者需要阅读其内容,并确定该表格是否信息丰富且对于普通网络用户来说是否易于理解。然后,假设他们是从表中查找某些信息的用户,他们被要求提出两个或三个查询。我们要求每个查询只能使用表中的信息来回答。此外,由于这项工作侧重于长段落摘要作为查询响应,我们避免可以用短句回答的查询(例如,“哪个国家举办了 2022 年 FIFA 世界杯?”)。

以查询为中心的摘要注释

给定一个表和用户查询,我们要求另一个注释器仅使用源表中的信息来编写满足用户信息需求的长段落摘要。我们鼓励注释者生成复杂的摘要,1)包含尽可能多的表信息,2)涉及多个相关表区域的更多类型的推理。为了进一步鼓励高质量注释,我们采用“双通道集合”设计(Chen et al., 2020b),其中如果注释者的摘要经过手动验证以表现出足够的复杂性,则注释者的报酬将增加 60%。我们还要求注释者注释书面摘要中引用的相关表格区域的行索引,以便未来的研究人员能够量化摘要在他们的工作中基于表格的程度。

Multi-Round Validation

我们进行多轮验证协议,以确保注释数据满足上述注释原则。我们首先分配查询注释器来根据相应的查询验证每个摘要,并修复错误(如果有)。然后,我们通过检查摘要的长度来检查 1)查询-摘要对是否包含足够的信息和复杂的聚合,以及 2)摘要中的信息对于响应用户查询是否至关重要。我们手动修改不符合上述标准的对。

标注质量控制

在这里插入图片描述
表2描述了QTSUMM的基本统计数据。除了多轮验证之外,我们精心设计了多种质量控制方法,
包括专家注释和众多注释去偏差设计,以确保QTSUMM注释的高质量。

专家注释者

为了帮助改进标注过程,邀请了五位在文本摘要任务方面具有专业经验的专家进行内部标注。要求他们提供有关任务说明和注释界面的用户体验的反馈,在此基础上我们迭代修改注释指南和界面设计。在外部标注阶段,我们招收了17名STEM领域的研究生(10名女性,7名男性)。我们不使用 Mechanical Turk 等众包注释平台,因为我们的初步研究表明 MTurk 上的注释器无法注释高质量的查询摘要数据。在开始正式标注过程之前,每个标注者都会接受两个小时的培训,以学习标注要求和接口。

注释去偏

我们在内部标注过程中观察到了几种标注偏差,并针对标注去偏差提出了如下对策:
源表多样性:在内部标注过程中,我们发现LOGICNLG中的很多表都有相似的内容。例如,大约有 200 个描述足球比赛结果的表格,具有相同的表格标题。为了保证源表的多样性,我们为每个唯一的表头只保留一张表。
查询多样性:在注释查询时,注释者可能更喜欢更简单的查询,从而导致查询多样性较低。因此,我们经常监控每个注释者查询的多样性。还鼓励注释者制作具有创造性或需要复杂推理进行总结的查询,从而获得双倍的报酬来补偿他们额外的时间。
支持事实立场:我们发现注释者更喜欢针对每个表的前几行提出查询。为了解决这种支持事实立场的偏见,我们在注释界面中随机突出显示每个表的某些行。我们要求注释者编写查询,其摘要应覆盖至少两行突出显示的区域。质量和注释者间协议(表 3)。
在这里插入图片描述

QTSUMM Evaluation

我们开发了一种评估 QTSumm 的综合方法,结合了自动评估和人工评估。我们采用以下流行的自动评估指标:
BLEU(Papineni 等人,2002)计算输出文本 ngram 精度的几何平均值。我们使用 SacreBLEU(Post,2018)来生成可比较且可重复的 BLEU 分数。
ROUGE(Lin 和 Hovy,2003)测量候选摘要和参考摘要之间的单词重叠。我们报告了 ROUGE-L(最长公共子序列)的 F1 分数。
METEOR(Banerjee 和 Lavie,2005)基于机器生成的翻译和人类生成的参考翻译之间一元匹配的广义概念。
BERTScore(Zhang 等人,2020)使用上下文词嵌入计算参考和生成的摘要之间的相似性。
TAPAS-Acc(Herzig 等人,2020;Liu 等人,2022a)是一种无参考指标,它使用在 TabFact 数据集(Chen 等人,2020b)上微调的 TAPAS(Herzig 等人,2020)作为评价一代人忠诚度的支柱。 AutoACU(Liu et al., 2023a)是一种可解释且基于参考的摘要评估系统,它与人类判断表现出更好的一致性。 A2CU 首先从生成的摘要中提取原子内容单元 (ACU),然后根据参考对其进行评估。 A3CU是A2CU的加速版本,直接计算两个文本之间的相似度,无需提取ACU,但具有相似的评估目标。我们使用A3CU的F1分数进行评估。
**对于人工评估,**专家根据 3.2 节中讨论的三个标准(即全面性、忠实性和流畅性)对不同模型的摘要进行评估。每个摘要的每个标准的评分从 1(最差)到 5(最好),最终分数是不同评估者的平均分。

3.2REFACTOR重构

QTSUMM 要求模型在生成摘要时执行类似人类的推理,从而提供对源表的全面、精确的分析,以满足用户的信息需求。然而,现有的端到端文本生成模型依赖于容易出错的隐式推理过程来生成文本,导致可解释性降低,并且在解决需要复杂的类人推理的用户查询时面临挑战(Zhou et al., 2022;Zhao et al., 2022)等,2023b)。为了解决这个问题,我们提出了 REFACTOR,用于从表格数据中检索和推理查询相关信息,以生成多个 NL 数据见解(即事实)作为显式推理结果。如图 3 所示,生成的事实与模型输入连接,以减轻隐式推理问题,增强生成摘要的全面性和忠实性。接下来我们讨论 REFACTOR 的实现。

Fact Generation事实生成

给定用户查询和源表,REFACTOR 将通过对数据执行各种形式的类人推理来生成多个候选事实。布莱。具体来说,我们定义了 QTSUMM 任务所需的 6 种表格推理操作(例如数值运算、计数和合取),如附录中的表 7 所示。对于每个推理操作,事实生成器(采用Zhao et al. (2022b))采用一个表和一个查询作为输入。它根据事实模板生成多个事实。每个事实模板都包含几个占位符,需要用从表中检索到的信息来填充这些占位符。具体来说,列 col 和单元格值 val 被索引以分别指定列和单元格名称。有些模板还规定所选列和单元格值必须是日期或数字类型。 OPERATOR对应的是根据具体推理推理实例化的运算符。 CONDITION:i 可以是 1) 第 i 列的单元格值;或 2) 如果第 i 列是日期或数字类型,则为数字/时间比较语句。替换所提供模板中的所有占位符后,事实生成器将以编程方式返回执行结果并形成一个事实。从不同的事实生成器收集到{表,查询}对的事实后,我们将它们传递到事实排名过程。

Fact Ranking

给定查询和源表,每个事实生成器将用于生成多个与查询相关的事实,总共产生大量候选事实。因此,我们需要对生成的事实进行排序以选择最相关的事实。我们使用 QA 编码模型(Reimers 和 Gurevych,2019)来获取查询和每个生成事实的嵌入。然后,我们选择与查询嵌入具有最高余弦相似度的前 n 个生成事实。在实践中,我们将 n 指定为 max
在这里插入图片描述
并确保从每种类型的推理操作中选择的事实数量不超过3。然后将所选事实连接到模型输入中,这些事实对于端到端文本生成系统来说是方便且容易使用的。

四 实验效果

4.1数据集

我们在 QTSUMM 上评估以下三种最先进的基线系统 2:

4.2 对比模型

文本生成模型

BART(Lewis 等人,2020)是一种预训练的去噪自动编码器,具有基于 Transformer 的架构,并在 NLG 任务中显示出有效性。
T5(Raffel et al., 2020)通过在预训练阶段将所有 NL 问题视为文本到文本任务,展示了 NLG 任务的有效性。
Flan-T5(Chung 等人,2022)通过扩展指令微调来增强 T5,并表现出比 T5 更好的类人推理能力。

表到文本生成模型

TAPEX(Liu et al., 2022b)通过使用大规模的合成 SQL 查询执行数据语料库继续预训练 BART 模型。它显示出更好的表格理解和推理能力。
ReasTAP(Zhao 等人,2022b)通过在合成表 QA 语料库上进行预训练,增强了 BART 的表理解和推理能力。
OmniTab (Jiang et al., 2022) 使用与 TAPEX 相同的主干网,并根据收集的天然和合成表 QA 示例进行进一步预训练。

Large Language Models

大型语言模型
Llama-23 (Touvron et al., 2023a,b) is an opensource large language model trained on large-scale and publicly available datasets.
Vicuna4 (Zheng et al., 2023) is tuned from Llama-1 with instruction-following data, exhibiting better instruction-following capabilities.
Mistral5 (Jiang et al., 2023a) is a 7–billionparameter LLM that outperforms Llama-2-13B across most of popular evaluated benchmarks.
Lemur6 (Xu et al., 2023) is tuned from Llama-2 with instruction-following data, exhibiting competitive natural language and coding capabilities.
GPT (Brown et al., 2020; OpenAI, 2023) is a powerful large language model which is capable of generating human-like text and performing a wide range of NLP tasks in a few-shot setting.

4.3实施细节

输入数据序列化和 LLM 提示示例的细节在附录 A 中讨论。所有实验均在 8 个 NVIDIA RTX A6000 48GB 集群上进行。我们为所有微调的基线模型选择了大版本,其权重可在 HuggingFace 上公开获得。对于每个微调实验,我们运行 15 个 epoch,批量大小为 128。根据验证损失选择最佳微调检查点。开源法学硕士的实验是使用 vLLM 框架进行的(Kwon 等人,2023)。我们通过 OpenAI API 将 gpt-3.5-turbo-0613 用于 GPT-3.5,将 gpt-4-0613 用于 GPT-4。对于LLM超参数设置,我们将温度设置为1.0,Top P设置为1.0,最大输出长度设置为256。

4.4评估指标

4.5 实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.5.1理解表结构的重要性

表到文本生成模型比相应的文本生成模型具有更好的性能主干,展示了考虑 QTSUMM 任务表结构的重要性。

4.5.2推理和分析的重要性

在文本生成模型中,Flan-T5 通过缩放指令微调增强了 T5,其性能优于 T5。此外,具有改进推理能力的法学硕士(即 Llama-2-70B 和 GPT-4)也取得了更好的性能。这些发现表明推理和分析技能在处理 QTSUMM 任务中的重要性。

4.5.3自动评估与人工评估之间的不匹配

尽管在 BLEU 和 ROUGE 等流行的自动化评估指标中得分较低,但 GPT-* 在人类评估中表现出比最先进的微调模型更好的性能。这一发现强调了未来研究需要调查 QTSUMM 任务的自动化评估指标的开发,以更好地符合人类判断(Zhang 和 Bansal,2021;Liu 等人,2023a;Jiang 等人,2023b)。

4.5.4REFACTOR 的有效性

根据人工评估的评估,采用 REFACTOR 的基线系统通常会产生更好的性能,尤其是在可信度级别。这表明 REFACTOR 在增强文本生成推理过程方面的功效。

4.6 误差分析

为了更深入地了解 QTSUMM 上以查询为中心的表汇总任务,我们进行了错误分析以说明现有的挑战。我们确定了当前文本生成模型可能犯的四种常见错误(即幻觉、事实错误、用户意图误解和重复),并在附录的表 8 中为每种类型的常见错误提供了详细的示例和解释。

4.7重构分析

我们还进行了人工评估,以检查 REFACTOR 从表格数据生成查询相关事实的有效性。具体来说,我们从 QTSUMM 验证集中随机抽取 200 个示例,并要求两名评估员评估 REFACTOR 生成的每个事实,确定其与查询的相关性。 56.4% 生成的事实(937 个中的 528 个)被标记为“相关”,表明 REFACTOR 的覆盖范围足够。为了更深入地研究这一点,我们还进行了一项案例研究,检查失败案例,特别是那些少于两个事实被注释为“相关”的例子。
我们确定了三种常见的失败案例:
(1)通过基于规则的方法解析单元格值很困难,
(2)复杂的用户查询导致对相关事实进行排序困难,以及
(3)不支持的推理操作。我们在表 5 中提供了详细的示例和解释。


五 总结

本文定义了一种新的以查询为中心的表汇总任务,并构建了一个大规模基准QTSUMM。我们研究了一组强大的基线,包括文本生成、表到文本生成和大型语言模型。实验结果和手动分析表明,新任务对表格到文本的生成提出了重大挑战。此外,我们提出了一种名为 REFACTOR 的新颖方法,用于从表中检索和推理与查询相关的信息,从而提高生成摘要的可信度。

  • 21
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值