可控摘要综述—可控文本摘要调查,原文阅读:Controllable Text Summarization: Unraveling Challenges, Approaches, and Prospec

Controllable Text Summarization: Unraveling Challenges, Approaches, and Prospects - A Survey

可控文本摘要:挑战、方法和前景——一项调查

paper:https://arxiv.org/abs/2311.09212

github:https://github.com/ashokurlana/controllable_text_summarization_survey

原文阅读

Abstract

通用的文本摘要方法往往无法满足个人用户的特定意图和需求。最近,学术界的注意力转向了开发更符合特定目标和用户需求的可控摘要方法。尽管可控摘要的研究成果越来越多,但目前还没有一份全面的调查报告来深入探讨在这种情况下使用的各种可控属性,深入研究相关的挑战,并调查现有的解决方案。在本调查报告中,我们正式提出了可控文本摘要(CTS)任务,根据可控属性的共同特点和目标对其进行了分类,并对每个类别中的现有数据集和方法进行了深入研究。此外,基于我们的发现,我们揭示了 CTS 的局限性和研究空白,同时也探讨了 CTS 的潜在解决方案和未来发展方向。我们在 https://github.com/ashokurlana/controllable_text_summarization_survey上发布了对 CTS 论文的详细分析。

1 Introduction

尽管自动文本摘要技术取得了长足进步,但其 "一刀切 "的方法仍无法满足不同用户和应用场景的不同需求。例如,一般的自动摘要可能难以为非专业用户生成易于理解的科学文档摘要,或为在线馈送创建极其简短的新闻报道摘要。最近,出现了无数旨在生成更可控的 Fan 等人(2018 年);Maddela 等人(2022 年);He 等人(2022 年);Zhang 等人(2023 年);Pagnoni 等人(2023 年)和满足广泛用户需求的定制文本摘要的作品。

介绍CTS可控文本摘要任务:

CTS 任务的核心是创建符合特定标准的源文件摘要。这些标准通过各种可控属性(CA)或方面进行管理,如摘要长度 Kwon 等人(2023 年)、写作风格 Goyal 等人(2022 年)、关键信息覆盖率 Li 等人(2018 年);Jin 等人(2020 年)、内容多样性 Narayan 等人(2022 年)等等。这些标准因任务、用户需求和具体应用环境而异。例如:

  1. 长度控制摘要 Hitomi 等人(2019)在社交媒体帖子、标题和摘要等要求简洁的情况下特别有用。
  2. 在市场营销、学术写作或专业交流等领域,风格控制摘要 Chawla 等人(2019)对于确保信息符合预期语气和信息传递策略至关重要。
  3. 主题控制摘要 Bahrainian 等人(2021 年)也常用于研究论文、报告和内容策划中,强调特定主题,以提高所提供信息的清晰度和连贯性。

如图 1 所示,研究界对各种 CA 的关注度分布不均。大多数 CTS 作品都集中在长度、主题和风格的管理上。这可归因于两个主要因素。首先,与结构和多样性等方面相比,开发用于评估长度、主题和风格的数据集相对简单。其次,长度或主题导向摘要有大量的应用场景,例如生成简洁的新闻馈送或重点突出的法律报告。

在本次调查中,我们收集并分析了 61 篇与各种可能的 CA 有关的研究论文。论文筛选标准见附录 A。随后,我们将这些 CA 分成 10 个类别,并根据共同特征和目标对类似 CA 进行分组。此外,我们还深入研究了现有的数据集,评估了它们的创建方法以及是否适合每个 CA 类别中的相应任务。此外,我们还仔细研究了当前针对每个 CA 类别的 CTS 方法,对其总体框架进行了比较,并讨论了相关的局限性。随后,我们详细讨论了各种著作中使用的通用和特定 CA 评估策略。最后,我们试图对当前的方法进行批判,并揭示未来潜在的研究轨迹。据我们所知,这是第一份关于 CTS 的全面调查报告。

在这里插入图片描述

2 Task Formulation

在这里插入图片描述

CTS任务公式介绍:

本节将介绍可控文本摘要(CTS)任务,概述其定义,并对不同的可控属性进行分类,同时对每种属性进行简明扼要的描述。给定一组源文件 D = { d 1 , d 2 , … , d k } D=\{d_{1},d_{2},\ldots,d_{k}\} D={d1,d2,,dk}。每个文档 d i d_{i} di 都由 n n n 标记序列组成: { x i , 1 , x i , 2 , … , x i , n } \{x_{i,1},x_{i,2},\ldots,x_{i,n}\} {xi,1,xi,2,,xi,n} S i S_{i} Si 是文档 d i d_{i} di 的目标摘要,由 m m m 标记序列组成: { s i , 1 , s i , 2 , … , s i , m } \{s_{i,1},s_{i,2},\ldots,s_{i,m}\} {si,1,si,2,,si,m},其中 m / l l n m/ll n m/lln。用户希望控制一组可控属性 C C C。这项任务可以归结为一个条件生成问题: P ( S ∣ D , C ) = ∏ i k P ( S i ∣ d i , C ) P(S|D,C)=\prod_{i}^{k}P(S_{i}|d_{i},C) P(SD,C)=ikP(Sidi,C)

2.1.Controllable Attributes

在这里插入图片描述
在这里插入图片描述

可控属性分类:

可控属性或方面 (CA) 是指摘要的用户或应用程序驱动特性,旨在满足特定标准或条件,例如长度、风格、角色等。在文献中,显然不同的作者使用不同的术语来描述相同的 CA,它们表现出相似的特征和目标(例如“显著性:关键信息”和“覆盖范围:粒度”)。此外,许多属性可以用一个代表性类别来封装;例如,“风格”可以作为一个包含语气、可读性、幽默、浪漫和类似方面的类别,便于将它们归类在同一类别中,如表 3 所示。基于这些观察,我们将 CA 分为 10 个类别,如表 2 所列。

3 Related Surveys

在文献中,大量的调查围绕传统的文本摘要方法,包括针对特定任务的调查,例如多文档摘要(Sekine 和 Nobata,2003 年)、跨语言摘要(Wang 等人,2022 年)和基于对话的摘要(Tuggener 等人,2021 年)。有几项调查集中于文本生成技术(Zhang 等人,2023a;Prabhumoye 等人,2020 年)和因果视角(Wang 等人,2024 年;Hu 和 Li,2021 年)。相反,这是第一项通过对 CTS 方法、挑战和前景进行彻底分析来关注可控摘要的调查。

4 Datasets

本节概述了 CTS 数据集和相应的创建/获取策略。CTS 方法通过几种方式进行评估:1) 利用公开可用的摘要数据集;2) 利用从通用数据集衍生的数据集;3) 创建人工标注的数据集。

4.1.Generic Datasets

在这里插入图片描述

通用数据集:

CTS 研究主要利用广泛使用的新闻摘要数据集。值得注意的是,约 57% 的 CTS 研究使用 CNN-DailyMail(Nallapati 等人,2016 年)或 DUC(Over 和 Yen,2004 年;Dang,2005 年)。其他流行的数据集,包括 Gigaword(Napoles 等人,2012 年)、XSum(Narayan 等人,2018 年)、NYTimes(Sandhaus,2008 年)、NEWSROOM(Narayan 等人,2018 年)和基于对话的 SAMSUM(Gliwa 等人,2019 年),以及基于观点的数据集(Angelidis 和 Lapata,2018 年;Angelidis 等人,2021 年),用于可控摘要。然而,这些通用数据集缺乏明确的注释和细微差别来评估 CA 特定的摘要。CTS 需要专门的数据集(如表 4 中所述)来为长度、主题、风格等特定方面提供评估机会。

4.2.Derived Datasets

衍生数据集:

通过将特定于方面的启发式方法应用于广泛使用的通用数据集来获得派生数据集。在本节中,我们列出了一些派生数据集及其创建策略。

JAMUL:Hitomi 等人 (2019) 收集了日语的长度敏感标题。每篇文章由三个标题组成,长度分别为 10、13 和 26 个字符。

TS 和 PLS:为了提高生物医学文献的可读性,Luo 等人 (2022) 引入了两种类型的摘要。技术摘要 (TS) 是同行评审的生物医学研究论文的摘要,而通俗语言摘要 (PLS) 是作者在期刊提交过程中提交的摘要

Wikiasp:为了构建基于多领域方面的摘要语料库,Hayashi 等人 (2021) 利用了来自 20 个领域的维基百科文章。此外,还获得了每篇文章的章节标题和段落边界作为方面注释的代理。

在另一项研究中,Ahuja 等人 (2022) 创建了面向方面的摘要的 ASPECTNEWS 数据集。他们通过利用 CNN/DailyMail 数据集中的文章并使用通用句子编码器识别与“地震”和“欺诈调查”相关的文档来实现这一目标 (Cer 等人,2018)。

此外,Mukherjee 等人 (2020) 收集了一个基于 CA 的意见摘要数据集,其中包含旅游评论。这些是从 TripAdvisor 网站获得的,并使用无监督的基于注意的方面提取技术识别相关方面 (He 等人,2017)。

4.3.Human annotated

人工注视数据集:

本节提供人工注释的 CTS 数据集的详细信息。

GranDUC:通过重新注释 DUC-2004(Dang,2005),Zhong 等人(2022)发布了一个用于粒度控制的新基准数据集。指示注释者创建具有粗、中、细粒度级别的多个文档的摘要。

Multi-LexSum:Shen 等人(2022c)创建了一个包含 9,280 起民权诉讼的人工注释语料库,以及具有不同粒度的相应摘要。目标摘要长度范围从一个句子到多段落级别。

EntSUM:(Maddela 等人,2022)是一个人工注释的针对实体的可控摘要数据集。它利用来自《纽约时报注释语料库》(NYT)(Sandhaus,2008)的文章,并包括 PERSON 和 ORGANISATION 标签的带注释摘要。最近发布的 EntSUMV2(Mehra 等人,2023)是 EntSUM 的更抽象版本。

NEWTS:Bahrainian 等人(2022)利用来自 CNN-DailyMail 的文档并采用众包为每个文档生成两个具有不同主题方面的不同摘要,从而引入了主题聚焦摘要语料库。

CSDS:林等人(2021)介绍了面向角色的中文客服对话摘要 (CSDS) 数据集。它经过精心注释,根据主题对对话进行细分,并将每个片段总结为一个 QA 对。

MReD:为了解决结构可控摘要任务,Shen 等人(2022b)引入了元评论数据集(MReD)。它是通过从开放评论系统中收集元评论并将每个句子归类为九个预定义意图类别(摘要、优点、缺点等)之一而创建的。MACSUM:Zhang 等人(2023b)开发了一个人工注释的语料库来控制 CA(主题、说话者、长度、提取性和特异性)的组合。MACSUM 涵盖了来自 CNN/DailyMail 和 QMSUM(Zhong 等人,2021)数据集的源文章。

5 Approaches to Controlled Summarization

可控摘要方法:

在可控摘要生成任务中,人们研究了各种 CA,包括风格(礼貌、幽默、正式)、内容(长度、实体、关键词)和结构。在本节中,我们描述了实现表 2 中提到的属性的 CTS 的各种方法。此外,我们在附录 C 表 9 中列出了每篇论文的新贡献和局限性。

从长度控制角度:

长度:早期的方法缺乏长度控制,只采用启发式方法,例如在固定数量的标记后停止生成。为了克服这个问题,提出了四种不同的方法将长度作为可学习参数进行集成。

1.在输入端添加长度:

在输入中添加长度:

  • Fan 等人 (2018b) 提出了一种基于卷积编码器-解码器的摘要系统,其中它将摘要长度量化为不同大小范围的离散bins。在训练期间,输入数据前面加上由bin长度表示的黄金摘要长度。由于长度bin的数量是固定的,系统无法生成任意长度的摘要。
  • CTRLSUM (He et al., 2022) 提出了一个通用框架,使用特定于长度的关键字来生成受控摘要
  • Zhang et al. (2023b) 不控制单个属性,而是允许将不同的长度属性值(正常、短、长)与源文本一起用作输入,以进行硬提示调整 (Brown et al., 2020)。

2.在编码器中添加长度:

在编码器中添加长度:

  • Yu et al. (2021) 提出了一个长度上下文向量,该向量在每个解码步骤中从位置编码中生成。然后,将此向量与解码器隐藏状态和编码器注意向量连接起来。该系统的局限性在于,对于较短的期望长度,生成的摘要不完整。
  • Liu et al. (2022b) 提出了一种长度感知注意模型,该模型通过预训练模型,根据期望长度调整源编码。
  • Zhang et al. (2023b) 在编码器和解码器的每一层添加一个超参数,用于学习不同属性的前缀嵌入,以进行软前缀调整 (Li and Liang, 2021)。

3.在解码器中添加长度:

在解码器中添加长度:

  • Kikuchi 等人 (2016) 提出了第一种使用 BiLSTM 编码器-解码器架构控制长度的方法,并用注意力 (Luong et al., 2015) 进行句子压缩。在解码过程的每个步骤中,都会提供剩余长度的额外输入作为嵌入。
  • Liu 等人 (2018) 没有预定义长度范围,而是在解码步骤中向卷积编码器-解码器模型的初始层的每个卷积块添加所需的长度参数。
  • Févry 和 Phang (2018) 设计了一种无监督去噪自动编码器用于句子压缩,其中解码器在每个时间步骤都有一个剩余摘要长度的额外输入。虽然它生成的摘要在语法上是正确的,但它们毫无意义或与输入的语义不同。这导致生成不真实的摘要。

为了处理长度限制:

  • Takase 和 Okazaki (2019) 提出了对解码器端正弦位置嵌入的两种修改:长度差异位置编码和长度比位置编码
  • Sarkhel 等人 (2020) 提出了一个多级摘要器,它使用一系列可解释的语义核来控制长度,从而建模多头注意力机制,显著减少了可训练参数。该模型不直接编码长度属性。
  • Song 等人 (2021) 设计了一个置信度驱动的生成器,该生成器在具有仅解码器架构的去噪目标上进行训练,其中源和摘要标记用位置感知束搜索进行掩盖。
  • Goyal 等人 (2022) 使用混合专家模型和多个基于 Transformer 的解码器来识别不同风格或特征的摘要。
  • Kwon 等人 (2021) (2023) 在编码器端引入摘要长度预测任务,并将该预测摘要长度插入长度融合位置编码层。

4.在损失/奖励函数中添加长度:

在损失/奖励函数中添加长度:

  • Makino 等人 (2019) 提出了一种在长度约束下针对神经摘要任务的全局最小风险训练优化方法,该方法速度更快,平均生成的过长摘要比其他方法少五倍。
  • Chan 等人 (2021) 使用基于 RL 的约束马尔可夫决策过程和混合属性。
  • Hyun 等人 (2022) 设计了一个基于 RL 的框架,该框架在奖励函数中结合了长度和质量约束,以生成不同长度的多个摘要,根据 Hyun 等人 (2022) 中的实验结果,该模型的计算成本很高。

从风格控制角度:

风格:用户特定摘要的生成引起了人们的极大兴趣,但实现独特的风格却是一个持久的挑战。这些风格变化可能包括语气、可读性控制或用户情绪的调节。风格控制旨在利用卷积编码器-解码器网络生成源特定摘要。

  • Chawla 等人 (2019) 利用输入相关奖励函数获得形式化摘要。指针生成器 (See et al., 2017) 网络用作底层架构,并通过添加基于形式的奖励函数修改损失函数。
  • 在另一项研究中,Jin 等人 (2020a) 尝试使用多任务学习框架控制标题中的幽默、浪漫和点击诱饵。
  • Cao 和 Wang (2021) 通过使用推理风格分类器来调整解码器的最终状态以获得风格摘要。此外,他们利用可以直接约束输出词汇的词单元预测来获得词汇控制。
  • 同样,Goyal 等人 (2022) 通过使用多个解码器将解码器架构扩展为专家混合版本。门控机制有助于为单个源获得多个摘要。然而,该模型的主要限制是其手动门控机制。
  • 为了控制各种细粒度的阅读等级,Ribeiro 等人 (2023) 提出了三种方法:指令提示、基于强化学习的奖励模型和前瞻可读性解码方法。

从覆盖率控制角度:

覆盖率:管理信息粒度对于衡量源文本和摘要之间的语义覆盖率至关重要。

  • 为了调节粒度,Wu 等人(2021) 介绍了一种两阶段方法,其中模型包含一个包含用户意图和关键短语的摘要草图,作为一种弱监督的形式。他们利用基于文本跨度的条件生成来控制生成的对话摘要的细节级别。
  • 钟等人 (2022) 提出了一种多粒度的事件感知摘要方法,由四个阶段组成:事件识别、基于事件的无监督摘要器预训练、事件排名和通过添加事件作为提示的摘要生成。从源文本中提取事件可能会降低抽象性。
  • 张等人 (2023b) 使用硬提示和软提示策略来控制摘要中从源中提取的文本量。
  • 此外,黄等人 (2023) 利用自然语言推理模型来提高覆盖率。

从实体控制角度:

实体:以实体为中心的摘要专注于生成特定于给定目标实体的文档摘要(Hofmann-Coyle 等人,2022 年)。

  • Zheng 等人(2020 年)使用基于预训练的 BERT(Devlin 等人,2019 年)的模型提取命名实体,并将文章和选定的实体输入双向 LSTM(Hochreiter 和 Schmidhuber,1997 年)编码器-解码器模型。
  • 在另一项研究中,Liu 和 Chen(2021 年)从对话中提取实体(说话者和非说话者实体)以形成规划序列。提取的实体被连接到源对话以训练基于条件 BART 的模型。该模型由于从个人角度进行释义而引入了事实不一致。
  • Maddela 等人(2022) 通过向 GSum (Dou et al., 2021) 提供句子或字符串来扩展它,其中提到提取的实体作为指导。该模型是 BERTSum (Liu and Lapata, 2019) 的改编版本,其中只输入包含实体字符串 mention 及其共指 mention 的句子。
  • Hofmann-Coyle 等人 (2022) 将以实体为中心的提取摘要建模为句子选择任务。在 BERTSum (Liu and Lapata, 2019) 的基础上,他们使用基于 BERT (Devlin et al., 2019) 的编码器来表示句子和目标实体对,并使用对比损失目标进行训练以提取与目标实体最相关的句子。

从结构控制角度:

结构:通用数据集缺乏强调相应基本事实摘要中特定方面的关键元素。

为了解决这一限制并强调摘要结构,Shen 等人(2022b) 通过在输入文本开头添加控制序列并将摘要生成作为独立过程实现结构可控的文本生成。然而,这种方法有两个主要局限性:1)生成的标记仅基于 logits 预测,而不确保序列满足控制信号;2)自回归模型由于自注意力而面临生成中的误差传播,导致后续生成偏离期望的输出。为了克服这些挑战:

  • 句子集束搜索 (SentBS) (Shen et al., 2022a) 方法为每个句子生成多个句子选项,并根据控制结构和模型的似然概率选择最佳句子。
  • 在相关研究中,Zhong 和 Litman (2023) 利用预测的论点角色信息来控制法律意见书中的结构。
  • 此外,在 Zhang 等人的工作中(2023b),实体链的提示表示有序的实体序列,用于预训练和微调,规划目标控制摘要结构。

从抽象性控制角度:

抽象性:它衡量源文本和摘要之间的文本新颖程度。

  • See 等人 (2017) 引入了一个指针生成器网络,通过指向来控制源复制,并使用生成器机制生成新颖的句子结构。然而,这种方案无法产生更高的抽象级别。
  • Krys ́cin ́ski 等人 (2018) 通过两种方式解决了这个问题:1) 将解码器分解为上下文网络以检索文本的相关部分并利用预训练模型生成摘要,2) 基于混合 RL 的目标联合优化 n-gram 与基本事实摘要的重叠。
  • 同样,Song 等人(2020) 使用混合搭配策略来控制复制行为,以生成具有不同 n-gram 复制率的摘要。基于源文本中可见和不可见的单词,系统通过充当语言建模任务来控制复制百分比。
  • 此外,诸如 ControlSum (Fan et al., 2018a) 之类的方法允许用户明确指定控制属性以促进更好的控制。但是,它没有对违反可控性提供任何监督。
  • 为了缓解这个问题,Chan 等人 (2021) 提出了一个基于 RL 的约束马尔可夫决策过程框架,并引入了奖励来惩罚违反属性要求的行为。

从显著性控制角度:

显著性:此属性捕获文档中最重要的信息。

  • 在 SummaRuN-Ner(Nallapati 等人,2017 年)中,显著性被建模为分类目标中的一个特征。它使用基于 GRU 的编码器和解码器将摘要构建为句子级别的文本到二进制序列学习任务(Bahdanau 等人,2014 年;Cho 等人,2014 年)。为每个句子分配一个二进制分数,表明其在摘要中的成员资格。该系统在域外数据集上的表现不佳。
  • 为了保留源中的关键内容,Li 等人(2018 年)引入了一个关键信息引导网络,其中关键字由 TextRank 算法识别,并使用经过修改的注意机制来容纳这些关键信息作为附加输入。然而,它主要关注信息量,而忽略了连贯性和可读性特征。
  • Deutsch 和 Roth (2023) 使用 QA 信号对名词短语的显著性进行建模,其中摘要的生成取决于这些已识别的短语。这种方法不适用于没有问题生成和问答模型的语言。
  • 在长文档 CLS 任务中,摘要系统通常无法响应用户查询。为了解决这个问题,Pagnoni 等人 (2023) 提出了一种预训练方法,该方法涉及两个任务:从具有最高自我 ROUGE 分数的句子中识别显著信息,以及一个问题生成系统来生成答案为显著句子的问题。

从角色控制角度:

角色:面向角色的对话摘要为对话中存在的不同角色/代理(例如医生和患者)生成摘要(Liang 等人,2022 年)。

  • Lin 等人(2021) 提出了 CSDS 数据集(见第 4.3 节),并对各种现有的最先进的摘要模型进行了基准测试,以生成代理和用户调查。他们发现现有方法生成的代理摘要缺乏关键信息,这些信息需要从另一个角色的对话中提取。
  • 为了弥补这一差距,Lin 等人 (2022) 为数据集中的两个用户(代理和用户)构建了一个角色感知摘要模型。他们使用两个独立的解码器通过利用用户和代理掩码来生成用户和代理摘要。每个解码器都引入了一种角色注意机制,以便它可以通过关注另一个角色的隐藏状态来利用整体上下文。
  • Liang 等人(2022)使用角色感知中心性评分模型,该模型计算每个话语的角色感知中心性分数,该分数衡量话语与角色提示之间的相关性(表明摘要是针对用户还是代理)。然后,使用它来重新加权每个话语的注意力分数,随后解码器使用该分数生成摘要。

从多样性控制角度:

多样性:传统的解码策略,如波束搜索,擅长生成单一摘要,但往往难以生成多样化的摘要。诸如top-k和核采样之类的技术可以有效地生成多样化的输出,但可能会牺牲忠诚度。为了应对这些挑战,

  • Narayan等人(2022)引入了组合采样,这是一种获得多样化摘要的解码方法。该方法首先以实体链的形式规划目标的语义组合 (Narayan et al., 2021),然后利用集束搜索生成多样化的摘要。主题。长文档通常涵盖多个主题,而通用摘要可能无法完全涵盖多样化的范围。
  • Krishna 和 Srinivasan (2018) 通过将主题的独热编码表示与输入文档中每个标记的嵌入连接起来,训练了一个主题条件指针生成器网络 (See et al., 2017)。但是,新闻类别被用作预定义主题,这限制了对其他任务的泛化。
  • 为了处理多样化主题,Tan 等人 (2020) 利用 Wikipedia 和 ConceptNet 等外部知识来源创建了一个与任何编码器-解码器架构兼容的弱监督摘要框架。
  • Suhara 等人 (2019) (2020) 提出了一种无监督方法,其中通过预先训练的观点提取器从一组评论中提取特定于方面的观点,并且通过经过训练以从观点重建评论的生成器模型生成观点摘要。
  • 类似地,给定一组产品(例如酒店)的评论,Amplayo 等人 (2021) 训练多实例学习 (MIL) 模型,以在文档、句子、标记级别提取方面(如清洁度)代码的预测(Mukherjee 等人,2020 年)。这些预测的方面会转换输入,以便将相关的句子和关键字以及方面标记输入到预先训练的 T5(Raffel 等人,2020 年)模型中。
  • Hsu 和 Tan (2021) 介绍了生成决策支持摘要的任务。重点是使用基于 Longformer 的模型从一组评论中预测未来的 Yelp 评分(Beltagy 等人,2020 年)

6 Evaluation Strategies

本节将对用于评估本文所研究的不同方法生成的摘要的各种自动和人工评估指标进行编目和简要说明。

6.1.Automatic Evaluation

在这里插入图片描述

基于 N-gram 的评估指标,例如 ROUGE(Lin,2004)、BLEU(Papineni 等人,2002),都是基于将候选摘要中的 n-gram 与一组参考摘要进行匹配。ROUGE 是 CTS 文献中使用最广泛的指标。基于语言模型的指标是使用预训练语言模型 (PLM) 计算的,例如 BERT(Devlin 等人,2019)或 BART(Lewis 等人,2019)。一类方法计算参考的 PLM 嵌入与生成的摘要之间的距离。另一种方法是基于计算以输入文本为条件的生成文本的对数概率,如 BARTScore(Yuan 等人,2021)中所示。摘要特定指标包括 ROUGE-WE (Ng and Abrecht, 2015)、S3 (Peyrard et al., 2017)、Sentence Mover’s Similarity (SMS) (Clark et al., 2019)、SummQA (Scialom et al., 2019)、BLANC (Vasilyev et al., 2020) 和 SUPERT (Gao et al., 2020)、(Lite)3Pyramid (Zhang and Bansal, 2021),在可控摘要评估中占有重要地位。方面特定指标不能完全归入上述任何一类。这些指标侧重于评估特定的可控方面,例如针对主题、抽象性和角色属性的阅读难易度(Flesch,1948)、Gunning Fog 指数和 Coleman Liau 指数(针对可读性、控制相关性和错误率)(Zhang et al.,2023b)。附录 B 表 7 描述了有关自动评估指标的更多详细信息。

6.2.Human Evaluation

在这里插入图片描述

人工评估是衡量不同摘要系统在自动评估指标无法直接捕捉的特定方面的稳健性和有效性的指标。这些方面包括摘要的一般属性,例如真实性 (Song et al., 2020; Hyun et al., 2022)、相关性 (Goyal et al., 2022; He et al., 2022; Shen et al., 2022b)、流畅性 (Narayan et al., 2022; Suhara et al., 2020) 和可读性 (Cao and Wang, 2021; Krys ́cin ́ski et al., 2018) 或特定属性,例如长度控制摘要的完整性 (Yu et al., 2021; Liu et al., 2022a)、实体的覆盖范围 (Mukherjee et al., 2020, 2022) 和主题控制的摘要生成。人工评估大致使用两种评分机制:二元和基于排名。基于排名的分数通常在 1 到 5 之间。尽管这些机制被广泛采用,但由于歧义性和主观性,人工评估摘要仍然具有挑战性。连贯性和流畅性等方面有助于减轻歧义,但对于个别注释者来说仍然是主观的。准确定义注释描述至关重要,但实现跨注释者的标准化方法仍然很困难(Iskender 等人,2021 年;Ito 等人,2023 年)。有关不同人工评估指标的详细信息详见附录 B 表 8。

7 Challenges and Future Prospects

通用基准与专用基准。我们观察到,超过 75% 的 CTS 工作要么利用通用新闻摘要数据集,要么修改通用新闻摘要数据集来评估可控摘要。如表 2 所示,在 10 个类别中,我们只能找到 7 个类别的 CA 特定数据集。我们设想,使用与实际应用场景或用户要求紧密结合的专用数据集进行评估将有助于更好地评估 CTS 的实际效用、稳健性和性能。从我们对 CTS 系统的调查中可以明显看出,评估通常局限于特定领域,例如新闻,这可能是因为该领域有大量可用数据集。然而,这种狭隘的关注限制了对 CTS 模型稳健性的评估。

指标标准化。CTS 任务的目标是生成 CA 特定的摘要,因此需要量身定制一个指标来捕捉这一特定属性的细微差别。我们观察到,由于使用了不同的指标,比较特定基于 CA 的 CTS 任务的模型具有挑战性,这导致每项研究都需要重新进行评估,以便与之前的工作进行公平比较。标准化 CA 特定的评估指标可以提供有价值的解决方案。

可解释性。为了有效地控制用户或应用程序特定的属性,必须利用对 CTS 系统中决策过程的理解。此外,这种理解对于用户或利益相关者至关重要,使他们能够辨别系统如何从源文本生成摘要。这在人类决策或解释起着关键作用的应用中尤其重要,例如在法律、医疗或金融领域。现有的 CTS 工作缺乏对可解释性方面的适当强调,这可以通过结合合适的解释方法轻松解决(Abnar 和 Zuidema,2020 年;Sundararajan 等人,2017 年;Lundberg 和 Lee,2017 年)。

多语言、多模态和混合代码的 CTS。现有的 CTS 文献主要集中在英语作品上,只有一项研究在日语背景下讨论了该主题。我们找不到与多语言和混合代码的 CTS 方法相关的任何研究和数据集。此外,多模态和多文档设置中的可控摘要任务仍然很大程度上尚未探索,这为模型带来了独特的挑战,并为有趣的研究问题提供了途径。

多 CA 控制。尽管很少有作品执行多属性可控摘要(Goyal 等人,2022 年;He 等人,2022 年;Zhang 等人,2023b),但我们观察到现有作品主要研究长度和实体属性的组合(见表 5)。作为未来的研究方向,设计模型时必须考虑其他重要的控制属性组合,例如长度、样式和显着性。此外,创建标准化的多 CA 基准对于促进评估至关重要。

可重复性。在表 10 中概述的详细分析中,我们注意到 35% 的研究没有公开分享其代码。此外,25% 的论文没有进行任何人工评估,在其余研究中,79% 没有进行注释者间一致性 (IAA) 评估。缺乏可重复性 (Ito 等人,2023 年;Gao 等人,2023 年;Iskender 等人,2021 年) 措施阻碍了科学界验证和建立现有工作的能力。另一方面,对于文本摘要评估方案来说,人工研究部分应该是必须的,否则,我们可能会忽略现实世界适用性的重要方面。

站在 LLM 的肩膀上。大型语言模型 (LLM) 的兴起和成功为在自然语言处理 (NLP) 流程的不同阶段中利用其功能开辟了无与伦比的可能性。在 CTS 的背景下,可以对 LLM 进行微调以掌握 CA 的特定上下文细微差别,而无需专门的训练集。此外,在评估 CTS 模型时,LLM 可以作为人类专家或评委的有效替代品(类似于刘等人 (2023)),提供一种评估绩效的有效方法。

8 Conclusions

我们对可控文本摘要(CTS)进行了全面调查,从各种可控属性的形式化、基于共同特征的分类,到现有数据集、建议的模型、相关限制和评估策略等方面进行了详细分析。此外,我们还讨论了挑战和前景,使其成为对 CTS 感兴趣的研究人员的有用指南。我们计划定期更新 GitHub 仓库中的最新 CTS 作品。

9 Limitations

尽管我们试图对现有的可控摘要文献进行严格的分析,但由于搜索关键词的不同,一些研究可能被遗漏了。此外,由于篇幅有限,我们的调查主要集中在方法的高级方面,省略了非常细粒度的实验比较。最后,我们对多语言研究的探索有限,因为我们在寻找它们时遇到了挑战,这可能是由于研究界的关注度相对较低。我们的目标是进一步研究与多语言 CTS 任务相关的挑战背后的潜在原因。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值