NLP论文阅读记录-EMNLP 2023 | 01 Improving Summarization with Human Edits

本文链接：https://blog.csdn.net/yuyuyu_xxx/article/details/134950445

前言

在这里插入图片描述

通过人工编辑改进摘要（2310）

code
paper

0、论文摘要

最近的工作表明，利用人类反馈范式进行学习可以产生人类决定的高质量文本。现有的工作使用人类反馈来训练通用领域抽象摘要中的大型语言模型（LLM），并获得了超过传统似然训练的摘要质量。在本文中，我们重点关注一种较少探索的人类反馈形式——人类编辑。
我们提出了序列比对（非）似然训练（SALT），这是一种在训练循环中同时使用人工编辑和模型生成的数据的新技术。
此外，我们还演示了使用来自现有训练数据的真实摘要（模仿编辑）以及训练后获得的模型生成的摘要来模拟人工编辑，以减少对昂贵的人工编辑数据的需求。
在我们的实验中，我们将人类反馈探索从一般领域总结扩展到医学领域总结。
我们的结果1证明了 SALT 在通过人工编辑和模仿编辑提高摘要质量方面的有效性。通过额外的实验，我们表明，当应用于人工编辑数据时，SALT 优于传统的 RLHF 方法（根据人类偏好设计）——DPO。我们希望论文中的证据能够促使研究人员大规模地探索、收集和更好地使用不同的人类反馈方法。

一、Introduction

为了在各种自然语言处理 (NLP) 任务上实现高性能，大规模语言模型预训练已变得越来越普遍（Brown 等人，2020；Sanh 等人，2021；乔杜里等人，2022；朗普雷等人，2023；开放人工智能，2023；蔡等人，2023）。当将这些模型应用于特定任务时，通常会对它们进行微调，以最大限度地提高人类书写文本的可能性。

1.1目标问题

尽管这种策略在许多指标上显着提高了性能，但模型仍然无法始终如一地产生人类确定的高质量输出。
NLP 社区指出了传统微调的一些关键缺点。
首先，重要错误（例如幻觉）和不重要错误（例如轻微语法错误）对最终损失的影响相同。
其次，该模型对不同类型、质量和难度的所有标记数据的损失进行同等权衡。
第三，新数据的分布变化会降低性能（灾难性遗忘）（Kirkpatrick 等，2017）。

1.2相关的尝试

一些作品通过人类反馈（HF）来解决这些问题。具体来说，他们使用奖励学习对 HF 语言模型进行微调（Stiennon 等人，2020 年；Ziegler 等人，2019 年）。通过大量的 HF 数据，这些工作证明了大规模 LM，例如 GPT-3（Brown 等人，2020），具有超过传统似然训练的文本生成质量。
然而，HF 的站点成本很高，并且较小的 LM 是否也能受益尚未得到充分研究
此外，由于 LLM 通常以第三方 API 的形式提供，并且对于许多公司和实验室的基础设施来说太大而无法托管，
因此较小的模型（例如 T5 系列（Raffel 等人，2020））仍然很重要在许多领域（例如医疗）中发挥作用，其中隐私问题和务实的经济学主导着决策策略。

与我们的工作最直接相关的是从医患对话中自动生成临床记录的研究（Schloss 和 Konam，2020；Ramprasad 等人，2023；Krishna 等人，2020；Abacha 等人，2023a；Ben Abacha 等人， 2023; Yim et al., 2023; Wang et al., 2023），不同之处在于这些工作侧重于使用预先标记的数据训练摘要模型，而我们专注于使用 HF 进一步提高摘要质量训练有素的模型。
之前的工作使用 HF 通过强化学习（RL）训练摘要模型（B ̈ ohm et al., 2019; Ziegler et al., 2019; Stiennon et al., 2020）并使用 GPT-2 和 GPT-3 来优化 HF跨越各种总结任务。这些基于 RL 的方法侧重于通过 HF 数据训练奖励函数，并通过比较不同的摘要（RLHF）来使用此类奖励作为训练目标。最近，一些 RLHF 变体更灵活、更稳定地收集或使用奖励（Aky urek et al., 2023；Dong et al., 2023；Zhao et al., 2023；Yuan et al., 2023）。我们引入不太可能训练作为监督学习中的附加学习目标。我们的技术旨在降低不太可能出现的序列（定义为出现在 SAI 中但未出现在 SE 中的序列）的概率，并增加已验证序列（出现在 SAI 中并由 SE 增强）以及未出现的新颖序列的概率在 SAI 中，但确实出现在 SE 中。
似然性训练（Welleck et al., 2019）涉及添加似然性损失以降低负面候选者的概率。之前的工作探索了许多用于不太可能训练的负面候选场景，包括：风格迁移（Devaraj et al., 2021）、重复、复制和矛盾（Li et al., 2019）、事实性（Cao and Wang, 2021）、文本退化（Su et al., 2022）和临床总结（Adams et al., 2022）。在这项工作中，我们将 SE 与 SAI 结合起来，以识别负面候选人并训练不同的候选人。
具有可能性和可能性损失的代币。我们还表明，我们对人类编辑的实验可以扩展到模仿编辑，以减少对 HF 数据的需求，因为获取 HF 数据的成本可能很高。

1.3本文贡献

在这里插入图片描述

我们本文的目标是探索训练语言模型的方法，以廉价地提高 HF 的摘要质量。用于总结的 HF 可以有不同的形式。
一是获取摘要的人工评分。之前的工作（Stiennon et al., 2020；Ziegler et al., 2019）侧重于通过 HF 数据训练奖励函数，并通过比较不同摘要的分数来使用此类奖励作为训练目标。最近，生成式 AI 作品（例如 ChatGPT 和 GPT4（Ouyang et al., 2022；OpenAI, 2023））使用了这种方法，他们将这种方法称为 RLHF。另一个 HF 正在进行编辑以使摘要正确。
第二种方法是在工作流程中收集用户反馈的自然方式，其中用户可能在其工作流程中处理人工智能生成的摘要。
例如，表 1 中的摘要 SE 是临床医生/抄写员修改我们的 AI 生成的 EHR 摘要 SAI 的结果。
此外，第二种方法在改进摘要模型方面可能比第一种方法更有效，因为它比整个摘要的分数传达更精细的信息。
第二种方法的人工编辑也可以通过简单的规则（例如编辑百分比）转换为分数，尽管这尚未得到广泛研究。
因此，从机器学习数据的角度来看，第二种方法具有某些独特的优势。此外，考虑到专家/用户的时间、成本和意愿，使用 RLHF 中的注释方式很难获得大规模的专家反馈。
但是，可以从使用人工智能摘要的用户那里获得的人工编辑可能会成为各种专业知识密集型领域的更合理的替代方案。

我们探索如何使用人工编辑来提高摘要质量。除了一般领域摘要之外，我们还专注于从医患对话自动生成临床记录的医学领域摘要任务，由于隐私和数据不可访问问题，该任务尚未得到充分研究。表 1 提供了来自我们的数据集 (CC) 的临床医生对话的示例。我们展示了我们对一项新技术的两项实验的工作，即序列比对（非）似然训练（SALT），该技术使用人工编辑和似然目标以及标准似然训练范例来提高摘要质量。提出不太可能训练是为了降低模型预测的不太可能标记的概率（Welleck 等人，2019）。

在我们的第一个实验中，我们使用医生的人工编辑来编辑人工智能生成的医学对话中的临床摘要，以改进摘要模型。
在第二部分中，我们探讨了如何利用预先存在的真实人类摘要获得类似的好处，这些摘要不是对人工智能生成的摘要进行编辑，我们称之为模仿编辑。我们指的是人工智能生成的摘要 SAI 、人工编辑摘要 SE 和仿编辑摘要 SI 。
我们展示了如何将不太可能目标与 (SAI , SE) 和 (SAI , SI ) 对一起推广以提高摘要质量。
此外，我们的结果表明，SALT 可以稳定地提高具有人工编辑和模仿编辑的 T5（小型和大型）摘要模型的摘要质量。
进一步的实验表明，SALT 如何在 RSALT 的帮助下解决因 SAI 和 SE 之间的分布差异而产生的灾难性遗忘问题，RSALT 是持续学习中基于重放的方法的改进版本（Rebuffi 等人，2017）。
最后，为了比较 SALT 和 RLHF，我们在人类编辑数据上使用 SALT 和直接偏好优化 (DPO)（Rafailov 等人，2023）进行实验，并证明 SALT 在此类人类反馈上的优越性。
为了节省篇幅，我们将具体内容放在附录中。在附录 A.1 和 A.2 中，我们提供了 SOAP 结构的定义和实现细节。在附录 A.3 中，我们重点介绍了如何利用 Imitation Edits 和 SALT 在公开数据集上进行训练，并附有实验结果。最后，在附录 A.4 中，我们对 SALT 和其他各种 RLHF 之间的关系进行了更多讨论。

总之，我们的贡献如下：
• 据我们所知，我们是第一个将当前高频总结研究趋势扩展到自动临床记录生成任务的公司。
• 与之前工作中使用的HF 形式不同，我们在本文中探索人工编辑来提高摘要质量。
• 我们展示了如何构建模仿编辑以减少对昂贵的高频数据的需求。
• 我们表明，SALT 使用序列比对将不可能训练扩展到通用框架中，并进一步将 SALT 和基于重放的方法（Rebuffi 等人，2017）结合到 RSALT 中，以解决灾难性遗忘问题。
• 最后，我们表明SALT 在人工编辑反馈方面比DPO 取得了更好的性能。

三.本文方法

给定一个标记化话语簇作为输入 U = [x1, x2, x3, …xlenU ]，CC 摘要模型 M 为此生成摘要 SAI = [y′ 1, y′ 2, y′ 3, …y′ lenSAI]。
用户将此摘要从 SAI 编辑为 SE，其中 SE = [y1, y2, y3, …ylenSE ]。
我们的目标是基于 SAI 和 SE 来更新 M 中的参数。令 lenU 、 lenSAI 和 lenSE 分别为 U 、 SAI 和 SE 中的令牌数量。

3.1 使用 SAI 和 SE 进行序列比对 (un) 似然训练 (SALT)

当用户编辑从 SAI 到 SE 的摘要时，他们可以修改或删除令牌范围、插入新的令牌范围或不对令牌范围进行任何更改。我们希望使用这些人工编辑来改进我们的摘要模型，并生成比以前更接近用户修改后的摘要的输出。我们在训练中同时使用 SAI 和 SE 来做到这一点。我们训练模型：
(i)降低产生用户在SAI中删除或修改的单词的概率。
(ii) 增强产生用户在 SAI 中未更改并保留在 SE 中的单词的概率。
(iii) 增加新用户在 SE 中添加的单词的生成概率。
使用 SAI 和 SE 训练摘要模型的损失函数：
在这里插入图片描述
其中：

U 是用作输入的话语簇
当我们对齐 SAI 和 SE 序列时，C 和 N C 表示“已更改”和“未更改”标记。
1AI−C (t) 和 1AI−NC (t) 是指示函数，用于表示 SAI 中的令牌 xt 是否被用户更改或未更改。类似地，1E-C(t)和1E-NC(t)对应于SE。
wx 是损失权重，例如，wAI−C 是惩罚在 SAI 中但不在 SE 中的代币的权重。
Lr(x, t) 和 Lp(x, t) 是似然和似然损失函数

(SAI , SE) 对中使用的损失 LSAI 和 LSE 用于训练摘要模型。上述方程中使用的指示函数可以通过跟踪用户编辑摘要时的更改或使用序列比对算法将 SE 与 SAI 比对来找到。我们在这项工作中使用序列对齐（Needleman-Wunsch 算法（Needleman 和 Wunsch，1970）），因为我们的仪表板不记录用户的击键。假设我们有一对来自 SAI 和相应的 SE，“患者每天服用一颗阿司匹林”和“患者不想服用阿司匹林”。我们可以如下对齐这两个句子：
在这里插入图片描述
其中“C”是“对应”（匹配），“I”是“插入”，“D”是“删除”，“S”是“替换”。请注意，我们在实现中是在令牌级别上进行的。对于 SAI 单词列表 [“病人”，“服用”、“一次”、“阿司匹林”、“每日”]，等式1中对应的指示函数为：
在这里插入图片描述
对于SE单词列表[“病人”、“不”、“想要”、“要”、“服用”、“阿司匹林”]，等式2中对应的指示函数为：

3.2 模仿编辑

SE 是来自用户的一种特殊的真实情况摘要。 SE 由用户使用 U 和 SAI – SE = F n(U, SAI ) 获得。一个有趣的问题是，我们是否可以近似编辑后的摘要 SI（模仿编辑），并在没有使用 SALT 进行实际人工编辑的情况下使用它来改进模型。在我们的工作中，我们使用预先存在的真实摘要作为 SI，即使它们没有明确编写为对 SAI 的编辑。利用此类数据有几个优点。
首先，SE不容易获得，用SI近似SE可以增加可用于似然性训练的数据量。即使没有人工编辑数据或任何新注释，我们也将能够使用 SALT。
其次，在保证Imitation Edits高质量的前提下，将Human Edits和Imitation Edits结合起来可以进一步提高模型的性能，因为它们都为训练带来了有效的数据点。
第三，当我们用SAI和SE进行SALT训练时，模仿编辑可以用来解决遗忘问题，我们将在下一节中展示这一点。
为了模仿人类编辑，我们假设原始的真实事实摘要是从 SAI 及其话语集群 U 生成的（即使真实事实注释是独立编写的）。与上面 SAI 和 SE 的设置类似，我们使用对齐算法来对齐 SAI 和 SI 。然后我们计算LSI。
在这里插入图片描述
其中 1 I−C (t) 和 1INC (to) 表示 SI 中的标记 xt 与 SAI 相比是否发生变化，wx 是损失权重。

3.3基于重放的 SALT (RSALT) 解决灾难性遗忘问题

我们继续在 Human Edits 数据集（例如 CCUser）上训练在原始摘要数据集（例如 CC）中收敛的模型 M，以提高摘要质量，但由于它们之间的分布差异，使模型遭受灾难性遗忘问题。我们使用传统的基于重播的方法（Rebuffi et al., 2017），该方法从已见数据集中采样部分数据（例如 CC）并将其添加到未见数据（例如 CCUser）中，以解决灾难性遗忘问题。在这里，使用损失函数 L = M LESI(seen) + M LESE(unseen) 计算采样的可见数据 SI(seen) 和人工编辑数据 SE(unseen) 的似然损失，其中我们使用最大似然估计亏损。
按照4.1节，我们可以同时使用SAI(unseen)和SE(unseen)来进行SALT训练。按照4.2节，对于采样的先前看到的数据，我们还可以得到(SAI(seen)，SI(seen))对并进行SALT训练。根据方程 1、2、5，RSALT 的损失函数为
在这里插入图片描述

四实验效果

4.1数据集

临床医生对话 (CC) 数据集

该数据集收集了 63000 条经同意的医患去识别化对话，其中包含人类记录，平均持续时间为 9 分钟。我们对数据集进行分段，创建训练集、验证集和测试集，每个集包含 52,000、5,000 和 6,000 个文件，同时控制每个分割中分布的重要特征。对话的记录是根据传统 SOAP 格式 2 进行注释的。SOAP 注释可以包含大量观察结果，这些观察结果通过与原始音频相关的时间戳从记录中得出较短的摘录。 SOAP 结构中有多个部分和子部分，每个部分都需要特定的信息并以不同的格式编写。由表2可见，不同分段的平均长度跨度较大。

CC用户数据集

为了从医患对话中生成 SOAP 注释，我们的管道如下（Ramprasad 等人，2023；Krishna 等人，2020）。我们首先记录临床对话，然后使用人类或使用谷歌的医疗对话自动语音识别（ASR）服务进行转录。然后，使用我们的专有模型，我们将话语分类为 SOAP 部分。最后，使用在 CC 数据集上训练的部分条件摘要模型，我们为属于每个部分的每个话语集群生成摘要。我们使用管道为临床医生用户提取 SOAP 摘要，这些临床医生用户通过移动应用程序记录与患者的对话。抄写员和医生使用我们的仪表板来编辑生成的摘要，以完成他们的文档任务。该仪表板专为医生和抄写员而设计，可在其常规工作流程中快速检查和修复人工智能生成的摘要。因此，我们没有强制执行任何可能使数据对研究更有用的培训/说明，并且用户可以自由地使用他们认为合适的仪表板。
在这里插入图片描述
CCUser 数据集的分布与 CC 数据集在以下方面有所不同。首先，CC 使用人类编写的转录本作为训练输入，而 CCUser 使用来自 ASR 转录本的管道输入，而不是人类标记的话语。其次，CCUser 的对话平均长度为 20 分钟，而 CC 数据集的平均对话长度为 9 分钟，这可能意味着更复杂的对话。该数据集包含 10 名医生的 215 个 ASR 转录本，其中包含人工智能生成的注释（以及人工编辑）。我们随机选择 7 位医生的 70 个笔记作为训练数据集，每个医生 10 个笔记，并将剩余的 145 个笔记分为评估集和测试集。
最后，我们的数据集被分割为 train:eval:test = 1279:1457:1458 – （话语簇、编辑摘要、AI 摘要）三元组。

4.2 对比模型

4.3实施细节

我们使用 1 个 NVIDIA Tesla P100 GPU - 16 GB 内存，使用 Adam 优化器进行了所有实验 - betas=(0.9,0.999)，epsilon=1e-08，学习率=5e-05

4.4评估指标

ROUGE 和 UMLS-F1 模型使用 ROUGE 的全长 F1 分数进行评估（Lin，2004）。我们使用 QuickUMLS3 从模型生成的摘要和真实摘要中提取医学概念，然后计算这两个概念列表的 F1 分数，称为 UMLSF1（Adams 等人，2023 年；Ramprasad 等人，2023 年）。
GPT4 和人类偏好 最近的工作表明，人类和 GPT4 评估之间的相关性比传统指标更高（Moramarco 等人，2022；Gao 等人，2023；Fu 等人，2023），因此我们也使用 GPT4 偏好作为测量评估摘要质量。具体来说，我们指示 GPT4 根据对话片段和参考摘要 4 对不同的 AI 生成的摘要进行优先排序。同样，我们要求 2 名医学生 5 根据相同的信息对来自 CC 的摘要进行评分，出于隐私原因，我们没有与人类一起评估 CCUser。我们讨论第 6.4 节中不同模型的平均倒数排名 (MRR)（Radev 等，2002）。一般来说，较高的 MRR 值意味着评估者对某种方法有更多的偏好。
SAGE ROUGE 和 UMLS-F1 衡量“可能性”程度，即评估模型是否可以生成更接近某些参考的内容。然而，我们不仅想知道新生成的摘要“更接近 SE”多少，还想知道“距离 SAI 的坏部分有多远”——由人工编辑更改的跨度。为了解决这个问题，我们设计了一种评估方法来衡量机器犯与以前相同的错误的可能性以及它们生成更像目标用户（在编辑过程中确定的）的摘要的可能性。我们将此称为“针对生成和编辑的句子的系统输出”(SAGE)。给定评估数据（U，SAI，SE），其中SAI是由原始摘要数据集（例如CC）训练的模型生成的，SE是人工根据（U，SAI）编辑的，我们可以得到新的摘要Snew 由 Human Edits 数据集（例如 CCUser）训练的新模型生成。使用 (Snew, SAI , SE)，我们可以在 Snew 中删除停用词和标点符号后定义三组单词：

在这里插入图片描述通过在 HF 上进行训练，我们的目标是让 Snew 更接近 SE，同时避免 SAI 中发现的错误。因此，SAGE 计算 Snew 中有多少个单词在 Gw1(AI−E)、Gw2(E−AI) 和 Gw3(AI∩E) 中。我们称这个词级为SAGE（SAGEw）。类似地，我们可以定义 Gc1(AI−E)、Gc2(E−AI)、Gc3(AI∩E) 并基于 Snew、SAI 和 SE 中的 UMLS 概念重叠来制作概念级 SAGE (SAGEc)。

我们对 SAGE 有两个假设： 1. 用户可以接受机器犯一些错误，但不能容忍机器一次又一次犯同样的错误。 2. 如果模型随着时间的推移学会生成更类似于用户编辑的摘要的输出，用户将会更加满意根据假设 1 和 2，在 HF 上训练的模型应该能够生成较少的属于 G1（Gw1 和 Gc1）的内容，以及更多属于 G2（Gw2 和 Gc2）的内容。该模型还应该能够生成 G3（Gw3 和 Gc3），因为 G3 代表人类验证的信息。

4.5 实验结果

人工编辑数据集中的 SALT

在这里插入图片描述

分析 SALT 的行为

在表3中，对CCUsereval的评估表明，与常规似然训练（SALTl）相比，改变似然训练（SALTld或SALTli）中1E-C令牌的损失权重可以为其性能带来变化。可以预见的是，我们在表 4 中看到，SALTli 产生的 Gw2 高于 SALTld，并且其他列中的趋势并不那么明显，因为未考虑 SAI。同样，SALTu 产生的 Gw1 比其他的低。然而，SALT1+u 在 CC 和 CCUser 上都实现了显着更高的性能。我们进一步展示了如何通过表 4 中的 SAGE 使用不同的 SALT 来操纵模型的行为。首先，SALTl 仅使用 SE，并且 SE 中的所有令牌对损失的贡献相同。 SALT 可以通过损失函数的不同权重来增加或减少模型对 1E−C 的重视程度。增加 1E−C 的损失权重将使模型生成更多属于 1E−C 的单词/概念（Gw2 和 Gc2），这遵循我们的 SAGE 假设 2。而减少 1E−C 的损失权重将使模型生成更少的单词/概念属于1E−C（Gw2和Gc2）的单词和概念，同时也可以减少属于1AI−C（Gw1和Gc1）的单词/概念的生成，这满足我们的SAGE假设1。所以SALTld和SALTli根据 SAGE 指标使模型更好地为用户服务。
其次，与上述三个 SALT 变体不同，SALTu 仅使用 SAI，但它知道 SAI 中的哪些标记分别属于 1AI−C 和 1AI−NC。因此，SALTu 显着减少了属于 1AI−C 的单词和概念。然而，由于没有见过1E−NC的数据，SALTu很少生成相关的单词和概念。最后，SALTl+u 具有更精细的信息——通过相应的损失权重，属于 SAI (SE) 中的 1AI−C、1AI−NC 、1E−C 和 1E−NC 的令牌。因此，SALTl+u可以学习更合适的分布，从而减少属于1AI−C的单词和概念的生成，同时增加属于1AI−NC、1E−C和1E−NC的单词和概念的生成。

减少遗忘问题

在表 3 中，当我们训练在 CCUser 上训练的模型时，我们看到旧评估数据集 CCeval 中 SALTl 的评估指标有所下降——灾难性遗忘。原因可能是 3.2 节中描述的 CCUser 和 CC 数据集之间的分布差异。 SALTu和SALTl+u在CCeval数据上比ROUGE-1和UMLS-F1都有不同程度的改进。这一结果说明SALT训练也在一定程度上缓解了遗忘问题。减少灾难性遗忘的一种广泛使用且有效的技术是基于重播的方法，它将模型训练所用的可见数据混合在一起（例如，CC）。
在本工作中，我们将 CCUser 和 CC 数据的比例设置为 2:1。也就是说，假设有n个CCUser数据，我们将采样0.5 * n个CC数据一起训练7。表3表明SALTx+RSALTl可以有效帮助模型减少灾难性遗忘问题。添加采样的可见数据可以提高模型在新 CCUser 和原始 CC 数据中的性能。然而，与M相比，我们仍然看到CC数据集中SALTx+RSALTl的性能有所下降，这表明传统的基于重放的方法不能完全解决这个问题。在第 6.3 节中，我们展示了如何使用 SALT、模仿编辑数据和 RSALT 进一步解决该问题。

模仿编辑数据集中的 SALT

SALT 使用 SE 和 SAI 之间的关系来获得比仅使用 SE 和似然训练更好的性能。在本节中，我们表明，我们可以使用 SI（地面实况数据）和 SAI 之间的类似关系直接改进摘要模型 M，而无需新的人工编辑数据或附加注释，即，假设 SI 是SAI 上的人工编辑数据。通过这种方式模拟人工编辑，我们可以 1) 证明 SALT 在不包含人工编辑组件的公共数据集上的有效性，8
在这里插入图片描述
2) 减少所需的人工编辑量，因为人工编辑很难获得。虽然SE和SI都来自人类，但它们与SAI的关系有着本质的不同。前者是根据 SAI 进行修改的，而后者是人类从头开始生成的。因此，SE 直接依赖于 SAI ，但 SI 则不然。因此，即使 SE 和 SI 依赖于相同的输入数据，SAI 和 SI 之间的差异可能比 SAI 和 SE 之间的差异更大。我们可以看到变化代币的平均百分比差异——1E−C 和 1I−C 为 1，前者（6.17%）远低于后者（45.59%）。因此，在我们对 SI 和 SAI 进行序列比对后，我们执行两步后处理操作 9 以确保训练稳定性，这有助于我们将更改令牌的百分比从 45.59% 减少到 19.07%，同时保持可接受的数量数据丢失（21.38%）。

使用看到的数据进行模仿编辑。

我们使用 CC 的训练数据来实验 SALT 和模仿编辑对所见数据的影响。首先，对于CC数据集，表5的结果表明，继续在训练数据集上使用似然损失来训练已经收敛的M并不能提高性能并导致过拟合。然而，当我们使用 SI 作为模仿编辑数据并使用 SAI 对其进行 SALT 训练时，我们可以看到改进。其次，我们在 CNN 数据集上看到了类似的结果。尽管9的详细信息参见附录A.3.1。 SALTl 的过度拟合不会导致性能下降，使用 SI 和 SAI 进行 SALT 训练比仅使用似然训练更能提高性能。这些结果表明，即使模型已经收敛（在可见/原始训练数据上），我们也可以通过在可见数据集上继续使用 SALT 对其进行训练来获得模型的额外改进。第三，与之前的人工编辑结果不同，CC的SALTu优于SALTl+u。我们认为这是因为 M 已经开始对 CC 数据过度拟合，因此继续向原始训练数据添加可能性会降低分数。

使用看不见的数据进行模仿编辑

我们使用 CC 的一部分测试数据集（未在评估中使用）来实验 SALT 和模仿编辑对未见过的数据的影响。在表6中，我们取M（在CC-train上训练）并用CC-test的一部分来训练它作为带有SALT的模仿编辑数据。我们利用CC-test的剩余测试数据来评估模型在新的仿编辑数据中的性能，然后使用CC-eval来评估模型在原始数据中的性能。在表6的模仿编辑评估结果（CCtest−r）中，SALTl+u比基线方法SALTl具有更好的性能，这与表3中我们使用人工编辑数据的结果一致。在原始数据评估结果（CCeval表6中，虽然不存在分布偏移引起的遗忘问题，但SALTl+u仍然比基线模型SALTl具有更高的分数。

使用 RSALT 解决遗忘问题

通过之前的分析，我们看到SALT帮助M继续对人工编辑数据或模仿编辑数据进行训练。在6.1.2和6.2.2节中，我们观察到传统的基于重放的方法不能完全解决灾难性遗忘问题，因此如果存在以下情况，SALTx+RSALTl在表3和表6上的性能仍然低于M的性能分布差异。我们在表3和表6中报告了SALTx+RSALTl+u的结果。我们发现SALTx+RSALTl+u在继续使用人工编辑数据进行训练时不存在遗忘问题。我们将此结果归因于 RSALT 为传统的基于重放的方法带来的数据增强。 RSALT 不仅重用看到的数据以防止模型忘记学习到的分布，而且还使用模型本身与 SALT 生成的输出来进一步扩展有效的训练数据点。

偏好评估

在CC数据集中，GPT4（在500个数据点上）对SALT1+u+RSALT1+u的排名高于其他变体（SALT1和SALT1+u）和M。为了验证 GPT 排名，我们对较小的数据集（25 个数据点）进行了人工评估。人类排名与GPT4排名一致。在 CCUser 中，GPT4（在 500 个数据点上）将 SALT1+u 的排名高于其他变体，这是预期的，因为 SALT1+u+RSALT1+u 也在重放数据集上进行训练。由于隐私原因，我们没有对 CCUser 进行人工评估。在附录表 12 中，我们显示了与 GPT4 一起使用的用于对摘要进行排名的提示。我们在图 1 中显示了我们工作中不同模型的所有 MRR 分数。

五讨论SALT 与 RLHF

首先，我们认为人工编辑是一种更自然的方式来收集用户的反馈，因为他们可以为工作流程修复人工智能生成的文本以改进生成。收集与用户工作流程不直接相关的其他形式的反馈不会有太大的扩展性，在需要专业领域知识和细致入微的用户目标的领域尤其如此。考虑到专家的成本、时间和可用性，从专家的日常工作流程中收集 HF 非常重要。其次，我们使用直接偏好优化 (DPO)（Rafailov 等人，2023）进行实验，以比较 RLHF 和 SALT 在使用人类编辑反馈数据集时的差异。 DPO 和 SALT 的训练设置类似，它们直接在人类偏好数据集上进行训练，无需训练显式奖励模型。我们使用 SAI 作为拒绝的摘要，SE 作为选择的摘要，并计算它们之间的 DPO 损失 – LDP O 来训练模型。
在这里插入图片描述

其中 θ 和 ref 是当前模型参数和原始模型参数。表 7 显示了 GPT-210（117M 参数）上 β = {0.1, 0.5} 时 DPO 的性能，以及 CCUser 测试数据集上的 Rouge、Meteor 和奖励精度 (Reward Acc)。 DPO11 中使用的奖励准确度是选择奖励 > 拒绝奖励的数据点的比率。

在这里插入图片描述

我们发现 DPO 比 SALTl 更好，这相当于 SE 上的似然训练。这是预期的，因为 DPO 也使用 SAI。然而，DPO 的性能低于 SALT1+u。当我们改变超参数 β 以获得更高的奖励准确度时，其他参数（ROUGE 和 Meteor）就会降级，反之亦然。我们认为这是因为，DPO 对整个被拒绝的摘要进行了惩罚，这不适合人工编辑反馈，因为 SAI 和 SE 中的大多数单词是相同的。 DPO 没有明确考虑这种情况，因此，如果不使用代币之间的细粒度关系，DPO 可能很难通过 SAI 和 SE 学习隐式奖励。有趣的是，尽管 SALT 损失函数不像 DPO 那样明确最大化选择和拒绝的对数概率，但 SALT 的奖励准确率高于 DPO。应该注意的是，DPO 是为使用比较而不是人工编辑反馈而开发的。对于人工编辑反馈，改进 DPO 的一种直接方法可能是修改损失函数，以仅使用被拒绝摘要中的“负标记”，这与我们的 SALT 想法一致。

六总结

在这项工作中，我们探索利用人工编辑反馈来改进语言模型，这些反馈可以比其他人更大规模地收集。具体来说，我们提出了基于序列比对和似然性训练的 SALT 训练目标展示如何设计模仿编辑以减少对昂贵高频的需求。我们进一步在人类编辑数据上证明，SALT 比直接的 RLHF (DPO) 方法表现更好。

局限性

在我们的实验中，我们发现我们的方法改进了相对较小的语言模型，例如 T5。由于计算资源的限制，我们无法在更大的语言模型上尝试我们的方法。所以我们不知道哪种 HF（人类反馈或人类编辑数据）更适合LLM。
但就像我们在第 1 节中讨论的那样，从 ML 数据的角度来看，人工编辑具有许多独特的优势。鉴于这是在用户修复我们的人工智能生成的工作流程摘要时收集反馈的自然方式，行业中的许多产品可以更轻松地使用这种 HF 方法和我们的 SALT 方法来提高其文本生成质量，而无需太多额外的努力。此外，还应该在各个领域、各种规模的模型中对其他 HF 方法进行更多的探索，以帮助 NLP 界找到各种场景下最适合的 HF 方法。
本文未探讨的另一点是LLM-in-the-loop。随着GPT3.5和ChatGPT的出现，LLM在很多领域都表现出了接近甚至超越人类的水平。在本文中，我们并没有利用LLM进行类似Human Edits的实验（即将LLM当成人类来修改SAI以获得SE(LLM)）。理想情况下，这将提供更好的模仿编辑以降低 HF 成本。
除了时间和资源限制之外，正如我们在第1节中讨论的那样，数据隐私问题使得业内许多从业者很难将数据输入到这些第三方API或服务网站中进行相关实验。
LLM-in-the-loop无疑是未来值得迈出的下一步，我们将研究如何处理相关的数据隐私问题。这也将成为医疗和其他面向隐私领域的许多其他任务需要解决的问题。目前我们方法的实施还有一些改进的空间。
我们的代码目前仅尝试一种全局序列比对算法，即 Needleman-Wunsch 算法。事实上，有很多替代方案可以帮助模型在不同方面进行改进。例如，如何提高 LM 摘要的真实性是 NLP 和 BioNLP 社区的一个关键主题（Tang et al., 2022；Abacha et al., 2023b；Chang et al., 2023）。之前一些探索语言模型和知识的工作表明，知识不足可能会导致事实错误（Petroni et al., 2019; Sung et al., 2021; Yao et al., 2022a,b）。因此，我们可以将序列比对的范围限制在医学实体（Luo et al., 2022）或术语（Kwon et al., 2022），以帮助模型在训练过程中更多地关注重要的标记，从而进一步减少幻觉。