信息检索(111):Token-Level Self-Evolution Training for Sequence-to-Sequence Learning

Token-Level Self-Evolution Training for Sequence-to-Sequence Learning


发布时间(2023)


token 级自进化训练

1)确定难以学习的 label:通过 token-loss 是否超过阈值来确定
2)普通 token 使用正常交叉熵损失
困难 token 使用修改后的 soft label,然后再用交叉熵

摘要

自适应训练方法广泛应用于序列到序列模型,通常根据先验(例如词频)重新衡量不同目标标记的损失。然而,它们中的大多数都没有考虑不同训练步骤中学习难度的变化,而过分强调学习困难的独热标签,使得学习具有确定性和次优性。为此,我们提出了标记级自进化训练 (SE),这是一种简单有效的动态训练方法,可以充分明智地利用数据中的知识。SE 专注于动态学习每个前向传递中未充分探索的标记,并通过引入一种新颖的标记特定标签平滑方法来自适应地规范训练。从经验上看,SE 在三个任务(即机器翻译、摘要和语法错误纠正)中产生了一致且显着的改进。令人鼓舞的是,我们在三个机器翻译任务上实现了平均 +0.93 BLEU 的改进。分析证实,除了提高词汇准确性外,SE 还增强了生成多样性和模型泛化。

1 引言

使用神经网络的序列到序列学习 (Seq2Seq) (Sutskever 等人,2014) 推动了各种 NLP 任务的最新进展,例如翻译 (Bahdanau 等人,2015;Vaswani 等人,2017)、摘要 (Cheng 和 Lapata,2016) 和语法错误纠正 (Yuan 和 Briscoe,2016)。通常,Seq2Seq 模型使用交叉熵损失进行训练,该损失对不同目标 token 的训练损失进行同等加权。

然而,由于 token 不平衡的性质(Piantadosi,2014)以及不同 token 对句子含义的贡献不同(Church and Hanks,1990;Chen et al,2020),一些研究根据显式(例如频率)或隐式(由现成的语言模型估计的不确定性)先验重新加权 token 级训练损失(Gu et al,2020;Xu et al,2021;Zhang et al,2022a)。例如,Gu et al (2020) 提出了两个基于词频的启发式标准,以鼓励模型从权重较大的低频 token 中学习。 Zhang et al (2022a) 引入了基于附加目标端语言模型的目标上下文感知度量来调整每个目标 token 的权重。

尽管取得了一些成功,但这些自适应训练方法仍然存在局限性。首先,它们中的大多数都会预先确定困难的标记,并在指导训练之前将其固定下来。然而,在我们的初步研究中,我们发现难以学习的标记在训练过程中是动态变化的,而不是静态固定的。如图 1 所示,随着训练的进行,虽然句子级损失很好地收敛了,但就标记级损失而言,困难标记正在从“abschließen”变为“Sache”。其次,这些自适应训练方法通过重新加权损失来过分强调拟合困难标记的独热标签,这在经验上可能会导致过度拟合并限制泛化(Norouzi 等人,2016 年;Szegedy 等人,2016 年;Xiao 等人,2019 年;Miao 等人,2021 年)。此外,最近的一项研究(Zhai 等,2023)提供了理论证据,支持重新加权对于提高泛化能力并不是那么有效。

相应地,我们设计了一个简单有效的 Token 级自进化训练 (SE) 策略,以鼓励 Seq2Seq 模型从模型本身动态选择的难词中学习。具体来说,SE 包含两个阶段:❶自我质疑和❷自我进化训练。在第一阶段,Seq2Seq 模型根据 token 级损失动态选择难以学习的 token,然后我们鼓励 Seq2Seq 模型在第二阶段从这些 token 中学习,在这个阶段,我们不采用重新加权,而是引入一种新颖的 token 特定标签平滑方法来生成易于消化的软标签,该方法同时考虑了基本事实和模型的预测。

跨任务、语言对、数据规模和模型大小的实验表明,SE 始终显著优于原始 Seq2Seq 模型和重新实现的高级基线。分析证实,除了词汇准确性提高外,SE 还能生成多样化、类似人类的生成,具有更好的模型泛化能力。

2 方法

准备
序列到序列 (Seq2Seq) 学习旨在最大化 y = {y1, . . . , yN } 中每个目标词的对数似然的交叉熵 (CE) 损失,以源 x 为条件,其中优化对所有标记一视同仁:
然而,由于每个 token 的学习难度不同,平等对待所有 token 并不是最优的 (Gu et al, 2020)。为了解决这一限制,采用了一系列 token 级自适应训练目标来重新加权不同目标 token 的损失 (Xu et al, 2021; Zhang et al, 2022a)。 这些方法的共同目标是通过充分利用信息丰富但未被充分探索的 token 来促进模型训练

然而,我们的初步研究表明,硬标记在不同的训练步骤(或模型结构)中是动态变化的(见图 1),因此在训练期间使用静态标记先验(例如频率)并不是最优的。此外,ML 社区中最近的研究(Zhai et al, 2023)从理论上表明,重新加权对提高泛化能力并不是那么有效。基于上述证据,我们提出了自进化学习(SE)机制,以鼓励模型自适应地、明智地从模型本身动态确定的信息丰富但未被充分探索的标记中学习(§2.1 中的阶段❶),并采用易于学习的标签分布(§2.1 中的阶段❷)。与我们类似的工作是 Hahn and Choi (2019)。然而,他们的方法主要考虑预测答案不正确但接近黄金答案的情况,而我们的方法则侧重于所有动态硬标记

2.1 Token 级自进化学习

❶自我质疑阶段
目标是在训练动态过程中选择 Seq2Seq 模型本身质疑的难以学习的 token。以前,这些困难的 token 是由外部模型或特定的统计指标预先确定的。然而,受到图 1 所示的训练阶段困难 token 动态变化的发现以及训练后的模型包含有用信息 (Li and Lu, 2021)(例如同义词)的发现的启发,我们建议直接利用模型的行为来动态选择目标 token。在实践中,我们首先计算每个 token 在每次前向传递中的 token 级 CE 损失,表示为 {l1, l2, …, ln}。 然后我们设置一个损失阈值 Γ,并选择损失超过 Γ 的 token 作为目标 token,即 D = {ti |li > Γ},其中 i ∈ N = {1, 2, …, n}。

❷ 自我进化训练阶段
在选出困难的 token 之后,我们鼓励模型仔细地从它们那里学习。鉴于重新加权和刻意从困难的 token 中学习的理论不足 (Zhai et al, 2023) 以及可能导致的过拟合或过度自信问题 (Miao et al, 2021),我们提出使用一种新设计的针对 Token 的标签平滑 (TLS) 方法来加强从这些 token 中的学习。具体来说,受标签平滑 (LS) 正则化 (Szegedy et al, 2016) 的影响,我们将基本事实 pi 和模型的预测 pˆi 结合起来,为第 i 个 token 形成一个新的软标签 p酪i。然后我们使用 p酪 来指导困难的 token D,同时为其他 token 留下标签平滑 CE 损失。值得注意的是,我们还将传统的标签平滑技术应用于 pˆi,以激活预测分布中的信息。与人类学习类似,人类通常更容易掌握熟悉的知识所描述的新事物,因此,新的软标签融合了准确的基本事实和模型的自分布,很容易理解。从数学上讲,对于困难的标记 ti ,酪pi 公式为:
然后我们计算困难令牌和其他令牌的损失,并将这两个损失结合起来:
其中 i ∈ D 且 j ∈ N \ D

3 评估

机器翻译
文本摘要
语法错误纠正

3.1 主要结果

Token-Level Self-Evolution Training (SE)带来跨语言对和跨规模的收益
表 1 中,在不同数据大小(从 0.6M 到 36M)的机器翻译结果显示,配备 SE 的 Transformer“+ SelfEvolution(我们的)”1)显著提高了性能,平均 BLEU 点数为 +0.92;2)在大型数据集 WMT14 En-Fr 上,比之前的竞争方法“+ CBMIadaptive”高出多达 +0.47 BLEU 点。这些结果证明了我们的 SE 的有效性和通用性

SE 可带来跨任务和主干规模的收益。
表 2 列出了在大型预训练主干模型 BART(Lewis et al,2020)上(该模型具有超过 6 亿个参数)在更多任务(包括翻译、摘要和语法纠错)上的表现。与更强大的基线相比,我们的 SE 在所有任务中显著且逐步地提高了生成质量,即分别为 +0.4 BLEU、+ 0.7 RG-L 和 + 1.9 F0.5,表明我们的 SE 可以稳健地适用于一般场景。

SE 在极大数据集上表现良好
为了进一步验证 SE 在极大数据集上的有效性,我们在 Zan 等人(2022b)处理的 WMT22 De-En 上进行了实验,其中包含 236M 训练示例。表 4 中的结果表明,我们的方法在 BLEU 和 COMET 上分别可以实现 +0.4 和 +1.2 的改进,这证明了我们的 SE 在极大数据集上也有效。

3.2 分析

我们提供了一些见解,以便更好地理解我们方法的有效性。重要模块和参数的消融在附录 A 中。
SE 学习到更好的 token 表示。为了验证我们的方法是否有助于学习更好的 token 表示,我们分别从学习损失和细粒度生成的角度对 WMT14 EnDe 进行了分析。
首先,我们按照 Zan et al (2022a) 的方法,在表 3 中统计了不同交叉熵损失尺度下 token 比率的分布。交叉熵是一个很好的指标,可以量化有效数据集中预测分布与基本事实之间的距离,值越低表示分布越相似。如图所示,我们的方法将低损失 token 比率提高了 +2.3%,这表明 SE 通过降低 token 不确定性帮助模型学习更好的 token 表示。此外,我们按照 Ding et al (2021a);Liu et al (2021a) 的方法,将翻译分解为不同的粒度,并测量它们的细粒度性能。 具体而言,我们在图 2 中计算了 1 不同频率桶的单词 F 度量和不同长度桶的 BLEU 分数。我们看到 SE 在所有频率和句子桶中都取得了更好的性能,表明我们的方法可以提高不同粒度的性能。
SE 鼓励多样化的生成。缺乏生成多样性是 Seq2Seq 学习任务的一个臭名昭著的问题(Sun 等人,2020 年;Lin 等人,2022 年)。通过使用经过校正的软标签更好地探索模型的预测,SE 有望改善生成多样性。我们遵循 Wang 等人(2022 年)的做法,通过分析 WMT’14 En-De 的额外多参考测试(Ott 等人,2018 年)中的表现来检验这一点。 我们为从原始测试中获取的 500 个测试句子中的每一个选择了额外的参考。表 5 显示 SE 始终优于基线,平均改进为 0.9/1.0 BLEU,这表明我们的 SE 可以有效地生成多样化的结果。
SE 增强了模型泛化能力。得益于更好的硬标记探索,配备 SE 的 Transformer 有望拥有更好的泛化能力。我们按照 Ding et al (2021b) 的方法,通过域转换场景测试来检验这一点。具体而言,我们在表 6 中评估了四个域外测试集 (Müller et al, 2020) 上的 WMT14 En-De 模型,发现 SE 平均提高了 +0.9 BLEU 点,从而提高了翻译效果,显示出更好的词汇泛化能力。
SE 鼓励像人类一样的生成。我们在 WMT14 En-Fr 上设计了两种类型的评估:1)使用 COMET(Rei 等人,2020 年)和 BLEURT(Sellam 等人,2020 年)进行自动评估,它们与人类判断具有高度相关性。2)使用三名持有 DALF C2 证书2 的近母语法语注释者进行人工评估。具体来说,对于人工评估,我们从测试集中随机抽取 50 个句子来评估翻译的充分性和流畅性,评分为 1∼5。对于充分性,1 表示与源无关,而 5 表示语义上相等。 对于流畅性,1 表示难以理解,而 5 表示流利且为母语。表 7 展示了自动和人工评估结果,我们发现我们的 SE 确实实现了像人类一样的翻译。

4 结论

在本文中,我们提出了一种自我进化学习机制,通过动态利用信息丰富但尚未得到充分探索的标记来改进 seq2seq 学习。SE 遵循两个阶段,即自我质疑和自我进化训练,并且可用于进化任何预训练模型,只需一个简单的方法:继续使用 SE 进行训练。我们在一系列广泛使用的基准上通过经验证明了 SE 的有效性和通用性,涵盖了低、中、高和极高的数据量。
未来,除了生成任务外,我们还想验证 SE 在语言理解任务上的有效性(Wu et al, 2020; Zhong et al, 2023)。此外,设计像 Lu et al (2023) 那样的 SE 启发式指令调整或提示策略来增强大型语言模型(例如 ChatGPT3)的性能也将很有趣,毕竟这些模型已经在许多条件生成任务上得到了充分验证(Hendy et al, 2023; Jiao et al, 2023; Peng et al, 2023; Wu et al, 2023)。

  • 23
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值