论文阅读：Scheduled Sampling for Transformers

最新推荐文章于 2024-11-10 11:47:10 发布

Jun_2077

最新推荐文章于 2024-11-10 11:47:10 发布

阅读量1.2k

点赞数

文章标签：神经网络自然语言处理机器翻译

本文链接：https://blog.csdn.net/weixin_45337615/article/details/108963669

版权

该论文探讨了如何在Transformer模型中应用Scheduled Sampling来解决序列到序列任务中的exposure bias问题。通过采用两遍解码策略，实验结果显示这种方法在机器翻译任务中能接近使用teacher forcing的效果，并在某些情况下提高了BLEU分数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Abstract

Scheduled sampling本是用来解决序列到序列中的exposure bias问题，即RNN模型在训练时使用的是真实值（teacher forcing），而在测试时使用的是预测值，这两者的不一致则会导致误差。这种技术通过喂给模型混合了真实值和预测值的数据来训练模型，此做法在RNN网络中取得了成效。然而Transformer模型与RNN不同，transformer的每个新词通过前面的所有词来预测，而不只是通过最后一个词，所以我们无法像在RNN模型中使用scheduled sampling。在Transformer中，我们采用了两次解码的策略。通过在两种语言翻译的实验，我们实现了与采用teacher forcing模型相近的效果，并且展示这项技术有值得探索的前景。

1 Introduction

之前的使用seq2seq的神经机器翻译所使用的teacher forcing意味着这个模型从来没有在它错误预测上进行训练，因此会产生一种现象叫exposure bias,这将会导致在翻译时因为是使用的自己的预测而产生错误。
一种常用的解决这个问题的方法是使用scheduled strategy来决定什么时候使用teacher forcing，对于卷积的解码器，使用scheduled sampling很简单：在生成每个词时，模型决定是使用teacher forcing还是使用模型预测的词。
而在Transformer模型中，生成每个词需要前面所有的词而不只是最后一个词，这使得在transformer上直接使用此模型变得不容易，由于Transformer已经成为了自然语言处理的默认选项，所以将scheduled sampling应用在transformer上变得有趣起来。
我们在此文中的贡献包括：

我们打算在训练时使用两遍decoder来在Transformer模型上使用schedual sampling。
我们比较了几种不同的方法，当真实值被预测值替代时对模型的影响。
我们在对两种语言对翻译的机器翻译任务中测试了使用scheduled sampling方法的transformer模型，并且取得了接近使用了teacher forcing模型的效果（在某些模型中有接近1BLEU的进步）。

2 Related Work

在RNN模型中使用scheduled sampling: 模型中在step t+1使用的embedding来自于step t 中随机选择真实值或者预测值，并且选择真实值的几率随训练进行减少，有三种几率衰减的策略： linear decay, exponen-
tial decay and inverse sigmoid decay.
decay schedules
Goyal et al. (2017)提出了一种想法，即在每一步，当模型决定使用模型的预测而不是argmax时，他们使用所有词向量的平均权重，使用预测的分数加权。他们使用两个选项来实验：一个softmax和一个temperature参数，和一个使用带有temperature的Gumbel Softmax的随机变量。使用此技术，他们实现了比标准的scheduled sampling更好的结果。

3 Scheduled Sampling with Transformers

在RNN的训练阶段中我们每一个time step生成一个词，并且
我们是在之前真实值的基础上来产生这个词，所以这也使得在RNN中使用scheduled sampling很方便，而Transformer模型所使用的是前面所有的词而不只是最后一个词，所以，我们需要作出一些改变以使得能在Transformer上使用这个技术。