论文笔记|Sequence-to-Sequence Learning as Beam-Search Optimization

本文探讨了序列到序列( Seq2Seq )模型在自然语言处理任务中的应用,指出在训练和测试期间存在的曝光偏差和损失评估不匹配问题。作者提出了一种基于束搜索优化的训练方案,通过非概率变体模型和搜索过程中的损失函数来解决这些问题。实验证明,这种方法在词序、句法分析和机器翻译等任务上优于标准的Seq2Seq系统和基于注意力的模型。
摘要由CSDN通过智能技术生成

Abstract

序列到序列( seq2seq )建模迅速成为一种重要的通用NLP工具,已被证明对许多文本生成和序列标注任务是有效的。Seq2seq建立在深度神经语言建模的基础上,继承了其在估计局部、下一词分布方面的显著准确性。在本文中,我们在Daum ' e III和Marcu ( 2005 )的工作基础上,提出了一种模型和Beamsearch训练方案,该方案扩展了seq2seq来学习全局序列得分。这种结构化方法避免了与局部训练相关的经典偏差,并将训练损失与测试时间的使用统一起来,同时保留了seq2seq已证明的模型架构及其高效的训练方法。我们展示了我们的系统在词排序、句法分析和机器翻译三个不同的序列到序列任务上优于高度优化的基于注意力的seq2seq系统和其他基线。

1 Introduction

基于深度神经网络(其中, seq2seq)和( Sutskever et al . , 2011 ; Sutskever et al , 2014)的序列到序列学习已经迅速成为自然语言处理中非常有用和令人惊讶的通用工具。除了对机器翻译( Bahdanau et al , 2015)展示了令人印象深刻的结果外,大致相同的模型和训练也被证明对句子压缩( Filippova et al , 2015)、句法分析( Vinyals et al , 2015)和对话系统( Serban et al , 2016)是有用的。此外,它们也是其他文本生成应用的基础,例如图像或视频描述( Venugopalan et al , 2015 ; Xu et al . , 2015)。

训练seq2seq系统的主要方法是作为一个条件语言模型,在输入序列和目标词的黄金历史("gold history"通常指的是训练时使用的目标序列的正确历史数据。在训练过程中,模型尝试预测目标序列的下一个元素,而"gold history"是指真实目标序列的先前元素序列,用于计算损失并更新模型参数。这有助于模型学习如何生成正确的序列。)的条件下,训练最大化每个连续目标词的可能性。因此,训练使用严格的词级损失,通常在目标词汇上使用交叉熵。这种方法已经被证明对于训练神经语言模型是非常有效和高效的,seq2seq模型对于词汇产生任务同样获得了令人印象深刻的困惑。

但值得注意的是,seq2seq模型在测试时不作为条件语言模型使用;相反,它们必须生成完全形成的词序列。在实际中,生成是通过贪婪地搜索输出序列或利用波束搜索来完成的。在此背景下,兰扎托等( 2016 )注意到,将刚刚描述的训练和生成方案结合起来,至少会导致两个主要问题:

1 .Exposure Bias曝光偏差:模型在训练过程中从不暴露自身的错误,因此在测试时间推断的历史并不像黄金训练历史。

2 .Loss-Evaluation Mismatch损失-评价不匹配:训练使用单词级别的损失,而在测试时,我们的目标是改进序列级别的评价指标,如BLEU ( Papineni et al , 2002)。

我们还可以在列表中加入对标签偏差(拉弗蒂等, 2001)的关注,因为每个时间步的单词概率都是局部标准化的,保证了不正确的历史获得了与真实历史的继承者同样的质量。

在本工作中,我们开发了seq2seq模型的非概率变体,可以为任何可能的目标序列分配一个分数,并受Daum ' e III和Marcu ( 2005 )的学习作为搜索优化( learning as search optimization,LaSO )框架的启发,提出了一个训练过程,该过程根据波束搜索过程中的误差定义了一个损失函数。此外,在seq2seq训练过程中,我们提供了一种有效的算法来通过beam - search过程进行反向传播。

该方法为上述三个问题提供了一种可能的解决方案,同时在很大程度上保持了标准seq2seq学习的模型架构和训练效率。此外,通过对序列而不是单词进行评分,我们的方法还允许在训练时对序列生成进行硬约束。为了验证所提出方法的有效性,我们开发了一个带有波束搜索优化的通用seq2seq系统。我们在词序、句法分析和机器翻译三个截然不同的问题上进行了实验,并与带有注意力( Luong et al . , 2015)的高度调优的seq2seq系统进行了对比。使用波束搜索优化的版本在所有三个任务上都有显著的改进,特别是在需要困难搜索的任务上。

2 Related Work

曝光偏差exposure bias和标签偏差问题在结构化预测社区中受到了许多作者的关注,我们在这里简要回顾了其中的一些工作。对抗暴露偏见的一个重要方法是SEARN ( Daum ' e III et al , 2009),它是一种元训练算法,以代价敏感分类器的形式学习搜索策略,该分类器由Oracle策略和模型当前(学习)策略的插值生成的样本训练而成。

因此,SEARN通过对模型自身策略的输出进行训练,明确地针对神谕训练oracular training与非神谕(往往是贪婪的)测试时间推断之间的不匹配问题。DAgger ( Ross et al , 2011)是一种类似的方法,它

  • 13
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值