摘要
RNN很难并行化,而经过时间截断的反向传播给记住长期模式带来了困难。本文提出了一种避免重复的注意编码网络(AEN),该网络采用基于注意的编码来建立上下文和目标之间的模型。提出了标签不可靠性问题,引入了标签平滑正则化。我们还将预训练的BERT应用到这项任务中,获得了最新的最新结果。实验和分析证明了该模型的有效性和轻量级。
1引言
近年来,神经网络模型被设计用于从目标和上下文中自动学习有用的低维表示,并获得有希望的结果。
注意机制的目的是加强对与目标语语义关系更密切的上下文词汇的注意。
这项工作的主要贡献如下:
- 我们设计了一个注意编码网络来绘制目标词和上下文词之间的隐藏状态和语义交互。
- 我们提出了标签不可靠性问题,并在损失函数中加入了一个有效的标签平滑正则化项,以鼓励模型对训练模糊标签缺乏信心。
- 我们将预训练的BERT应用到这项任务中,我们的模型提高了基本BERT模型的性能,并获得了最新的结果。