一、背景
seq2seq模型:https://blog.csdn.net/zyk9916/article/details/118002934
在seq2seq模型中,encoder将整个源句子编码成一个固定长度的向量(即取encoder中的最后一个隐状态),然后送到decoder中解码。这种方法对使得长句子难以处理。
作者认为,将句子编码成定长的向量是提升模型性能的瓶颈,因此提出了注意力模型来改善这个限制。
作者提出的模型不将整个输入句子编码为一个固定长度的向量。相反,它将输入语句编码为一个向量序列,并在decode时自适应地选择这些向量的子集。每次在翻译中生成一个词时,都会搜索源句子中相关信息最集中的一组位置。然后,该模型根据与这些源位置相关的上下文向量和之前生成的所有目标词来预测目标词。
二、模型
Encoder:
输入序列:
采用双向RNN模型,对输入序列进行编码,得到一系列隐状态:
Decoder:
生成