seq2seq
一、seq2seq
1.模型解说
用于序列产生序列,比如问答、翻译,相较之前的模型优点:可以产生不定长度的文本。将输入序列的文本特征汇集到向量1处,然后由1处再来产生输出文本,以输出 <EOS>作为结束的标志。
2.公式汇总:
LSTM的公式
二、seq2seq + attention
因为seq2seq把特征汇集到中间的向量处,长度固定,有一定的限制。
引入注意力机制,使得在翻译的过程中把焦点放在输入句子的某些部分,得到更好的结果。
总模型
实现
公式汇总
三、seq2seq + attention变形
global attention 《==》 soft attention
local attention 《==》hard attention
参考链接 https://zhuanlan.zhihu.com/p/32092871