seq2seq + attention 详解

最新推荐文章于 2024-09-13 18:10:37 发布

xy_free

最新推荐文章于 2024-09-13 18:10:37 发布

阅读量3.5w

点赞数 15

分类专栏： nlp 机器翻译文章标签： attention seq2seq 机器翻译

本文链接：https://blog.csdn.net/xy_free/article/details/80397426

版权

本文详细介绍了seq2seq模型和attention机制在机器翻译中的应用，包括seq2seq模型的基本原理，attention模型如何改进seq2seq，以及attention的扩展形式。重点阐述了seq2seq+attention的计算过程，并对比了不同attention计算方式的差异，同时提出了编码器和解码器初始化、训练模式选择等关键注意事项。

摘要由CSDN通过智能技术生成

seq2seq + attention 详解

作者：xy_free $\qquad$ 时间：2018.05.21

1. seq2seq模型

seq2seq模型最早可追溯到2014年的两篇paper [1, 2]，主要用于机器翻译任务（MT）。seq2seq本质上是一种encoder-decoder框架，以翻译任务中的“英译汉”为例，模型首先使用编码器对英文进行编码，得到英文的向量化表示S，然后使用解码器对S进行解码，得到对应的中文。由于encoder与decoder两端处理的都是序列数据，所以被称为sequence-to-sequence，简称seq2seq。另外，目前应用最多的编/解码器是RNN（LSTM，GRU），但编/解码器并不限于RNN，如也有人拿MLP作为编码器。
paper[1, 2]的主要结构如下图：
这里写图片描述

2. attention模型

attention模型最早出现于cv领域，而首次用于解决nlp问题是在2014年[3]，seq2seq+attention 应用于机器翻译任务。以英译汉为例，当解码器对英文进行解码时，是一个词一个词生成的，而所生成的每个词对应的英文部分应该是不同，换句话说就是，解码器解码时不同step所分配的注意力是不同的。再举一个例子，如看图说话（用一句话描述一幅图），所生成的词语应该对应图中的不同部分，即解码器在解码时，应该给图中“合适”的部位，分配更多的注意力（权重）。
paper[3]的主要结构如下图：
这里写图片描述