Attention小结

最新推荐文章于 2023-01-21 00:08:41 发布

iTensor

最新推荐文章于 2023-01-21 00:08:41 发布

阅读量110

点赞数

分类专栏：深度学习自然语言处理深度学习

本文链接：https://blog.csdn.net/wshixinshouaaa/article/details/100499080

版权

17 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

9 篇文章 0 订阅

订阅专栏

在论文1中提出了一种用来处理机器翻译任务的新模型 Encoder–Decoder Model 。

在这里插入图片描述

编码器将输入源语言句子 $x = (x_1 ,...,x _T)$ 编码为一个固定长度的语义向量 C。

$h_t = f (x_t , h_{t−1})$

$C = h_T$
解码器翻译每个词时，语义向量 C 都会参与其中的计算。

$s_t = g(s_{t-1}, y_{t-1}, C)$ ，其中 $s_{t}$ 是解码器中RNN在 $t$ 时刻的隐状态

不过该模型有明显的缺点：

Encoder–Decoder Model 中的编码器和解码器一般不是固定的，可以为 RNN、CNN、Attention。

为了解决以上的几个问题，论文2中在Encoder–Decoder Model的基础上提出了一种新的对齐机制，也就是注意力机制，该文章提出的为 Soft-Attention，当然也是用在机器翻译任务中。

对与第二点语义向量 $C_i$ 的产生，以下详细说明。

很多文章把 Attention机制看作是查表操作，如下图所示：

在这里插入图片描述

Query 是 $s_{t-1}$ ，Key和Value相同，代表每一个 $h_{i}$ 。通过计算Query和各个Key的相似性，得到每个Key对应Value的权重 $\alpha$ ，然后对Value进行加权求和，即得到了最终的Attention数值，即 $C_i$ 。

Attention的整体计算流程如下：

在这里插入图片描述

还有一种 Self-Attention，这个在 Transformer模型中介绍。

Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

Neural Machine Translation by Jointly Learning to Align and Translate

ine Translation

Neural Machine Translation by Jointly Learning to Align and Translate

关注

专栏目录