Attention机制详解（深入浅出）

赵孝正

已于 2022-12-30 17:32:39 修改

阅读量3.5k

点赞数 1

分类专栏：自然语言处理文章标签：深度学习人工智能

于 2022-12-04 10:48:49 首次发布

本文链接：https://blog.csdn.net/weixin_46713695/article/details/128169690

版权

自然语言处理专栏收录该内容

16 篇文章 0 订阅

订阅专栏

1. 为什么要有Attention

让我们从循环神经网络的老大难问题——机器翻译问题入手。

我们知道，普通的用目标语言中的词语来代替原文中的对应词语是行不通的，因为从语言到另一种语言时词语的语序会发生变化。比如英语的“red”对应法语的“rouge”，英语的“dress”对应法语“robe”，但是英语的“red dress”对应法语的“robe rouge”。

为了解决这个问题，我们创造了Encoder-Decoder结构的循环神经网络。

它先通过一个Encoder循环神经网络读入所有的待翻译句子中的单词，得到一个包含原文所有信息的中间隐藏层，接着把中间隐藏层状态输入Decoder网络，一个词一个词的输出翻译句子。
这样子，无论输入中的关键词语有着怎样的先后次序，由于都被打包到中间层一起输入后方网络，我们的Encoder-Decoder网络都可以很好地处理这些词的输出位置和形式了。

在这里插入图片描述

但是问题在于，中间状态由于来自于输入网络最后的隐藏层，一般来说它是一个大小固定的向量。既然是大小固定的向量，那么它能储存的信息就是有限的，当句子长度不断变长，由于后方的decoder网络的所有信息都来自中间状态，中间状态需要表达的信息就越来越多。

如果句子的信息实在太多，我们的网络就有点把握不住了。比如现在你可以尝试把下面这句话一次性记住并且翻译成中文：

It was the best of times, it was the worst of times, it was the age of wisdom, it was the age of foolishness, it was the epoch of belief, it was the epoch of incredulity, it was the season of Light, it was the season of Darkness, it was the spring of hope, it was the winter of despair, we had everything before us, we had nothing before us, we were all going direct to Heaven, we were all going direct the other way — in short, the period was so far like the present period, that some of its noisiest authorities insisted on its being received, for good or for evil, in the superlative degree of comparison only.
.
– A Tale of Two Cities, Charles Dickens.

别说翻译了，对于人类而言，光是记住这个句子就有着不小的难度。如果不能一边翻译一边回头看，我们想要翻译出这个句子是相当不容易的。

Encoder-Decoder网络就像我们的短时记忆一样，存在着容量的上限，在语句信息量过大时，中间状态就作为一个信息的瓶颈阻碍翻译了。

可惜我们不能感受到Encoder-Decoder网络在翻译这个句子时的无奈。但是我们可以从人类这种翻译不同句子时集中注意力在不同的语句段的翻译方式中受到启发，得到循环神经网络中的Attention机制。

2. Attention机制

我们现在把Encoder网络中的隐藏层记为 $h^{(t)}$ ，把Decoder网络中的隐藏层记为 $H^{(t)}$ ，第 $t$ 个输出词记为 $y^{(t)}$ ，我们原先的Decoder网络中的式子就可以写做：
$H^{(t)}=f(H^{(t-1)}, y^{(t-1)})$

我们要使得网络在翻译不同的句子时，可以注意到并利用原文中不同的词语和语句段，那我们就可以把Decoder网络式子写作：
$H^{(t)}=f(H^{(t-1)}, y^{(t-1)}, C_t)$

其中 $C_t$ 指的是在时刻 $t$ 的上下文向量（Context Vector）。我们把它定义为所有的原文隐藏层值 $h^{(t)}$ 加权平均的结果 $C_t=\sum^{T_x}_{i=1}\alpha_{t_i}h^{(t)}$ ，而如何分配权重就体现了输出这个 $H^{(t)}$ 的时候，应该给哪些原文词语更高的注意力。

在这里插入图片描述

我们给 $h^{(t)}$ 分配的权重就叫做全局对齐权重（Global Alignment Weights）

3. 全局对齐权重

全局对齐权重 $\alpha_k$ 很好的体现了在计算第 $k$ 个输出词语时，应该给所有的 $h^{(t)}$ 怎样的权重，其中 $\alpha_{ki}$ 就代表着计算第 $k$ 个输出词语时， $h^{(i)}$ 分配到的权重大小。于是我们的 $C_k=\sum_{i=1}^{T_x}\alpha_{ki}h^{(i)}$ 。

翻译一个句子的时候，每一步的 $C_k$ 都应该是不同的，下图展示的是把法语句子“L’accord sur l’Espace économique européen a été signé en août 1992.” 翻译成英语句子“The agreement on the European Economic Area was signed in August 1992.”时，每一个输出英文词汇的 $\alpha_{k}$ 构成的对齐矩阵：
在这里插入图片描述
上图中，每一列就代表着输出一个英语单词时，它的 $\alpha_k$ 权重是如何分布于原文向量 $h^{(t)}$ 中的，图中越亮的像素块对于着越大的权重。

这个图告诉了我们几个重要信息：

在预测每一个词语的时候，权重只会在少数几个词上表现出比较高的词，一般不会多于3-4个词语被同时赋予比较高的注意力；
通常来说，在上一时间刻中被分配很大权重的 $h^{(t)}$ ，在下一层中并不一定也会有高权重。连续输出几个词语时，注意力会快速地在不同原文词语之间切换。
很多时候，输出文本中的第 $k$ 个词的注意力也集中在输入文本的第 $k$ 个词上，就像是图中从左上到右下的这一条对角的亮带。

于是乎我们的带有Attention的Encoder-Decoder网络的迭代过程就是如下几步：

Encoder 网络按照原来的方法计算出 $h^{(1)},h^{(2)},...,h^{(T_x)}$ ；
计算 Decoder 网络，对于第 $k$ 个输出词语：
1. 计算出得到 $C_k$ 所需要的 $h^{(1)},h^{(2)},...,h^{(T_x)}$ 的权重 $\alpha_k$ ；
2. 计算 $C_k$ ： $C_k=\alpha_{k1}h$ ；
将代入计算出，再将代入你的网络中计算出。如果，那么我们就令初始。
$k := k + 1$ 后重复上述步骤，直到网络输出<end>为止。
现在我们只剩下一个问题没有解决了：如何计算出 $\alpha_k$ 呢？

如何计算权重计算函数

计算 $\alpha_k$ 的时候，我们很自然的就会想到： $\alpha_k$ 也可以使用一个小神经网络计算出来，而由于 $\alpha_{kt}$ 表达的含义是我们在输出到第 $k$ 个词，也就是面对时，应该给分配多少的权重，我们可以设计一个以为输入的网络：
参考资料：https://zhuanlan.zhihu.com/p/380892265