3 Self+Multi-Head+Multi-Head-Self+Attention机制

顾飞白

已于 2024-06-23 15:17:26 修改

阅读量270

点赞数 6

分类专栏：深度学习研0自学路线文章标签：深度学习机器翻译语言模型人工智能

于 2024-06-08 22:33:25 首次发布

本文链接：https://blog.csdn.net/weixin_51094405/article/details/139552269

版权

深度学习研0自学路线专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

1 注意力机制(Attention)

Attention机制可以描述将一个Query和一组Key-Value对映射到一个输出，其中 $d_{Query}=d_{Key}$ ，而输出向量序列 $A tt$ 的维度 $d_{Att}=d_{Value}$ 。

这这里对于没了解Attention的人来说可能会有疑问？Query、Key、Value是什么？哪里冒出来的？

先不考虑那么多，先知道对于Attention来说的输入就是三个向量，就当作Query、Key、Value你都事先已知了

剧透：它们是由X或者其它Input的线性变化而来；

1.1 注意力机制(Attention)

注意力机制通过计算输入序列中各位置之间的相似性（即注意力权重），并利用这些权重对信息进行加权平均来实现。具体来说：

计算相似性得分：对给定的查询向量(Query)和所有键向量(Key)，计算相似性得分，也可以理解为权重值。

在邱锡鹏《神经网络与深度学习》这本书中计算相似性得分(Score)使用的函数统称为注意力打分函数** $s (K, Q)$ **。我们常用也是最简单的打分函数是点积模型：
$K^\intercal$

[!NOTE]

打分函数采用点积模型的注意力机制也可以被称为点积注意力机制(Dot-Product Attention)
如果打分函数定义为内积模型，那么Q和K的维度就必须保证是一致的，这也是为什么在最开头我说 $d_{Query}=d_{Key}$

这里需要特别注意一下维度，我们借助Figure 1来理解一下打分函数 $s (Q, K)$ ：

Figure 1: The Score of Query and Key

$s (Q, K)$ 函数中的 $K=[[k_1],[k_2],[k_3],...,[k_n]]$ ，其中 $k_i\in\mathbb{R}^{1\times d_k}$ 。Figure 1中的 $q$ 表示** $Q=[[q_1],[q_2],[q_3],...,[q_t]]$ **中的某个给定的 $q_i\in\mathbb{R}^{1\times d_k}$ 。所以Figure 1中的每个 $s$ 实际上是一个标量，所有的 $s$ 组合起来才是 $q_i$ 对应的相似性得分向量 $s_i\in\mathbb R^{1\times n}$ 。而 $Q\in\mathbb R^{t\times d_k}$ ，一共有 t 个 $q_i$ ，所以 $s (Q, K)$ 函数最后得到的就是一个 $\mathbb R^{t\times n}$ 的矩阵。

这里的n和t可以相同可以不同，取决于Key-Value和Query的来源，因为Query的长度可以和Key-Value不同，所以用t表示

归一化得分：通过softmax函数将相似性得分归一化为注意力权重，表示不同位置的相对重要性。

Figure 2: The Softmax of Score

这一步很简单(如Figure 2)，就是对1.中的每个 $s_i$ 做一次softmax归一，公式就是：
$\alpha_i=\mathrm{softmax}\left(s(q_i,K)\right)\in\mathbb R^{1\times n}$
总的公式就是：
$\alpha=\mathrm{softmax}\left(s(Q,K)\right)\in\mathbb R^{t\times n}$
在邱锡鹏《神经网络与深度学习》中将 $\alpha_i$ 称为注意力分布向量，那么 $\alpha$ 不妨就称为注意力分布矩阵。
加权求和：使用注意力分布矩阵对值向量(Value)进行加权平均，得到最终的输出。

Figure 3:The Key-Value Pair Mode

Note：下面没有特别说明的话， $\alpha_i$ 向量等于Figure 3中的 $[\alpha_1,\alpha_2,\alpha_3,...,\alpha_n]$ ，图中的 $\alpha$ 是标量

如Figure 3，每一个 $q_i\in\mathbb{R}^{1\times d_k}$ 都会对应一个注意力分布向量 $\alpha_i\in\mathbb R^{1\times n}$ ， $\alpha_i$ 对应整个 $Value=[[v_1],[v_2],[v_3],...,[v_n]]\in\mathbb{R}^{n\times d_v}$ ，故：
$att_i=\alpha_iV\in\mathbb R^{1\times d_v}$
即为 $q_i$ 对应的attention结果；总公式用矩阵运算表示为：
$\text{Attention}(Q, K, V) = \mathrm{softmax}(s(Q,K)V=\mathrm{softmax}(QK^T)V\in\mathbb R^{t\times d_v}$

[!IMPORTANT]

小结(如Figure 4)：我们以端到端的思维来看整个Attention机制的话，模型的输入是 $Query\in\mathbb R^{t\times d_k}$ 、 $Key\in\mathbb R^{n\times d_k}$ 、 $Value\in\mathbb R^{n\times d_v}$ ，输出是 $Att\in\mathbb R^{t\times d_v}$ 。

Figure 4:Attention Layer

1.2 缩放点积注意力机制(Scaled Dot-Product Attention)

《Attention is All You Need》：We call our particular attention “Scaled Dot-Product Attention”

Figure 5: Scaled Dot-Product Attention

在Transformer中就使用的是Scaled Dot-Product Attention(图Figure 5)，其实名字取得很唬人，实际上和我们上面讲的Attention的差别就是一个缩放而已。具体的表达式如下：
$\begin{equation}\text{Attention}(Q,K,V)=\text{softmax}(\frac{QK^T}{\sqrt{d_k}})V\end{equation}\in\mathbb R^{t\times d_v}$
Scaled Dot-Product Attention和我们上面提到的Dot-Product Attention只多乘了 $\frac{1}{\sqrt{d_k}}$ ，其它的部分完全相同，这里就不再重复解释了。

[!TIP]

这里其实一般会有一个疑问：既然其它过程完全都一样， $\sqrt{d_k}$ 不就是一个固定的数吗？那为什么要除以 $\sqrt{d_k}$ 呢？

这个在《Attention is All You Need》中给出的解释是：We suspect that for large values of $d_k$ , the dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients. To counteract this effect, we scale the dot products by $\frac{1}{\sqrt{d_k}}$ .

翻译：我们认为，对于较大的 $d_k$ 值，点积在数量级上的幅度会越来越大，从而将 softmax 函数推向梯度极小的区域。为了消除这种影响，我们用 $\frac{1}{\sqrt{d_k}}$ 来缩放点积。

通俗理解：########理解不了一点，之后再写############

1.3 自注意力机制(Self-Attention)

之前我们都是直接假设已知了Query、Key、Value。那这一节就能知道它们的来源之一了

为了提高模型能力，Self-Attention经常采用查询-键-值(Query-Key-Value，QKV)模式(如Figure 3)，其计算过程如Figure 6所示，其中红色字母表示矩阵的维度。

Figure 6: The Calculation Process of Self-Attention

其实看着Figure 6就可以明显的看出，Self-Attention只是比之前讲的Scaled Dot-Product Attention多了一层线性转换：通过Input X去映射Query、Key、Value。我们具体来看一下：

对于每个输入 $x_i\in\mathbb R^{1\times d_x}$ ，我们首先将其线性映射到三个不同的空间，得到查询向量 $q_i\in\mathbb R^{1\times d_k}$ 、键向量 $k_i\in\mathbb R^{1\times d_k}$ 和值向量 $v_i\in\mathbb R^{1\times d_v}$ 。按照Figure 6中X由 $n$ 个 $x_i$ 组成，所以对于整个序列 $X$ ，最终映射出来的 $Q 、 K 、 V$ 的长度均为 $n$ 。

对于整个输入序列 $X\in\mathbb R^{n\times d_x}$ ，线性映射过程可以简写为：
$\boldsymbol{Q}=\boldsymbol{X}\boldsymbol{W}_q\in\mathbb{R}^{n\times d_k} \\\boldsymbol{K}=\boldsymbol{X}\boldsymbol{W}_k\in\mathbb{R}^{n\times d_k} \\\boldsymbol{V}=\boldsymbol{X}\boldsymbol{W}_v\in\mathbb{R}^{n\times d_v}$
其中 $W_q\in\mathbb R^{d_x\times d_k}$ 、 $W_k\in\mathbb R^{d_x\times d_k}$ 、 $W_v\in\mathbb R^{d_x\times d_v}$ 。

而我们由Figure 4可以知道，已知 $Q 、 K 、 V$ 便可通过Attention Layer得到输出。所以Self-Attention就像是Linear Layer + Attention Layer的组合。

[!IMPORTANT]

小结(如Figure 7)：我们以非端到端的思维来看整个Self-Attention机制的话，模型的输入是 $X\in\mathbb R^{n\times d_x}$ ，会通过线性层映射为 $Query\in\mathbb R^{n\times d_k}$ 、 $Key\in\mathbb R^{n\times d_k}$ 、 $Value\in\mathbb R^{n\times d_v}$ ，输出是 $Att\in\mathbb R^{n\times d_v}$ 。值得注意的是：由于Q-K-V都是由X来的，所以Q-K-V-Att的长度都和X一样，不变的是 $d_{Att}=d_v$ 。

Figure 7: Self-Attention Layer

1.4 多头注意力机制(Multi-Head Attention)

单一的注意力机制在计算注意力权重时，只能关注输入序列中的一个特定模式或关系。多头注意力机制通过并行计算多个注意力头，每个注意力头可以在不同的子空间中独立地学习和捕捉不同的语义信息。多头注意力机制允许模型在多个子空间中进行并行计算，使得模型可以同时学习多个不同的特征表示。这种并行处理大大增加了模型的学习能力和参数空间，使模型能够更好地拟合复杂的数据分布。

（图片来源：架构师带你玩转AI）： Multi-Head Attention GIF

与使用Key、Value和Query来执行Single-Head Attention相比，已被证明将Key、Value和Query进行 $h$ 次线性映射，并将不同的线性映射分别投影到 $d_k$、$d_k$ 和 $d_v$ 维度上(如Figure 8)，是非常有益的。

一句话来描述Multi-Head Attention的话：将查询、键和值分别线性变换成多个子空间中的查询、键和值，计算每个子空间中的注意力，然后将所有头的结果拼接起来，再通过一个线性变换就可以得到输出(如Figure 8)

Figure 8: Multi-Head Attention

假设一共采用 $h$ 个 head 的Attention，我们知道Attention的输入是一组Query-Key-Value，所以 $h$ 个 head 的Attention就是有 $h$ 组Query-Key-Value。那么如何在初始只有一组的情况下变为 $h$ 组呢？采用的就是执行 $h$ 次的Linear Layer：
$Q_i=QW_i^Q\in\mathbb R^{t\times d_k} \\K_i=KW_i^K\in\mathbb R^{n\times d_k} \\V_i=VW_i^V\in\mathbb R^{n\times d_v}$
其中， $i = 1, 2, 3..., h$ ；在每个 $\text{head}_i$ 中都存在一组 $W_i^Q\in\mathbb{R}^{d_{\mathrm{model}}\times d_k}$ ， $W_i^K\in\mathbb{R}^{d_{\mathrm{model}}\times d_k}$ ， $W_i^V\in\mathbb{R}^{d_{\mathrm{model}}\times d_v}$ ，那么 $h$ 个 head 就有8组权重项，这也说明了在Multi-Head Attention的Linear Layer使用的并不是共享权重参数。

[!CAUTION]

这里需要解释一下在 $W_i^Q、W_i^K、W_i^V$ 维度中使用的 $d_{model}$ ，这里的 $d_{model}$ 是值Q-K-V初始的维度。因为线性映射你可以是映射为同维、高维or低维，都是可以的，所以用 $d_{model}$ 表示初始的Q-K-V维度。当然Q-K的映射结果维度都设置为相同的 $d_k$ 也是因为需要做点积运算。

接着使用Scaled Dot-Product Attention去学习每组Query-Key-Value对就可以得到对应的输出头 $\text{head}_i$ ：
$\text{where head}_\mathrm{i} =\text{Attention}(Q_i,K_i,V_i)=\text{Attention}(QW_i^Q,KW_i^K,VW_i^V)$
其中 $\text{head}_i\in\mathbb R^{t\times d_v}$ 。

之后的Concat Layer和Linear Layer就比较简单了，就是直接将输出的 $h$ 个 $\text{head}_i$ 做连接然后映射为 $d_{MulAtt}$ 维：
$\mathrm{MultiHead}(Q,K,V)=\mathrm{Concat}(\mathrm{head}_1,...,\mathrm{head}_\mathrm{h})W^O\in\mathbb R^{t\times d_{MulAtt}}$
我们知道每个 $\text{head}_i\in\mathbb R^{t\times d_v}$ ，所以 $\mathrm{Concat}(\mathrm{head}_1,...,\mathrm{head}_\mathrm{h})\in\mathbb R^{t\times hd_v}$ 。所以 $W^{O}\in\mathbb R^{hd_v\times d_{MulAtt}}$ 。

[!IMPORTANT]

小结(如Figure 9)：从端到端的角度看Multi-Head Attention可以知道，Multi-Head Attention的输入和Attention一样都是一组 $Query\in\mathbb R^{t\times d_{modelQ}}$ 、 $Key\in\mathbb R^{n\times d_{modelK}}$ 、 $Value\in\mathbb R^{n\times d_{modelV}}$ ，这里的 $d_{model}$ 可以相同也可以不同。输出是 $MultiHead\in\mathbb R^{t\times d_{MulAtt}}$

Figure 9: Multi-Head Attention Layer

1.5 多头自注意力机制(Multi-Head Self-Attention)

在了解过了Multi-Head Attention再来看Multi-Head Self-Attention就简单很多了。Multi-Head Self-Attention同样也只比Multi-Head Attention多了一层从 X 提取信息的Linear Layer。

个人觉得可以简单理解为：Multi-Head Self-Attention = Linear Layer + Multi-Head Attention

Figure 10: Multi-Head Self-Attention

由Figure 10可以很明显看出来，Multi-Head Self-Attention的输入 $X\in\mathbb R^{n\times d_x}$ 会经过Linear Layer映射得到Q-K-V，和Self-Attention的线性层一样。具体来说，对于整个输入序列 $X\in\mathbb R^{n\times d_x}$ ，线性映射过程可以简写为： $$ \boldsymbol{Q}=\boldsymbol{X}\boldsymbol{W}_q\in\mathbb{R}^{n\times d_{modelQ}} \\\boldsymbol{K}=\boldsymbol{X}\boldsymbol{W}_k\in\mathbb{R}^{n\times d_{modelK}} \\\boldsymbol{V}=\boldsymbol{X}\boldsymbol{W}_v\in\mathbb{R}^{n\times d_{modelV}} $$ 其中$W_q\in\mathbb R^{d_x\times d_{modelQ}}$、$W_k\in\mathbb R^{d_x\times d_{modelK}}$、$W_v\in\mathbb R^{d_x\times d_{modelV}}$。

打分函数使用 $K^\intercal$ 的话，需要保证 $d_{modelQ}=d_{modelK}$

在变换得到Q-K-V之后的流程就和Multi-Head Attention一样了，不再过多叙述了。

[!IMPORTANT]

小结(如Figure 11)：从非端到端的思维来看整个Multi-Head Self-Attention的话，模型的输入是 $X\in\mathbb R^{n\times d_x}$ ，会通过线性层映射为 $Query\in\mathbb R^{n\times d_{modelQ}}$ 、 $Key\in\mathbb R^{n\times d_{modelK}}$ 、 $Value\in\mathbb R^{n\times d_{modelV}}$ ，输出是 $MultiHead\in\mathbb R^{n\times d_{MulAtt}}$ 。

!!!我们在这里写的输出维度是 $MultiHead\in\mathbb R^{n\times d_{MulAtt}}$ ，在Self-Attention中的输出维度是 $Att\in\mathbb R^{n\times d_v}$ ，这里的长度 $n$ 都和 X 匹配，而通常也会让 $\boldsymbol{d_{MulAtt}=d_v}$ 来方便计算和模型交叉使用。

Figure 11: Multi-Head Self-Attention Layer

2 总结(Summary)

Figure 12: Attention Summary

顾飞白

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
3 Self+Multi-Head+Multi-Head-Self+Attention机制

【小白】关于Attention比较通俗的来解释，详细对维度做了标注，包括：注意力机制和多头注意力机制。这也是Transformer架构的基础前篇
复制链接

扫一扫