Attention Mechanism

孤舟独钓寒江雪

已于 2022-10-23 02:21:58 修改

阅读量390

点赞数

分类专栏： NLP 文章标签： bert 人工智能深度学习

于 2022-07-17 10:45:49 首次发布

本文链接：https://blog.csdn.net/weixin_55000908/article/details/125829304

版权

NLP 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

优质博文：注意力机制
 博文2

注意力机制：源自于人对于外部信息的处理能力。人在处理信息的时候，
会将注意力放在需要关注的信息上，对于其他无关的外部信息进行过滤。

注意力机制的引起方式：非自主提示 源自于物体本身，而自主提示 源自于一种主观倾向。

考虑非自主提示的话，只需要对所有物体的特征信息进行简单的全连接层，甚至是无参数的平均汇聚层或者是最大汇聚层，就可以提取处需要感兴趣的物体。
如果考虑自主提示的话，我们就需要设计一种通过查询（Query），键（Key）和值（Value）来实现注意力机制的方法。

Query：指的是自主提示，即主观意识的特征向量;
Key：指的是非自主提示，即物体的突出特征信息向量;
Value：则是代表物体本身的特征向量。

注意力机制：是通过Query与Key的注意力汇聚（指的是对Query和Key的相关性进行建模，实现池化筛选或者分配权重），实现对Value的注意力权重分配，生成最终的输出结果。

加性注意力：一般用来处理Query和Key的向量位数不一致的情况，公式如下： $a(q, k)=W_{v}^{T}tanh(W_{q}q+W_{k}k)$ 。假设 $q\in R^{q},k\in R^{k}$ ，则 $W_{q}\in R^{h\times q}, W_{k}\in R^{h\times k}, W_{v}\in R^{h\times v}$ 。通过两个全连接层 $W_{q}$ 和 $W_{k}$ ，可以将查询和键统一到一个向量维度，然后经过相加和激活函数tanh，即可得到查询和键的关系，在经过全连接层 $W_{v}^{T}$ 将向量位数统一到和Value的向量维度一致。

点积注意力：Query和Key的向量维数必须一致，其公式如下： $\frac{q^{T}.k}{\sqrt{d_{k}}}$ 。其中， $q\in R^{n\times d}, k\in R^{m\times d}$ ，然后经过softmax函数得到Value权重的概率分布，公式如下： $softmax(\frac{Q^{T}\cdot K}{\sqrt{d}})$ 。

多头注意力：单一注意力汇聚，只能建立一种Query和Key的依赖关系。将QKV经过多组全连接层来获取对应的特征向量，然后分别对这些特征向量进行注意力汇聚，最后将所有注意力汇聚运算结果进行拼接，再经过一个全连接层，映射处最后的输出。

自注意力：注意力机制的Query和Key是不同来源的，在Encoder-Decoder模型中，Key是Encoder中的元素，Query是Decoder中的元素（如在中译英模型中，Query是中文单词的特征，而Key是英文单词的特征）。自注意力机制的Query和Key都是来自同一组的元素，如都是来自于Encoder中的元素，即Query和Key都是中文特征，相互之间做注意力汇聚。

向量的点积：可以表示两个向量的相似度similarity。
在这里插入图片描述

自注意力机制：就是通过权重矩阵来自发地找到词与词之间的关系。Q、K、V（Q=K）

X[2, 4]  # [seq_len, d_embedding]
Q[2, 3]  # [seq_len, d_q]
K[2, 3]  # [seq_len, d_q] 
V[2, 3] # [seq_len, d_v]
Q*K^T [2, 2] # [seq_len, seq_len]
softmax(Q*K^T)*V  # [seq_len, d_v]

其中，查询矩阵Q
Q, K , V为三个权重矩阵，随机初始化以后，在训练数据的梯度下降过程中优化。将Transformer机制的训练目标记为M。键矩阵K和值矩阵V可以理解成训练样本中可能存在的多种不同pattern构成的template K，接近训练目标M的程度 V。也就是已知的一组template与目标M之间的对应关系（K, V）。查询矩阵Q 代表从训练样本提取出的pattern，考察Q与K的相似程度，与K 越相似的Q，与目标M 的接近程度也越与K对应的接近。