Self-attention入门级详解

最新推荐文章于 2023-12-11 00:44:14 发布

GDUT 小胖鱼

最新推荐文章于 2023-12-11 00:44:14 发布

阅读量325

点赞数 2

文章标签：深度学习神经网络自然语言处理

本文链接：https://blog.csdn.net/weixin_43920520/article/details/128343196

版权

深度学习系列

第一篇局部最优点+鞍点+学习率的调节
第二篇并行计算深度学习机器学习
第三篇长短期记忆网络（LSTM）是什么怎么工作的呢？
第四篇 Dropout解析代码实现
第五篇 Auto-encoder 自编码器
第六篇 ResNet,Xception,DenseNet优缺点对比
第六篇 STM网络（Spatial Transformer Network）常见疑问解答
第七篇 Self-attention入门级详解

文章目录

深度学习系列
一、基本问题
- 1.Self-attention的输出
- Self-attention和RNN/LSTM的比较
二、Self-attention怎么运作的？
四、自注意力机制的作用
五、self-attention的进阶版本
- - 5.1 Multi-head self-attention多头注意力机制
  - 5.2 添加位置信息的注意力机制
总结

一、基本问题

1.Self-attention的输出

每一个向量输出有对应的标签。例如：语义标签
输入多个向量，但输出只有一个标签。例如：判断文章句子的正负面
输入多个向量，但是输出由模型去决定输出的大小。例如：语义翻译

Self-attention和RNN/LSTM的比较

对于单向的RNN而言，RNN当前节点获取的信息只是来自于前面节点的信息

但是，RNN是有双向的

对于双向的RNN，当前节点的信息来源于前后的信息和，但是最前面一个节点的信息传到当前节点需要一步步的传输，而对于self-attention来说，每个节点都能寻找与其他节点的关系，不需要一点点的传输才会获取前面节点的信息。而且self-attention能一次计算所有节点，速度更快。

二、Self-attention怎么运作的？

1.基本总览

self-attention的基本总览如下，可以把self-attention看成一层，如图，如果有四个变量输入，就会有四个对应的变量输出，但是新输出的变量，每一个都是整合了所有输入变量特征的。即它不是一个单一的变量，而且总览全局后形成的变量。
self-attention基本图

2. 那Self-attention这一层具体是怎么工作的呢？

首先，我们以第一个向量a¹经过Self-attention变成b¹为例子讲解，a¹首先要找到它和其他向量的相关性。如下图所示。
找关联那相关性怎么找呢？
其实就是计算一个系数α，具体的计算方式有多种。
Dot-product就是其中的一种，也是本文讲解的所使用的。它的计算方式是，对两个要计算相关性的向量先乘上一个矩阵，然后对两个矩阵进行乘积（相乘再相加），得到一个系数α。

但是也有例如Additive等其他计算方式。

这里我们使用Dot-product去计算α
这里还是以a¹ 为例，它乘上一个矩阵W^q，其他的向量乘上矩阵W^k，然后去计算出α，这个α也叫做attention score。
在这里插入图片描述
这里十分重要的一个点，是 a¹ 自己也要乘上W^k，也就是 a¹ 找自己和自己的关系，第二个 a¹ 要乘 W^k 去计算，第一个还是乘 W^q

最终的图示如下！
Dot-product最后图示接下来是对计算出来的α进行Soft-max处理，如下图。得到了α^’
在这里插入图片描述

但是我们最后是要得到一个b¹,也就是总览全局得到的系数
所以接下来我们要做的是，把着写参数和向量变成一个新的向量。Self-attention是这样子计算的。首先，每个输入向量a乘上一个矩阵W^v变成一个新的向量V，再去和每一个α系数相乘，再相加，才变成b¹。相关性越大，α越大，得到的b¹与这个向量的关系就越大。

得到最终的B1

三. 从矩阵角度看这个过程

3.1 a向量的处理过程

我们把α¹,α²,v¹,v²这些合并在一起组合成矩阵，就得到了Q,K,V的矩阵（α¹,α²,v¹,v²都是向量），如下图所示。

矩阵生成

3.2 得到系数α的过程

得到系数的矩阵过程
每个q都得乘上k，那我们可以把k提取出来，变成矩阵。

3.3 系数α整体过程

系数总体求解过程
就K不断乘q这些向量==（k是向量a乘W_k得到的，q是向量a乘W_q得到的）==

3.4最后的b数值

b数值矩阵
最后的b就是α乘V向量，把V向量合在一起就是V矩阵。

第三节只是通过矩阵这个角度理解第二节的东西
其中需要模型学习的就是W^q，W^k,W^v这三个生成q，k，w的矩阵参数。

四、自注意力机制的作用

最明显的一个作用，就是能得到不同节点上下文的信息。所以它常用于序列数据中。

随着发展，自注意力机制也可用去其他领域，如图像，将图像分割成向量，如5*10的图像，分割成5个10维向量。其目的就是找图像不同区域的一个特征关联。

五、self-attention的进阶版本

5.1 Multi-head self-attention多头注意力机制

多头注意力机制还是在注意力机制的框架下进行操作的，不同点是在每个节点，最后输出的b有多个。例如在二头的注意力机制中，每个节点最终需要得到的b有两个，所以，求得b所有东西都要有两份，如下图，每个节点q再乘上两个矩阵，变成两个q，每个k和v也如此。它们得到b所做的计算和注意力机制是一样的，只是数量上不一样。

多头注意力机制最后得到的两个b，可以再经过一个矩阵合成一个b
b的合并
多头的作用主要是能够学习到不同空间中的不同特征