神经网络-自注意力机制-CSDN博客

本文链接：https://blog.csdn.net/weixin_44907479/article/details/147569516

下列图片来自李宏毅老师的transformer课程ppt

引入：我们想要计算出一个序列中a1和a2、a3、a4的相关性，得到一个向量b1

下述讨论的注意力机制是Scaled Dot-Product Attention（缩放点积注意力），也是Attention Is All

You Need论文中介绍的注意力机制。

1、数学表示

自注意力机制的数学表示如下：

注释：

1、Query、Key和Value矩阵

Query矩阵（Q）：表示当前的关注点或信息需求，用于与Key矩阵进行匹配。
Key矩阵（K）：包含输入序列中各个位置的标识信息，用于被Query矩阵查询匹配。
Value矩阵（V）：存储了与Key矩阵相对应的实际值或信息内容，当Query与某个Key匹配时，相应的Value将被用来计算输出。

2、点积计算

通过计算Query矩阵和Key矩阵之间的点积（即对应元素相乘后求和），来衡量Query与每个Key之间的相似度或匹配程度。

3、缩放因子

由于点积操作的结果可能非常大，尤其是在输入维度较高的情况下，这可能导致softmax函数在计算注意力权重时进入饱和区。为了避免这个问题，缩放点积注意力引入了一个缩放因子，通常是输入维度的平方根。点积结果除以这个缩放因子，可以使得softmax函数的输入保持在一个合理的范围内。

4、Softmax函数

将缩放后的点积结果输入到softmax函数中，计算每个Key相对于Query的注意力权重。Softmax函数将原始得分转换为概率分布，使得所有Key的注意力权重之和为1。

5、加权求和

使用计算出的注意力权重对Value矩阵进行加权求和，得到最终的输出。这个过程根据注意力权重的大小，将更多的关注放在与Query更匹配的Value上。

其中的Q，K，V矩阵由n个q,k,v向量组成，n为输入序列向量的个数。

q向量 = a向量*矩阵wq

k向量 = a向量*矩阵wk

v向量 = a向量*矩阵wv

1.1、理解q,k,v

注意力机制中有两个输入：

查询序列q：正在处理的序列

上下文序列k,v：被关注的序列

1、通过q向量和k向量的点积可以得到注意力分数

2、再经过一些处理和softmax把注意力分数转化成注意力权重

3、最后注意力权重和v向量相乘=注意力向量

这个操作常常被比作字典查找，但是，是一个模糊的，可微分的，向量化的字典查找。

举个例子，假设有一个普通的Python字典，有3个键和3个值，被传递了一个单独的查询：

d = {'color': 'blue', 'age': 22, 'type': 'pickup'}

result = d['color']

查询（q）是你要匹配的内容，键（k）表示键，而值（v）则是键对应的信息；在普通的字典查找中，字典会找到匹配的键，并返回其对应的值；如果查询找不到完全匹配的键，也许你会期望返回最接近的值，比如在上面的例子中，如果你查找“d["species"]”，你可能会期望返回“pickup”，因为它是最接近查询的匹配。

一个注意力层就像是这样的一个模糊查找，但它不仅仅是寻找最佳键；它结合了查询（q）和键（k）向量，来确定它们匹配的程度，也就是“注意力分数”。然后，根据“注意力分数”对所有值进行加权平均；在注意力层中，每个位置的查询（q）序列都提供一个查询向量，而上下文序列则充当了一个字典，每个位置提供一个键和值向量。

补充知识：softmax层

Softmax函数是一种常用的激活函数，通常用于多分类任务的最后一层。它的作用是将一个实数向量转换成概率分布，所有输出的值介于 0 和 1 之间，并且所有输出值的总和为 1。

Softmax的公式如下：