区分标量注意力和向量注意力

最新推荐文章于 2024-07-25 23:06:58 发布

多学学多写写

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量597

点赞数 14

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_47129891/article/details/140273555

版权

标量注意力和向量注意力是神经网络中的两种不同的注意力机制，广泛应用于自然语言处理（NLP）和计算机视觉等领域。这两种机制的主要区别在于它们如何计算和应用注意力权重。

一、标量注意力（Scalar Attention）

1、定义

标量注意力是一种传统的注意力机制，其中每个注意力权重是一个标量值。它通过计算查询（query）和键（key）之间的相似性来生成注意力权重，这些权重然后应用于值（value）以生成加权和。

2、步骤

1）计算注意力权重：对于每个查询向量 \(q_i\) 和键向量 \(k_j\)，计算相似性得分 \(e_{ij}\)，通常使用点积（dot product）或其他相似性度量方法。
\[
e_{ij} = q_i \cdot k_j
\]
2）归一化：使用softmax函数将相似性得分转化为概率分布，即注意力权重 \(a_{ij}\)。
\[
a_{ij} = \frac{\exp(e_{ij})}{\sum_{j'} \exp(e_{ij'})}
\]
3）加权求和：使用注意力权重 \(a_{ij}\) 对值向量 \(v_j\) 加权求和，得到最终的输出向量 \(z_i\)。
\[
z_i = \sum_j a_{ij} v_j
\]

二、向量注意力（Vector Attention）

1、定义

向量注意力是一种更复杂的注意力机制，其中每个注意力权重是一个向量，而不是一个标量。它允许在更细粒度的水平上对不同的维度进行加权，从而捕捉到更多的信息。

2、步骤：

1）计算向量权重：对于每个查询向量 \(q_i\) 和键向量 \(k_j\)，计算一个向量权重 \(w_{ij}\)，可以使用多个点积或其他复杂的度量方法。
\[
w_{ij} = f(q_i, k_j) \quad \text{(函数f计算出一个向量)}
\]
2）归一化：使用softmax函数对每个维度独立进行归一化，将向量权重 \(w_{ij}\) 转化为归一化的向量权重 \(a_{ij}\)。
\[
a_{ij}[d] = \frac{\exp(w_{ij}[d])}{\sum_{j'} \exp(w_{ij'}[d])} \quad \text{(对每个维度d独立归一化)}
\]
3）加权求和：使用向量权重 \(a_{ij}\) 对值向量 \(v_j\) 的每个维度进行加权求和，得到最终的输出向量 \(z_i\)。
\[
z_i[d] = \sum_j a_{ij}[d] v_j[d]
\]

三、区别

1.权重形式

标量注意力：每个权重是一个标量，所有维度共享同一个权重。
向量注意力：每个权重是一个向量，不同维度有各自的权重。

2. 复杂度

标量注意力：计算和实现相对简单，常用于基本的注意力模型。
向量注意力：计算和实现更复杂，适用于需要更细粒度控制的应用场景。

3. 信息捕捉能力

标量注意力：可能丢失一些细粒度的信息，因为所有维度共享同一个权重。
向量注意力：可以捕捉到更多的细粒度信息，因为不同维度有独立的权重。

4.应用场景

标量注意力：常用于大多数标准的注意力模型，如Transformer中的自注意力机制。
向量注意力：用于需要更高精度和细粒度控制的高级模型和应用。

通过理解这两种注意力机制的区别和应用场景，可以更好地选择适合特定任务的注意力模型。

多学学多写写

关注

14
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
区分标量注意力和向量注意力

标量注意力是一种传统的注意力机制，其中每个注意力权重是一个标量值。它通过计算查询（query）和键（key）之间的相似性来生成注意力权重，这些权重然后应用于值（value）以生成加权和。向量注意力是一种更复杂的注意力机制，其中每个注意力权重是一个向量，而不是一个标量。它允许在更细粒度的水平上对不同的维度进行加权，从而捕捉到更多的信息。
复制链接

扫一扫