【LLM】5：Self-Attention中注意力分数的含义

月涌大江流丶

已于 2025-02-14 12:01:13 修改

阅读量2k

点赞数 25

CC 4.0 BY-SA版权

分类专栏： LLM 文章标签： transformer AIGC 人工智能大语言模型

于 2024-10-12 23:35:24 首次发布

本文链接：https://blog.csdn.net/zzZ_CMing/article/details/142891155

LLM 专栏收录该内容

13 篇文章

订阅专栏

自注意力机制（Self-Attention）是Transformer模型的核心组件，其中Q、K、V矩阵分别代表查询（Query）、键（Key）、值（Value）。它们的作用和含义可以通过信息匹配过程来理解。在自注意力机制中，输入的序列数据会经过线性变换，生成这三个矩阵，然后用于计算注意力权重和最终输出。

1. Q（Query）— 查询矩阵

含义：查询矩阵代表我们当前正在处理的一个输入位置上的信息，目的是从整个序列中寻找与该位置最相关的信息。换句话说，Q 矩阵中的每个向量（对应于序列中的每个单词或元素）用于“提问”：我应该关注哪些位置的信息？
作用：Q 矩阵的每一行对应序列中一个输入向量（通常是词向量或某一层的隐状态），这些向量在后续计算中会与 K（键）矩阵进行相似度计算，以确定应该关注序列中的哪些部分。

2. K（Key）— 键矩阵

含义：键矩阵用于提供序列中的信息，以供查询矩阵进行匹配。可以理解为K矩阵中存储了“回答”的潜在信息，代表整个序列中每个位置上携带的特征。
作用：K矩阵的每个向量对应序列中的一个元素，当 Q（查询）矩阵与 K（键）矩阵进行点积计算时，会得出它们的相似度评分，这个评分表明查询在当前时刻应该关注该元素的程度。