如何具体理解Self Attention中的Q、K、V以及计算过程

最新推荐文章于 2025-04-08 17:21:46 发布

xfysq_

最新推荐文章于 2025-04-08 17:21:46 发布

阅读量4k

点赞数 22

分类专栏： Python 深度学习文章标签：深度学习机器学习人工智能自然语言处理 pytorch nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xfysq_/article/details/137243237

版权

本文详细解释了SelfAttention机制中Q、K、V的作用，以及它们在BERT模型中的计算过程，包括线性变换、注意力权重的计算和Softmax的应用，强调了注意力机制的自注意力特性及其与位置无关的特点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何具体理解Self Attention中的Q、K、V以及计算过程

一、计算过程理解
二、整体代码

一、计算过程理解

1、我们直接用torch实现一个 $S e l f A tt e n t i o n$ ：

首先定义三个线性变换矩阵， $q u ery, k ey, v a l u e$ ：

class BertSelfAttention(nn.Module):
    self.query = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.key = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768
    self.value = nn.Linear(config.hidden_size, self.all_head_size) # 输入768， 输出768

注意，这里的 $q u ery, k ey, v a l u e$ 只是一种操作(线性变换)的名称，实际的 $Q / K / V$ 是这三个线性操作的输出，三个变换的输入都是 $768$ 维，输出都是 $768$ 维，也就是三个线性变换矩阵的维度都为 $(768, 768)$ 。

2、假设三种操作的输入都是同一个矩阵，这里暂且定为长度为 $6$ 的句子，每个 $t o k e n$ 的特征维度是 $768$ ，那么输入就是

最低0.47元/天解锁文章

博客等级

码龄6年

97
原创

439
点赞

696
收藏

361
粉丝

关注

私信

热门文章

分类专栏

AIGC 4篇
大模型应用 3篇
概率/统计 5篇
Python 33篇
GP 1篇
Flink 3篇
spark 10篇
大数据技术 1篇
MySQL 1篇
kafka 7篇
Hadoop 3篇
hbase 6篇
深度学习 27篇
机器学习 11篇
hive 4篇
前端（vue、JS） 2篇
Scala 2篇
Linux 12篇
Java 2篇
github 1篇

最新评论

python-pytorch 利用pytorch对堆叠自编码器进行训练和验证
怪味＆先森: 你好，今天我正好运行了这段代码，上述的原因是在将添加encoded_train_data的时候ae1.encoder的参数是处于更新状态的，在for循环前面加上with torch.no_grad()即可。
WPS如何接入DeepSeek（通过JS宏调用）
weixin_43601830: 经过大神的指导，测试成功了，3个按键3个功能，挺好用的，希望大神能带给我们更多的新AI功能。
WPS如何接入DeepSeek（通过JS宏调用）
xfysq_: 你有验证过你用的这套变量能否成功返回值吗，你可以先用个AI工具连一下试试，如果能连上一般是没啥问题的，连不上你再看看是啥问题
WPS如何接入DeepSeek（通过JS宏调用）
Demon0330: 请问大神，我使用的是硅基流动的API key，API URL使用的是硅基流动的官网网址，MODEL使用的deepseek-chat，提示扩写失败，这是为啥
WPS如何接入DeepSeek（通过JS宏调用）
xfysq_: 如果一次都没有跑出来过，那就是配置的原因，检查一下API_KEY对不对，网址和模型两个变量原样复制过去

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。