q @ k运算及att = (q @ k.transpose(-2, -1))含义

最新推荐文章于 2024-08-12 14:54:26 发布

ym62033

最新推荐文章于 2024-08-12 14:54:26 发布

阅读量680

点赞数 4

文章标签： pytorch 人工智能 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ym62033/article/details/137549773

版权

本文详细解释了Transformer算法中的关键操作，如qkv分解、a@b（张量点积）以及transpose（转置）在计算过程中的应用，以torch.Tensor为例展示了矩阵乘法的默认行为和转置对形状的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

以下代码经常在Transformer的算法中见到：

q, k, v = qkv[0], qkv[1], qkv[2] # query, key, value tensor
q = q * self.scale
attn = (q @ k.transpose(-2, -1))

其中涉及到a @ b操作和transpose操作

a = torch.Tensor([[1,2],[3,4]])
print(a)

b = torch.Tensor([[0.5,2],[0.5,0.5]])
print(b)

print(a@b)

输出：
tensor([[1., 2.],
        [3., 4.]])
tensor([[0.5000, 2.0000],
        [0.5000, 0.5000]])
tensor([[1.5000, 3.0000],
        [3.5000, 8.0000]])

import torch
x=torch.randn(12,3,10,20)
y=torch.randn(20,30)
z=x@y
print(z.shape)

输出结果：
torch.Size([12, 3, 10, 30])

从以上结果可以发现，默认以最后两维进行矩阵乘法运算

transpose(-2, -1) 表示将 k 的最后两维进行转置(交换位置)

import torch
q = torch.randn(125,2,343,16)
k = torch.randn(125,2,343,16)

attn = q @ k.transpose(-2, -1)

print(attn.shape)

输出：
torch.Size([125, 2, 343, 343])

博客等级

码龄14年

52
原创

320
点赞

386
收藏

236
粉丝

关注

私信

热门文章

分类专栏

Android开发 3篇

最新评论

pytorch中的归一化函数
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
PyTorch中nn.ReLU函数说明
yang_linzhe: 感谢，就需要这种代码直接示例
Python slice() 使用方法及示例说明
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python slice() 使用方法及示例说明
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
nn.LayerNorm的参数说明
ym62033: 如果LayerNorm的第一个参数是一个整数：假设此时输入的数据维度是[3, 5]，则对3个长度为5的向量求均值方差，得到3个均值和3个方差，分别对这3行进行归一化两个整数：设此时输入的数据维度是[N, 3, 4]，则对着N个[3,4]做和上述一样的操作，即每次对12个数据，求均值方差，然后对这12个数据进行归一化，重复N次

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。