q @ k运算及att = (q @ k.transpose(-2, -1))含义

本文详细解释了Transformer算法中的关键操作,如qkv分解、a@b(张量点积)以及transpose(转置)在计算过程中的应用,以torch.Tensor为例展示了矩阵乘法的默认行为和转置对形状的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

以下代码经常在Transformer的算法中见到:

q, k, v = qkv[0], qkv[1], qkv[2] # query, key, value tensor
q = q * self.scale
attn = (q @ k.transpose(-2, -1))
 其中涉及到a @ b操作和transpose操作
a = torch.Tensor([[1,2],[3,4]])
print(a)

b = torch.Tensor([[0.5,2],[0.5,0.5]])
print(b)

print(a@b)

输出:
tensor([[1., 2.],
        [3., 4.]])
tensor([[0.5000, 2.0000],
        [0.5000, 0.5000]])
tensor([[1.5000, 3.0000],
        [3.5000, 8.0000]])
import torch
x=torch.randn(12,3,10,20)
y=torch.randn(20,30)
z=x@y
print(z.shape)

输出结果:
torch.Size([12, 3, 10, 30])

从以上结果可以发现,默认以最后两维进行矩阵乘法运算

transpose(-2, -1) 表示将 k 的最后两维进行转置(交换位置)

import torch
q = torch.randn(125,2,343,16)
k = torch.randn(125,2,343,16)

attn = q @ k.transpose(-2, -1)

print(attn.shape)

输出:
torch.Size([125, 2, 343, 343])

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值