AI学习记录 - torch 的 view 函数画图解释

有帮助就给个小赞

看这里你需要了解多头自注意力,上一章节有介绍。

假设我们一次性训练两个句子,batch_size = 2.
i want a beer . // 5个token
i want a coke . // 5个token
我们的矩阵是下图的上面这个大长方块,经过view函数,切割成多个块,这是为了满足多头自注意力的计算方式。

input_Q 是下图的上面大的长方形矩阵, Q 就是被转换后的4维矩阵,下图的下面那个小型方块(三维空间画出四维物体,我是神…)
n_heads = 8
batch_size = 2
d_k = 64
Q = self.W_Q(input_Q).view(batch_size, -1, n_heads, d_k).transpose(1,2)

搭配图来看清晰很多
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值