2021-03-27

 self.qkv = nn.Linear(dim, dim*3, bias)
 B, N, C = x.shape
 qkv = self.qkv(x).reshape(B, N, 3, head, head_channel).permutate(2, 0, 3, 1, 4)
 # 看起来比einops简单一点
 q, k, v = qkv[0], qkv[1], qkv[2]
 attn = (q@k.transpose(-2,-1))*scale
 attn = attn.softmax(dim=-1)
 attn = self.dropout(attn)
 
  1. python

判断变量是否为0, 是0则为False,非0判断为True,

and中含0,返回0; 均为非0时,返回后一个值,

2 and 0 # 返回0
2 and 1 # 返回1
1 and 2 # 返回2

or中, 至少有一个非0时,返回第一个非0,

2 or 0 # 返回2
2 or 1 # 返回2
0 or 1 # 返回1
————————————————
版权声明:本文为CSDN博主「祢唿」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40041218/article/details/80868521

torch.flatten(input, start_dim=0, end_dim=-1)
将一个维度展开。例如:torch.randn(3,2,2)

t = torch.randn(3,2,2)
torch.flatten(a)
# a.size() : [12,]
torch.flatten(a,start_dim=1)
# a.size() : [3, 4]
torch.flatten(a, end_dim=1)
# a.size() : [6, 2]
  1. 如何写多个transformer层叠加:
# 方法1(更简单)
self.blocks = nn.ModuleList([
	Block(
		**kwargs
	)
	for i in range(depth)])

# 方法2(两个modulelist)
self.block = nn.ModuleList([])
for _ in range(depth):
	self.block.append(nn.ModuleList([
		**kwargs
	]))
  1. nvidia-smi下面就有占用显存的pid,直接Kill -9即可。
  2. 需要整理一套endtoend的模板
  3. 关于nn.DataParallel()的一些坑https://zhuanlan.zhihu.com/p/102697821
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值