self.qkv = nn.Linear(dim, dim*3, bias)
B, N, C = x.shape
qkv = self.qkv(x).reshape(B, N, 3, head, head_channel).permutate(2, 0, 3, 1, 4)
# 看起来比einops简单一点
q, k, v = qkv[0], qkv[1], qkv[2]
attn = (q@k.transpose(-2,-1))*scale
attn = attn.softmax(dim=-1)
attn = self.dropout(attn)
- python
判断变量是否为0, 是0则为False,非0判断为True,
and中含0,返回0; 均为非0时,返回后一个值,
2 and 0 # 返回0
2 and 1 # 返回1
1 and 2 # 返回2
or中, 至少有一个非0时,返回第一个非0,
2 or 0 # 返回2
2 or 1 # 返回2
0 or 1 # 返回1
————————————————
版权声明:本文为CSDN博主「祢唿」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40041218/article/details/80868521
torch.flatten(input, start_dim=0, end_dim=-1)
将一个维度展开。例如:torch.randn(3,2,2)
t = torch.randn(3,2,2)
torch.flatten(a)
# a.size() : [12,]
torch.flatten(a,start_dim=1)
# a.size() : [3, 4]
torch.flatten(a, end_dim=1)
# a.size() : [6, 2]
- 如何写多个transformer层叠加:
# 方法1(更简单)
self.blocks = nn.ModuleList([
Block(
**kwargs
)
for i in range(depth)])
# 方法2(两个modulelist)
self.block = nn.ModuleList([])
for _ in range(depth):
self.block.append(nn.ModuleList([
**kwargs
]))
- nvidia-smi下面就有占用显存的pid,直接Kill -9即可。
- 需要整理一套endtoend的模板
- 关于nn.DataParallel()的一些坑https://zhuanlan.zhihu.com/p/102697821