pvt代码的理解——为什么通过transformer后图像尺寸变了?

  • P_i:stage i中的patch大小;【4,2,2,2】
  • C_i:stage i的输出通道数;[64, 128, 320, 512]
  • L_i:stage i中Encoder层数;[3, 4, 6, 3]
  • R_i:stage i中SRA的缩减率;[8, 4, 2, 1]
  • N_i:stage i中SRA的head个数;[1, 2, 5, 8]
  • E_i:stage i中前馈层的扩张率;#[8, 8, 4, 4]

每次经过transformer后的图像都会缩小,每一维缩小的倍数是patchsize,第一层的图像尺寸就是原始尺寸,之后的尺寸为图中的尺寸

MLP中各层的神经元个数:第一层就是embed_dims=[64, 128, 256, 512],第二层(隐藏层)是embed_dims=[64, 128, 256, 512]*mlp_ratios=[8, 8, 4, 4],第三层和第一层一样。

MHA中输入有三个参数x,H,W,这是对2D图像来说的,3D图像要加一个D(深度)

每一个head的维度dhead是Ci/Ni,公式3是对k或v降低空间维度的操作,也就是减少计算量。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值