:stage i中的patch大小;【4,2,2,2】
:stage i的输出通道数;[64, 128, 320, 512]
:stage i中Encoder层数;[3, 4, 6, 3]
:stage i中SRA的缩减率;[8, 4, 2, 1]
:stage i中SRA的head个数;[1, 2, 5, 8]
:stage i中前馈层的扩张率;#[8, 8, 4, 4]
每次经过transformer后的图像都会缩小,每一维缩小的倍数是patchsize,第一层的图像尺寸就是原始尺寸,之后的尺寸为图中的尺寸
MLP中各层的神经元个数:第一层就是embed_dims=[64, 128, 256, 512],第二层(隐藏层)是embed_dims=[64, 128, 256, 512]*mlp_ratios=[8, 8, 4, 4],第三层和第一层一样。
MHA中输入有三个参数x,H,W,这是对2D图像来说的,3D图像要加一个D(深度)
每一个head的维度dhead是Ci/Ni,公式3是对k或v降低空间维度的操作,也就是减少计算量。