文章目录
一、Swin Transformer 网络架构
首先输入图像:224*224*3(L*W*C)
1.Patch Partition + Linear Embedding
Patch Partition 是将图像打成patch,然后再拉平。
patch size为4,即分成4*4大小的块,图像长和宽变为H/4,通道数变为48(4*4*3)。
Linear Embedding即使用一个线性变换将图像变换到任意维度C,不同的模型的C有所不同。
在网络结构中,只有第一个stage是 Linear Embedding,其余都是Patch Merging。在实现代码中 Patch Partition 与 Linear Embedding是在一起的。
2.Swin Transformer Block
每个stage都重复偶数次swin transformer Block。
注意:第一个和第二个swin transformer Block有所不同 如图。
两次swin transformer Block结构如下图所示: