【论文解读】DaViT:Dual Attention Vision Transformers
DaViT是香港大学和微软等研究机构在近期新发布的一个Vision Transformer模型,这个工作的创新之处是提出了一种双注意力机制(dual attention)来高效地实现全局建模,其中最大的模型DaViT-Giant在ImageNet1K数据集上达到了90.4%的Top1 Accuracy,超过了之前的SwinV2(90.17%)。这里的双attention是从两个正交的角度来进行self-attention:一是对spatial tokens进行self-attention,此时空间维
转载
2022-04-20 15:42:34 ·
4806 阅读 ·
1 评论