分享几个顶会文章
1、Vision Transformer ICLR 2021
原文:https://arxiv.org/abs/2010.11929
源码:https://github.com/google-research/vision_transformer
创新:自注意力机制;分块(patches)序列化
2、Swin transformer ICCV 2021
原文:https://arxiv.org/pdf/2103.14030.pdf
源码:https://github.com/microsoft/Swin-Transformer
创新:相较于ViT,采用移动窗口计算自注意力;设计位置编码
网络架构
滑动窗口
3、Swin transformer V2
原文:Swin Transformer V2: Scaling Up Capacity and Resolution
源码:https://github.com/microsoft/Swin-Transformer
创新:模型引入残差计算之后的规范化方法和余弦注意力机制;改进Swin transformer,允许模型不同窗口大小之间自由转移;自监督减少标注数据需求
4、Twins NeurIPS 2021
原文:Twins: Revisiting the Design of Spatial Attention in Vision Transformers
源码:https://github.com/Meituan-AutoML/Twins
5、BEiT
原文:https://arxiv.org/abs/2106.08254
源码:https://github.com/KeiTAGUCHI/BEiT
6、ConvNext CVPR 2022
原文:https://arxiv.org/abs/2201.03545
源码:https://github.com/facebookresearch/ConvNeXt
创新:改进了ResNet网络 堆叠block的比例;下采样模块卷积和池化尺寸、步长改进;通道数调整;MobileNetV2中的Inverted Bottleneck模块;更大的卷积核;减少激活函数的使用
7、MAE CVPR 2022
原文:https://arxiv.org/abs/2111.06377
源码:https://github.com/facebookresearch/mae
随机移除一些patch,消除冗余,构建一个不会轻易的被紧邻块推理解决的任务。训练中没有使用mask去除的块,因此可以预训练一个非常大的编码器。
8、PoolFormer CVPR 2022
原文:https://arxiv.org/abs/2111.11418
源码:https://github.com/sail-sg/poolformer
9、SegNeXt NeurIPS 2022)
原文:https://github.com/Visual-Attention-Network/SegNeXt/blob/main/resources/paper.pdf
源码:https://github.com/Visual-Attention-Network/SegNeXt
作者展示卷积注意力是一种比transformer中的自注意力机制更有效和高效的方式来编码上下文信息。设计一种多尺度卷积注意(MSCA)模块。