A ConvNet for the 2020s

该论文介绍了一种仿照Swin-T思想优化的ResNet结构(ConvNext),通过调整网络结构和微设计细节,提高了性能,接近并超越了Swin-T。研究者在ImageNet1K和COCO数据集上进行了实验,并探讨了监督学习的改进方法。
摘要由CSDN通过智能技术生成

前言

 论文名称:A ConvNet for the 2020s
 发表时间:CVPR2022
 code链接: 代码
 作者及组织: Zhuang Liu,Hanzi Mao来自Meta和UC Berkeley。

 一句话总结:仿照swin-T思想,重新设计ResNet结构,使其逼近并超过swin-T。

1、RoadMap

 网络结构:r50和swin-tiny:二者Flops相近约4.5G;
 数据集:ImageNet1K

1.1.Macro Design

 这部分包含的实验比较散,我列了个表格:

序号改进策略具体改动性能GFlops
v0原始的r50-76.14.1
v1对齐训练方式-78.84.1
v2每个stage的block数目From (3, 4, 6, 3) To (3, 3, 9, 3)79.44.5
v3stem层k=7,s=2的卷积 变成 k=4,s=4的卷积)79.54.4
v4卷积核类型3*3 conv 替换成 3*3 DW conv76.12.4
v5stem的输出通道数64变成9680.55.3
v6Block内部堆叠方式,下图Fig3.©3*3用更少通道,1*1用更多通道79.94.1
v7DW conv的卷积核尺寸3*3改成7*780.64.2

在这里插入图片描述

1.2.Micro Design

 这部分主要是从细节方面对齐swin-t.

序号改进策略具体改动性能GFlops
v8更少激活函数用GeLU替换ReLU81.34.2
v9更少norm层用LN替换BN81.54.2
v10下采样层替换成k=2,s=2的卷积核并增加些LN稳定训练82.04.5

 经过上述设计后,最终的ConvNext模块为:
在这里插入图片描述

1.3.小结

 在看下那张经典图就比较清晰了:
在这里插入图片描述

2、实验

 最终一个模型结构为:
在这里插入图片描述
在这里插入图片描述

 在ImageNet1k上实验:
在这里插入图片描述

 在coco上实验:
在这里插入图片描述

思考

 基于有监督训练,convnextv2引入了mim的监督方式。

参考

https://zhuanlan.zhihu.com/p/458016349

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值