ConvNeXt V2:用MAE训练CNN

论文名称:ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
发表时间:CVPR2023
code链接:代码
作者及组织: Sanghyun Woo,Shoubhik Debnath来自KAIST和Meta AI。

前言

  ConvNextV2是借助MAE的思想来训练ConvnextV1。关于ConvnextV1可参考:
A ConvNet for the 2020s

1、Fully Convolutional Masked Autoencoder

 本文借助MAE的思想,设计了一套基于CNN的自监督学习网络结构。
在这里插入图片描述

 如上图所示,首先随机mask住2D图像的patch区域,为了防止Conv在训练过程中“看到“被遮挡区域的信息,于是Encoder部分采用了Sparse Conv(简单来说就是仅卷有像素值的区域);而Decoder则是一层Convnext Block;最终类似SIMMIM,仅用MSE Loss计算被遮挡部分的损失函数。
 这里值得注意一个点:在Pretraining Stage用SparseCNN,在Finetuning Stage又将SparseCNN转变成常规卷积。
 最终取得实验结果:发现还是比不上有监督训练。

在这里插入图片描述

2、Global Response Normalization(GRN)

 在上节中,发现FCMAE效果还是差点儿,于是作者可视化特征图的每个channel:发现有好多失活的,这跟MAE训练的ViT效果相反:不同channel均有激活且多样性丰富。
在这里插入图片描述

 为了增加channel的多样性,作者设计了GRU的归一化方式:

在这里插入图片描述

 简单说下上

### ConvNeXt V2 训练教程和指南 #### 准备环境 为了顺利运行ConvNeXt V2模型,需先设置好开发环境。这通常涉及安装Python以及必要的库文件。推荐使用Anaconda来管理虚拟环境,以便更好地控制依赖关系。 ```bash conda create --name convnext python=3.9 conda activate convnext pip install torch torchvision torchaudio ``` 对于特定版本的PyTorch和其他依赖项,请参照官方文档中的说明进行调整[^1]。 #### 获取源码与预训练权重 访问ConvNeXt项目的Git仓库下载最新版代码,并获取预训练好的模型参数作为初始化起点: ```bash git clone https://gitcode.com/gh_mirrors/co/ConvNeXt.git cd ConvNeXt wget URL_TO_PRETRAINED_WEIGHTS # 替换为实际链接 ``` 这里假设读者已具备基本的Linux命令行操作技能;如果遇到困难可以查阅相关资料补充基础知识。 #### 数据准备 准备好用于训练的数据集非常重要。考虑到ConvNeXt最初是在ImageNet-1K上进行了大量实验验证,因此建议也以此为基础开展工作。当然也可以针对具体应用场景收集定制化的图像样本集合。确保数据格式符合框架的要求,比如通过编写脚本来完成图片路径整理、标签映射等工作。 #### 修改配置文件 进入`configs`目录下找到适合自己的配置模板,按照需求修改超参数设定,如batch size, learning rate等。特别注意的是当引入新的组件(例如MAE)时可能还需要额外定义一些选项以支持新特性[^3]。 #### 开始训练过程 一切就绪之后就可以启动训练流程了。一般情况下只需执行如下指令即可触发整个计算管道: ```bash python train.py --config configs/default.yaml ``` 此过程中应密切监控GPU利用率、loss变化趋势等相关指标,必要时做出相应调整优化性能表现。 #### 测试评估效果 经过若干轮迭代后应当对最终得到的结果进行全面评测。利用测试集中未见过的真实样例来进行预测分析,统计各类别下的精度得分以及其他衡量标准,从而判断模型的有效性和泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值