ConvNeXt V2：用MAE训练CNN

最新推荐文章于 2025-02-25 20:34:06 发布

武乐乐~

最新推荐文章于 2025-02-25 20:34:06 发布

阅读量1.7k

点赞数 20

文章标签： cnn 计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wulele2/article/details/136309145

版权

论文名称：ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
发表时间：CVPR2023
code链接：代码
作者及组织: Sanghyun Woo，Shoubhik Debnath来自KAIST和Meta AI。

前言

ConvNextV2是借助MAE的思想来训练ConvnextV1。关于ConvnextV1可参考：
A ConvNet for the 2020s

1、Fully Convolutional Masked Autoencoder

本文借助MAE的思想，设计了一套基于CNN的自监督学习网络结构。
在这里插入图片描述

如上图所示，首先随机mask住2D图像的patch区域，为了防止Conv在训练过程中“看到“被遮挡区域的信息，于是Encoder部分采用了Sparse Conv(简单来说就是仅卷有像素值的区域)；而Decoder则是一层Convnext Block；最终类似SIMMIM，仅用MSE Loss计算被遮挡部分的损失函数。
这里值得注意一个点：在Pretraining Stage用SparseCNN，在Finetuning Stage又将SparseCNN转变成常规卷积。
最终取得实验结果：发现还是比不上有监督训练。

在这里插入图片描述

2、Global Response Normalization（GRN）

在上节中，发现FCMAE效果还是差点儿，于是作者可视化特征图的每个channel：发现有好多失活的，这跟MAE训练的ViT效果相反：不同channel均有激活且多样性丰富。
在这里插入图片描述

为了增加channel的多样性，作者设计了GRU的归一化方式：

在这里插入图片描述

简单说下上述代码含义：算法的输入和输出的维度相同

最低0.47元/天解锁文章

博客等级

码龄6年

100
原创

1093
点赞

1978
收藏

2467
粉丝

关注

私信

热门文章

分类专栏

最新评论

ConditionalDetr论文解读+核心源码解读
2401_83570611: 为什么Pq直接等于Oq了呢？Oq中不是也包含Cq吗？Oq不是既要学习内容和位置的糅合体吗？
源码解读ReDet：A Rotation-equivariant Detector for Aerial Object Detection
m0_53599110: 请问，论文中不是要把r所在的通道放到第一通道吗？那r=1是不是要把输入的第c1放到输出的c0吗？
mmdetection之Detr源码解读
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
MMDetection之pipline详解
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
OrientedRCNN论文解读
CSDN-Ada助手: 机器学习中验证集和测试集有什么区别？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。