论文阅读——InternImage(cvpr2023)

arxiv:https://arxiv.org/abs/2211.05778

github:https://github.com/OpenGVLab/InternImage

一、介绍      

大部分大模型都是基于transformer的,本文是一个基于CNN的视觉基础模型。使用可变性卷积deformable convolution作为核心操作,使得模型有大的有效的感受野和自适应的空间集合。

        稍微改动了一下deformable convolution v2 (DCNv2),然后用这个DCNv3结合其他设计和一些前沿方法设计了一个block模块,然后堆叠和扩大这些模块增加参数提高表示能力。

二、InternImage Model

1、Deformable Convolution v3

        Convolution vs. MHSA(multi-head self-attention):

        从长期依赖的角度,即使有非常深的模型,基于CNN的模型仍然无法获得像ViTs这样的长期依赖性,这限制了它的性能。

        从自适应空间聚合的角度,MHSA权重是根据输入动态的,常规的卷积权重是静态的且有非常强的归纳偏差(inductive biases),如位置、周围的结构等,由于这些归纳偏差,卷积模型收敛的比较快并且比vit模型需要更少的数据集,但是也限制了CNN模型学习更一般更鲁棒特征的能力。

2、DCNv2

        DCNv2作为常规卷积扩展,加载预训练模型,然后微调得到更好的性能来使用,这并不适用于从头开始训练的大规模视觉基础模型。于是,从以下三个方面扩展了DCNv2,得到DCNv3:

1)卷积神经元之间的权重共享:将原始的卷积分解为Depthwise卷积与Pointwise卷积

2)引入多组机制:多组机制首先出现在一组卷积中。将空间聚合过程分为G组,每一组有单独的采样偏移∆pgk和模块尺度mgk。这样不同组在同一卷积层可以获得不同空间聚合模式,可以得到更强的特征表示。

3)沿采样点归一化modulation scalars(Normalizing modulation scalars along sampling points):DCNv2是通过sigmoid函数元素级归一化,因此每个modulation scalar范围是[0,1],这样所有采样点的modulation scalar求和不稳定,范围[0,K],这会导致梯度不稳定。沿采样点归一化modulation scalars就可以使得所有采样点的modulation scalar求和在0-1之间,使训练过程稳定。

综上,得到的DCNv3为:

3、Model

        4个stage,每个stage有三个超参数,所以模型原本应该有12个超参数,最佳超参数搜索空间很大,于是作者总结了一下以前的模型设置的,总结了四个规律,如上图右下角,然后最后得出只需要4个超参数就可以:s (C1, C' , L1, L3),然后根据实验得出最佳超参数为(64, 16, 4, 18)。

        有了模型之后,因为要训练一个很大参数的基础模型,所以考虑怎么使得模型变大,增加参数。参数缩放规则,也就是根据什么使模型变大,作者考虑了两种方式,深度,即L,多叠加几层stage,和宽度,即C,即每层提取的特征增加,或者是两个维度按某种比重α, β,φ结合:

        

最终实验找到最佳α, β是α=1.09, β=1.36

### CVPR 2023 关于目标检测的研究成果 CVPR 2023作为计算机视觉领域的顶级会议,吸引了众多高质量的目标检测相关论文提交。这些研究不仅展示了最新的算法和技术进展,还提供了丰富的实验数据和开源资源。 #### 注意力机制在目标跟踪中的应用 注意力机制显著提升了目标跟踪的效果。通过引入这一机制,模型能够自适应地选择目标的关键特征,进而提高了跟踪的准确性和鲁棒性[^1]。这种改进对于复杂场景下的目标检测尤为重要,因为复杂的背景可能会干扰传统的检测方法。 #### 实际案例分析 具体到CVPR 2023上发布的几项重要工作: - **基于生成对抗网络的目标跟踪**:这项研究表明如何利用GANs来增强目标跟踪系统的性能,在面对遮挡或其他不利条件时表现出更强的能力。 - **Divide and Adapt: Active Domain Adaptation via Customized Learning**:虽然主要关注域适应问题,但此工作中提出的定制化学习策略同样适用于提升跨不同环境条件下目标检测的表现[^2]。 #### 数据统计与影响力评估 据统计,CVPR 2023共收到了来自世界各地的9,155篇论文投稿,其中仅有约25.78%即2,360篇文章有幸被录用。这表明每一篇成功入选的文章都经历了严格筛选过程,代表着当前最先进水平的技术突破。 ```python # Python代码用于计算接收比例 total_submissions = 9155 accepted_papers = 2360 acceptance_rate = accepted_papers / total_submissions * 100 print(f"The acceptance rate of CVPR 2023 is {acceptance_rate:.2f}%.") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值