深度学习轻量级图像恢复网络RAMiT,CVPR2024 Workshop

1:Reciprocal Attention Mixing Transformer for Lightweight Image Restoration
– Supplementary Materials论文链接:https://openaccess.thecvf.com/content/CVPR2024W/NTIRE/supplemental/Choi_Reciprocal_Attention_Mixing_CVPRW_2024_supplemental.pdf

        首先,我们知道MobileNet V2是一种非常流行的轻量级卷积神经网络(CNN)架构,它被广泛用于各种计算机视觉任务中,因为它既高效又能在保持一定性能的同时减少计算量和参数数量。现在,作者在他提出的模型-RAMiT中融入这种简单而高效的CNN结构。作者是怎么做的呢?首先,拿来了MobileNet V2的架构,然后对它进行了一些修改,以便更好地适应他们的需求。这些修改主要体现在以下几个方面:

  1. 替换激活函数:原来的MobileNet V2使用的是ReLU6作为激活函数,但现在他们决定用LeakyReLU来替换它。为什么呢?因为LeakyReLU能够保留ReLU6无法捕捉到的细微梯度信息,这有助于模型在训练过程中更加稳定。实验结果显示,这个改变确实让模型变得更加稳定了。

  2. 处理残差连接:在MobileNet中,3x3的深度可分离卷积(dw)和1x1的点卷积(pw)是通过残差连接与输入特征相连的。但是,如果点卷积产生的通道数与输入通道数不同,那么点卷积的残差连接就会被忽略。研究者们保留了这一设定。

  3. 优化第一个1x1卷积:在MobileNet V2中,第一个1x1卷积是用来扩展通道数的,但这个操作需要很多参数和计算量,不太适合他们的轻量级设计。因此,他们决定用组卷积(group convolution)来替换这个1x1卷积。组卷积是一种将输入特征分成几个组,然后在每个组内独立进行卷积操作的方法。他们默认将组大小和扩展比例分别设置为4和1.2,以减少参数。

       最后,作者这些修改后的MobileNet V2组件应用到了模型RAMiT的注意力混合层(D-RAMiT和H-RAMi)、降维层、瓶颈层和重建模块中。这样做的好处是,他们可以在保持模型轻量级的同时,利用MobileNet V2的高效性和稳定性来提升RAMiT的性能。

2:主要内容:

       本文提出的RAMIT模型是一种基于深度卷积神经网络的图像超分辨率重建方法。该模型采用了层次化的结构并在每个层次中使用了多尺度自注意力模块(D-RAMIT)来捕捉图像中的局部和全局依赖关系。此外,还引入了一种混合器层(H-RAM),用于将来自不同层次的多尺度自注意力特征融合在一起,以进一步提高图像重建质量。通过将上述对MobileNet V2的修改和优化整合到MobiVari中,可以期待网络在保持轻量级的同时,在多种任务上表现出更高的效率和更好的性能。

3:创新点:

       本文的方法创新点主要体现在以下几个方面:提出了D-RAMIT块,这是一种新颖的二维自注意力混合模块,能够在并行操作下同时考虑图像的空间和通道自注意力机制,并将它们混合在一起,从而提高了网络对于图像上下文信息的捕捉能力。引入了H-RAMi层,这是一种高效的层次化互相关注模块,可以弥补由下采样造成的像素级别信息损失,并利用语义级别的信息,从而进一步提高网络的表现力。对于每一组互相关注结果,采用了修改后的MobileNet V2层,以实现卷积与网络之间的高效连接。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值