CVPR2022-图像恢复重建Restormer论文解读

CVPR2022文献解读之Restormer

图像恢复重建:
Restormer: Efficient Transformer for High-Resolution Image Restoration
原文传送: https://arxiv.org/abs/2111.09881
官方源码:https://github.com/swz30/Restormer



写在开始

小小溪本着简洁明了传达论文核心思想的态度,记录自己阅读文献中的理解和思考,与大家分享。文中只是我自己对文献的一些理解,因此建议感兴趣的文献还是要再啃遍原文,如有其他不同理解也欢迎评论区讨论和指正,大家一起进步~~~


一、文献定位

将transformer应用于图像恢复重建(去雾,去模糊)


二、创新点

  1. 改进transformer的空间自注意力为带有深度可分离卷积的通道自注意力;
  2. 卷积前向网络改为带有gating及深度可分离卷积的前向网络;
  3. 训练方式:输入图像尺寸由小到大的progressive learning。

三、网络结构

纯净版:
网络结构
标记版:
网络结构
网络总体框架仍为带有全局residual的u-net结构。
首先经3×3卷积提取低阶特征F0;再经4阶段transformer构成的encoder-decoder,其中上、下采样分别由pixel unshuffle和shuffle实现;接着经transformer进行refinement;最后,再通过3×3卷积恢复原始通道数,与原图residual相加得到输出。

1. MDTA(multi-dconv head transposed attention)

首先要注意这里的Dconv是指deep-wise conv而非上采样deconv。本文Transformer改原始空间图像patch的self-attention为通道上的self-attention,运算量大大下降。self-attention的Q\K\V均由1×1,3×3深度可分离卷积映射得到,最终C个通道被映射展平为C个HW维的向量,做attention。
Self-attention可以看作是丰富提取信息的过程。

2. GDFN(gated dconv feed-forword network)

以往transformer前向网络就是带有激活层的两层卷积,本文的前向网络是两个1×1,3×3深度可分离卷积构成的小分支,其中一支带有GELU激活,两分支得到的特征图逐点相乘。两分支结构必然导致运算量增大,因此卷积后的通道数设计的比以往前向网络小。
Gated前向网络可以看作是对信息的一个筛选,控制网络前向传播的信息。

3. Progressive learning

Low-level图像任务需要做像素级的图像处理,全图输入训练开销太大,因此在训练时通常只将经crop的小patch送入网络,但这样不利于transformer学习全局信息,另外训练与测试的图像不一致也会导致推理性能不佳。
本文在训练时采取progressive learning的策略,即训练中逐渐增大输入网络的图像尺寸(为降低运算量,batch size会相应减少)。


四、可借鉴的一些点

  1. 通道transformer和gated前向网络。
  2. encoder-decoder的第一阶段只concate不通过卷积进行通道数减少的融合。第一阶段浅层特征往往包含一些边缘等结构信息,有利于low-level任务。
  3. progressive learning。考虑到全局信息对图像恢复重建的重要性,之前本人也一直觉得直接用crop的图像块做训练不甚合适,因此本文在训练过程中逐渐增加图像尺寸的progressive learning可以借鉴。
  • 8
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值