Simple Baselines for Image Restoration论文阅读

1. 论文的研究目标与实际意义

研究目标
论文旨在解决当前图像复原领域(如去噪、去模糊)中模型系统复杂度(System Complexity)过高的问题。现有SOTA方法虽性能优异,但引入了复杂的模块设计(如多阶段结构、多头注意力),导致模型难以分析、部署和优化。作者提出一个简单高效的基线模型,并通过简化发现非线性激活函数(如ReLU、GELU)并非必要,最终提出非线性激活自由网络(NAFNet)。

实际意义

  1. 降低计算成本:NAFNet在多个任务上以显著更低的计算量(如GoPro任务仅需8.4%的MACs)超越SOTA,适用于移动端和边缘设备。
  2. 推动模型可解释性:简化模型结构有助于研究者聚焦核心组件,加速新方法验证。
  3. 产业应用潜力:高效模型可推动实时图像增强(手机摄影、医疗成像、自动驾驶)的落地。

2. 创新方法、模型与公式分析

2.1 架构简化:降低系统复杂度的核心策略

论文将系统复杂度拆解为块间复杂度(Inter-block Complexity)块内复杂度(Intra-block Complexity)

  • 块间复杂度:源于多阶段架构(如串行U-Net)或多尺度特征融合(如跨尺寸特征图连接)。
  • 块内复杂度:模块内部设计(如多头注意力、门控机制)。

解决方案

  1. 统一采用单阶段U-Net架构(图2c),避免多阶段堆叠:

    “We adopt the classic single-stage U-shaped architecture with skip-connections… following Restormer[37] and Uformer[34]”

  2. 聚焦块内简化:从最基础的卷积块出发,逐步验证组件的必要性。
2.2 基线模型演进:从PlainNet到Baseline
2.2.1 起点:PlainNet块
  • 结构(图3b):

图3:块内结构对比
Intra-block Comparison
(b) PlainNet:基础卷积块(含ReLU)
© Baseline:添加LN、GELU、CA
(d) NAFNet:用SimpleGate、SCA替换非线性组件
卷积 → ReLU → 卷积 + 残差连接

  • 问题:训练不稳定,需降低学习率至 1 e − 4 1e^{-4} 1e4(表1)。
2.2.2 关键改进组件

通过消融实验(表1)验证以下组件的必要性:

  1. 层归一化(LayerNorm, LN)

    • 作用:稳定训练,允许学习率提升至 1 e − 3 1e^{-3} 1e3
    • 公式
      LN ( x ) = x − μ σ 2 + ϵ ⊙ γ + β \text{LN}(x) = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} \odot \gamma + \beta LN(x)=σ2+ϵ xμγ+β
    • 效果:GoPro PSNR +3.39 dB(28.51 dB → 31.90 dB)。
  2. GELU替换ReLU

    • 动机:SOTA方法(如Restormer)普遍采用GELU。
    • 公式(论文式(3)):
      GELU ( x ) ≈ 0.5 x ( 1 + tanh ⁡ [ 2 / π ( x + 0.044715 x 3 ) ] ) \text{GELU}(x) \approx 0.5x \left(1 + \tanh\left[\sqrt{2/\pi}(x + 0.044715x^3)\right]\right) GELU(x)0.5x(1+tanh[2/π
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青铜锁00

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值