Simple Baselines for Image Restoration
1. 论文的研究目标与实际意义
研究目标:
论文旨在解决当前图像复原领域(如去噪、去模糊)中模型系统复杂度(System Complexity)过高的问题。现有SOTA方法虽性能优异,但引入了复杂的模块设计(如多阶段结构、多头注意力),导致模型难以分析、部署和优化。作者提出一个简单高效的基线模型,并通过简化发现非线性激活函数(如ReLU、GELU)并非必要,最终提出非线性激活自由网络(NAFNet)。
实际意义:
- 降低计算成本:NAFNet在多个任务上以显著更低的计算量(如GoPro任务仅需8.4%的MACs)超越SOTA,适用于移动端和边缘设备。
- 推动模型可解释性:简化模型结构有助于研究者聚焦核心组件,加速新方法验证。
- 产业应用潜力:高效模型可推动实时图像增强(手机摄影、医疗成像、自动驾驶)的落地。
2. 创新方法、模型与公式分析
2.1 架构简化:降低系统复杂度的核心策略
论文将系统复杂度拆解为块间复杂度(Inter-block Complexity) 和块内复杂度(Intra-block Complexity):
- 块间复杂度:源于多阶段架构(如串行U-Net)或多尺度特征融合(如跨尺寸特征图连接)。
- 块内复杂度:模块内部设计(如多头注意力、门控机制)。
解决方案:
- 统一采用单阶段U-Net架构(图2c),避免多阶段堆叠:
“We adopt the classic single-stage U-shaped architecture with skip-connections… following Restormer[37] and Uformer[34]”
- 聚焦块内简化:从最基础的卷积块出发,逐步验证组件的必要性。
2.2 基线模型演进:从PlainNet到Baseline
2.2.1 起点:PlainNet块
- 结构(图3b):
图3:块内结构对比
(b) PlainNet:基础卷积块(含ReLU)
© Baseline:添加LN、GELU、CA
(d) NAFNet:用SimpleGate、SCA替换非线性组件
卷积 → ReLU → 卷积 + 残差连接
- 问题:训练不稳定,需降低学习率至 1 e − 4 1e^{-4} 1e−4(表1)。
2.2.2 关键改进组件
通过消融实验(表1)验证以下组件的必要性:
-
层归一化(LayerNorm, LN):
- 作用:稳定训练,允许学习率提升至 1 e − 3 1e^{-3} 1e−3。
- 公式:
LN ( x ) = x − μ σ 2 + ϵ ⊙ γ + β \text{LN}(x) = \frac{x - \mu}{\sqrt{\sigma^2 + \epsilon}} \odot \gamma + \beta LN(x)=σ2+ϵx−μ⊙γ+β - 效果:GoPro PSNR +3.39 dB(28.51 dB → 31.90 dB)。
-
GELU替换ReLU:
- 动机:SOTA方法(如Restormer)普遍采用GELU。
- 公式(论文式(3)):
GELU ( x ) ≈ 0.5 x ( 1 + tanh [ 2 / π ( x + 0.044715 x 3 ) ] ) \text{GELU}(x) \approx 0.5x \left(1 + \tanh\left[\sqrt{2/\pi}(x + 0.044715x^3)\right]\right) GELU(x)≈0.5x(1+tanh[2/π