MAXIM: Multi-Axis MLP for Image Processing
1. 研究目标与产业意义
1.1 研究目标
论文旨在解决低层视觉任务(如去噪、去模糊、去雨、去雾、增强)中的核心挑战:
“The inflexibility to support high-resolution images and limitations of local attention are perhaps the main bottlenecks.”
传统CNN在处理高分辨率图像时感受野受限,而Transformer因计算复杂度高( O ( N 2 ) O(N^2) O(N2))难以直接应用于密集像素级任务。MAXIM的目标是设计高效且全卷积的全局模型,支持任意分辨率输入,同时融合局部与全局信息。
1.2 产业意义
- 实际应用:手机摄影(去噪、夜景增强)、自动驾驶(去雾、去雨)、医疗影像(去模糊)。
- 技术痛点:现有模型参数量大(如Transformer)、边界伪影(分块处理)、依赖大规模预训练。
MAXIM以轻量设计(22.2M参数)实现SOTA性能,可部署于边缘设备,推动实时图像处理产业化。
2. 创新方法:多轴MLP架构
MAXIM的核心创新在于提出 多轴门控MLP块(Multi-Axis Gated MLP Block, MAB) 和 交叉门控块(Cross Gating Block, CGB),通过线性复杂度实现全局感受野,并支持任意分辨率输入。下文将结合论文细节进行深度解析。
2.1 整体架构:UNet式多阶段框架
MAXIM采用多阶段编码器-解码器结构(图2a),核心设计包括:
“Each encoder, decoder, and bottleneck contains a multi-axis gated MLP block as well as a residual channel attention block (RCAB).”
- 层级设计:
- 编码器:3层下采样(分辨率从 256 2 → 128 2 → 64 2 → 32 2 256^2 \rightarrow 128^2 \rightarrow 64^2 \rightarrow 32^2 2562→1282→642→322),通道数递增(32→64→128→256)
- 瓶颈层:2个MAB模块处理全局特征
- 解码器:对称上采样恢复分辨率
- 跨阶段连接:
- CGB门控跳跃连接(图2c),传递上下文信息
- 多尺度特征融合(红/蓝线)聚合多级信息
- 多阶段监督(公式7):
L = ∑ s = 1 S ∑ n = 1 N [ L c h a r ( R s , n , T n ) + λ L f r e q ( R s , n , T n ) ] \mathcal{L} = \sum_{s=1}^S \sum_{n=1}^N \left[ \mathcal{L}_{char}(R_{s,n}, T_n) + \lambda \mathcal{L}_{freq}(R_{s,n}, T_n) \right] L=s=1∑Sn=1∑N[Lchar(Rs,n,Tn)+λLfreq(Rs,n,Tn)]
其中 L c h a r \mathcal{L}_{char} Lchar 为Charbonnier损失(公式8), L f r e q \mathcal{L}_{freq} Lfreq 为频域重建损失(公式9),强制保留高频细节。
▲ 图2:MAXIM整体架构
2.2 多轴门控MLP块(MAB)
2.2.1 局部与全局分支并行
MAB(图3)将输入特征沿通道分为两半 ( C / 2 C/2 C/2),分别进行局部分块(Block) 和 全局网格(Grid) 处理:
-
局部分支(Local Branch):
- 操作:将特征划分为 b × b b \times b b×b 非重叠块 → 在 第二个轴(空间块内)应用 gMLP
- 数学表达(公式1):
Block b : ( H , W , C / 2 ) → ( H b × W b , b × b , C / 2 ) \text{Block}_b: (H, W, C/2) \to \left(\frac{H}{b} \times \frac{W}{b}, b \times b, C/2\right)