MAXIM: Multi-Axis MLP for Image Processing论文阅读

1. 研究目标与产业意义

1.1 研究目标

论文旨在解决低层视觉任务(如去噪、去模糊、去雨、去雾、增强)中的核心挑战:

“The inflexibility to support high-resolution images and limitations of local attention are perhaps the main bottlenecks.”
传统CNN在处理高分辨率图像时感受野受限,而Transformer因计算复杂度高( O ( N 2 ) O(N^2) O(N2))难以直接应用于密集像素级任务。MAXIM的目标是设计高效且全卷积的全局模型,支持任意分辨率输入,同时融合局部与全局信息。

1.2 产业意义
  • 实际应用:手机摄影(去噪、夜景增强)、自动驾驶(去雾、去雨)、医疗影像(去模糊)。
  • 技术痛点:现有模型参数量大(如Transformer)、边界伪影(分块处理)、依赖大规模预训练。
    MAXIM以轻量设计(22.2M参数)实现SOTA性能,可部署于边缘设备,推动实时图像处理产业化。

2. 创新方法:多轴MLP架构

MAXIM的核心创新在于提出 多轴门控MLP块(Multi-Axis Gated MLP Block, MAB)交叉门控块(Cross Gating Block, CGB),通过线性复杂度实现全局感受野,并支持任意分辨率输入。下文将结合论文细节进行深度解析。

2.1 整体架构:UNet式多阶段框架

MAXIM采用多阶段编码器-解码器结构(图2a),核心设计包括:

“Each encoder, decoder, and bottleneck contains a multi-axis gated MLP block as well as a residual channel attention block (RCAB).”

  • 层级设计
    • 编码器:3层下采样(分辨率从 256 2 → 128 2 → 64 2 → 32 2 256^2 \rightarrow 128^2 \rightarrow 64^2 \rightarrow 32^2 25621282642322),通道数递增(32→64→128→256)
    • 瓶颈层:2个MAB模块处理全局特征
    • 解码器:对称上采样恢复分辨率
  • 跨阶段连接
    • CGB门控跳跃连接(图2c),传递上下文信息
    • 多尺度特征融合(红/蓝线)聚合多级信息
  • 多阶段监督(公式7):
    L = ∑ s = 1 S ∑ n = 1 N [ L c h a r ( R s , n , T n ) + λ L f r e q ( R s , n , T n ) ] \mathcal{L} = \sum_{s=1}^S \sum_{n=1}^N \left[ \mathcal{L}_{char}(R_{s,n}, T_n) + \lambda \mathcal{L}_{freq}(R_{s,n}, T_n) \right] L=s=1Sn=1N[Lchar(Rs,n,Tn)+λLfreq(Rs,n,Tn)]
    其中 L c h a r \mathcal{L}_{char} Lchar 为Charbonnier损失(公式8), L f r e q \mathcal{L}_{freq} Lfreq 为频域重建损失(公式9),强制保留高频细节。

MAXIM架构
▲ 图2:MAXIM整体架构

2.2 多轴门控MLP块(MAB)
2.2.1 局部与全局分支并行

MAB(图3)将输入特征沿通道分为两半 ( C / 2 C/2 C/2),分别进行局部分块(Block)全局网格(Grid) 处理:

  1. 局部分支(Local Branch)

    • 操作:将特征划分为 b × b b \times b b×b 非重叠块 → 在 第二个轴(空间块内)应用 gMLP
    • 数学表达(公式1):
      Block b : ( H , W , C / 2 ) → ( H b × W b , b × b , C / 2 ) \text{Block}_b: (H, W, C/2) \to \left(\frac{H}{b} \times \frac{W}{b}, b \times b, C/2\right)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青铜锁00

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值