Deep Stacked Hierarchical Multi-Patch Network for Image Deblurring
1. 论文的研究目标与实际意义
1.1 研究目标
论文旨在解决非均匀运动模糊图像的去模糊问题。具体而言,作者针对现有基于深度学习的多尺度(multi-scale)和尺度循环(scale-recurrent)模型的以下缺陷展开研究:
- 高计算成本:传统方法通过上采样/反卷积操作逐步恢复清晰图像,导致推理时间过长;
- 性能饱和:单纯增加网络深度或更细尺度层级无法提升去模糊质量。
1.2 实际问题与产业意义
非均匀运动模糊广泛存在于动态场景拍摄(如运动相机、自动驾驶车辆),传统方法依赖空间不变核假设或复杂优化,难以实时处理。深度学习模型虽高效,但现有方法在速度与精度间难以平衡。该研究提出的实时去模糊模型(30fps处理720p图像)可直接应用于视频增强、安防监控、移动端图像处理等领域,推动实时视觉系统的产业化落地。
2. 论文的创新方法与模型
2.1 核心思路:分层多块网络(DMPHN)
论文提出 分层多块网络(Deep Multi-Patch Hierarchical Network, DMPHN),其核心是通过 非重叠分块(Non-overlapping Patches) 和 残差式层级特征融合 实现高效去模糊。与传统多尺度(Multi-scale)和尺度循环(Scale-recurrent)模型不同,DMPHN采用 细到粗(Fine-to-Coarse) 的处理流程,将图像分割为不同粒度的块,逐级修正全局模糊残差,避免计算密集的上采样操作。
2.1.1 非重叠分块与空间金字塔匹配
借鉴 空间金字塔匹配(Spatial Pyramid Matching, SPM) 的思想,DMPHN将输入图像划分为多粒度分块(如1→2→4→8)。每个层级的分块不重叠,下层处理更细的局部信息,上层聚合全局特征。例如,层级4将图像分割为8个块,层级3合并为4个更大的块,直到顶层恢复完整图像。
2.1.2 残差学习机制
每个层级的输入由当前分块与下层级输出的残差修正结果相加,形成层级间的残差链(图2)。这使得模型能够专注于不同尺度的模糊特征,避免冗余计算。
2.2 模型架构与信息流动
2.2.1 编码器-解码器单元
每个层级包含一个 编码器(Encoder) 和 解码器(Decoder)(图4)。编码器由15层卷积构成(含6个残差连接),参数量仅 3.6MB(对比Nah等模型的303.6MB)。解码器结构与编码器对称,但用反卷积层代替部分卷积层以生成残差图。
2.2.2 关键公式与信息传递流程
以 (1-2-4-8) 模型为例(图2):
-
层级4(最细级)特征提取:
C 4 , j = F 4 ( B 4 , j ) , j ∈ { 1 , ⋯ , 8 } C_{4,j} = \mathcal{F}_4(B_{4,j}), \quad j \in \{1, \cdots, 8\} C4,j=F4(B4,j),j∈{ 1,⋯,8}
其中 B 4 , j B_{4,j} B4,j 是输入图像 B 1 B_1 B1 分割后的第 j j j 个块, F 4 \mathcal{F}_4 F4 为层级4的编码器。 -
特征拼接与解码:
C 4 , j ∗ = C 4 , 2 j − 1 ⊕ C 4 , 2 j , j ∈ { 1 , ⋯ , 4 } C_{4,j}^* = C_{4,2j-1} \oplus C_{4,2j}, \quad j \in \{1, \cdots, 4\} C4,j