发表于CVPR2022!!!
代码链接:https://github.com/DQiaole/ZITS_inpainting
1. 问题
近年来,图像修复取得了显著的进展。然而,如何恢复纹理逼真、结构合理的图像仍然是一个难题。
1)卷积神经网络的接收域有限,一些特定的方法只处理规则纹理,而失去了整体结构,如图1所示,对于场景,特别是纹理较弱的场景,如果没有对大图像的整体理解,很难恢复关键的边缘和线
2)基于注意力的模型可以更好地学习结构恢复的长程依赖性,但在图像尺寸较大的情况下,由于计算量大而受到限制
3)在以往的工作中,还没有明确地讨论和利用图像修复中的位置信息
2. 方法
为了解决这些问题,本文建议利用一个额外的结构恢复器,以促进图像修复增量。该模型利用一个强大的基于注意的Transformer模型,在一个固定的低分辨率草图空间中恢复整体图像结构。这样的灰度空间很容易上采样到更大的尺度,以传递正确的结构信息。通过零初始化残差加法,我们的结构恢复器可以与其他预训练的绘制模型有效地集成在一起。此外,利用掩蔽位置编码策略提高了大型不规则掩模的性能。
- overview
如上图2,给定masked图像 I m I_m Im, 精确的边 I e I_e Ie,线 I l I_l Il,二值mask M M M,我们将其连接并输入到Transformer Structure Restoration (TSR)模型中,得到恢复的边和线作为草图空间 [ I ~ e , I ~ l ] = T S R ( I m , I e , I l , M ) [\tilde{I}_e, \tilde{I}_l] = TSR(I_m, I_e, I_l, M) [I~e,I~l]=TSR(Im,Ie,Il,M)。在推理阶段, Simple Structure Upsampler (SSU)可以轻松地将灰度草图上采样成任意大小。然后,基于门控卷积的结构特征编码器(Structure Feature Encoder, SFE)从上采样草图中提取多尺度特征 S k = S F E ( I ~ e , I ~ l , M ) , k = { 0 , 1 , 2 , 3 } S_k=SFE(\tilde{I}_e, \tilde{I}_l, M), \\k=\{ 0, 1, 2, 3\} Sk=SFE(I~e,I~l,M),k={ 0,1,2,3}。本文在基于傅里叶卷积的CNN纹理恢复(FTR)的相关层中递增地添加 S k S_k Sk,即 I ~ = F T R ( I m , M , α k ⋅ S k ) , k = { 0 , 1 , 2 , 3 } \tilde{I} = FTR(I_m, M, \alpha _k\cdot S_k), k=\{0, 1, 2, 3 \} I~=FTR(Im