本文整理了单阶段单一结果图像修复的一些论文,帮助读者了解和整理思路。
上下文编码
Pathak等人提出了一种上下文编码图像修复网络(Context Encoders: Feature Learning by Inpainting),该网络使用向上下像素预测的方法,将无监督特征学习应用到大孔洞图像修复。模型结构如图所示。
编码端提取输入图像的特征表示,解码端将压缩后的特征图逐步放大,恢复到原始图像的大小。由于卷积层不能直接连接特定特征地图中的所有位置,因此由卷积层组成的编码器无法使信息从特征地图的一个角落直接传播到另一个角落。提出了一种基于步长1卷积的全连通层跨通道信息传播方法,作为编解码器之间的中间连接,在每个特征地图的活动范围内传播信息
上下文编码器采用重构丢失(L2)和对抗性丢失来处理上下文内的连续性和输出中的多种模式。重构损失负责获取被修复区域的整体结构并使其与周围的已知区域保持一致。对抗损失使被修复的区域的预测看起来更真实。通过它们之间的平衡,可能产生最佳的修复结果。
上下文编码器能够在一定程度上理解图像的语义,并根据孔洞周围的信息预测像素,从而生成新的内容。同时,它是一种非常领先的图像修复技术。为后续研究工作奠定了基础。
全局和局部一致
受上下文编码器的启发,研究人员提出了一种全局和局部一致的图像修复方法(Globally and Locally Consistent Image Completion),以解决上下文编码器的缺陷。例如,只能处理固定的低分辨率图像,掩码区域必须位于图像的中心,已修复区域无法与周围区域保持局部一致性。该网络使用两个辅助上下文鉴别器进行训练,其中全局鉴别器网络以整个图像为输入,局部鉴别器网络仅以完成区域周围的小区域作为输入,分别保证恢复图像的全局和局部语义。在完成网络的中间四层使用扩张卷积,以增加提取的特征的感受野。可以完成任意大小的图像,并可以根据局部和全局结构语义信息生成新的纹理和对象。
部分卷积
在使用标准卷积网络修复受损图像时,通常使用有效像素和缺失部分的平均值作为填充,这容易使修复的大孔洞区域缺乏纹理信息,产生色差和模糊等伪影,严重影响视觉感觉。Liu等人提出了部分卷积以解决以上问题(Image Inpainting for Irregular Holes Using Partial Convolutions)。在掩码更新过程中,卷积结果依赖于每一层的非掩码区域和与受损区域相对应的二值掩码。通过不断更新足够的层,最后仅仅保留通过对已知区域进行像素卷积后得到的特征。因此,实现了与缺失部分的初始值无关并且不需要任何额外的后处理的良好的缺失部分预测,可以有效地修复不规则的缺失部分,使图像修复技术在生产应用中具有更大的想象空间。局限性是在处理一些稀疏结构的图像时,修复效果仍然像以前的方法一样有限。
金字塔上下文编码器
针对(Learning pyramid-context encoder network for high-quality image inpainting, Patchmatch: A randomized correspondence algorithm for structural image editing, Patchmatch: A randomized correspondence algorithm for structural image editing)图像级修复,普遍缺乏对图像高层语义的理解,通过在图像的可见区搜索相似的块并将其复制到受损区域进行纹理合成来填充受损区域,不能产生语义上合理的结果,虽然生成模型可以增强修复区域的语义一致性,但堆叠的结构和池在一定程度上导致图像分辨率细节过于平滑,缺乏视觉真实感等。Zeng等人提出金字塔上下文编码网络(PEN-Net)(Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting),金字塔上下文编码器的辅助训练,多尺度解码器和对抗性训练损失,可以同时在图像级和特征级填补缺失区域,从而提高图像修复的能力。
主要创新之处在于:
通过引入注意力转移网络,在高层特征图中学习受损区域与可见区域块之间的亲和度,然后根据块亲和度权重将可见区域相关特征转换为低层高分辨率特征图,以填补缺失的内容,从而保证图像恢复的视觉和语义一致性。
提出了一种对金字塔丢失和对抗性丢失进行深度监督的多尺度解码器。通过跳跃连接,将注意力转移网络学习到的相似特征和潜在特征一起解码,得到修复后的图像,这种设计不仅可以使训练快速收敛,而且可以使测试更真实。
视觉结构的渐进性重建
PRVS(渐进式视觉结构重建)(Progressive Reconstruction of Visual Structure for Image Inpainting)在局部构造的基础上引入了视觉结构重建(VSR)层。在编码器和解码器中分别部署了两个VSR层,以生成不同尺度的结构信息。通过将结构信息逐步融合到特征中,基于生成对抗性网络输出结构合理的图像,并将转置卷积引入解码器采样层的原始部分卷积层,解决了现有部分卷积模型的局限性。在恢复过程中,采用部分卷积和瓶颈块相结合的方法来恢复缺失区域的一些边缘,重构边缘结合输入的带有孔洞的图像通过填充有意义的语义内容来逐渐减小孔洞的大小,最终得到了较好的图像修复结果。
递归特征推理
针对(Learning pyramid-context encoder network for high-quality image inpainting,Learning pyramid-context encoder network for high-quality image inpainting)容易因约束不足而造成语义歧义的方法,尝试修复较大的缺陷。李等人提出了一种递归特征推理(RFR)模块(Recurrent Feature Reasoning for Image Inpainting),该模块利用相邻像素之间的相关性,增强了估计深部像素的约束,反复推断卷积特征图的孔洞边界,并将其作为进一步推理的线索。该模块不仅显著提高了网络性能,而且还绕过了渐进式方法的一些限制,即网络的输入和输出需要在同一空间中表示。提出了知识一致性注意(KCA)模块,该模块能够自适应地组合不同循环过程的分数,并确保循环之间的补丁交换过程的一致性,从而以细腻的细节获得更好的结果。
交互编解码器
针对(Context encoders: Feature learning by inpainting,Context encoders: Feature learning by inpainting,Progressive reconstruction of visual structure for image inpainting)等方法没有充分考虑结构和纹理相关性的一致性,导致修复结果容易出现模糊和伪影的问题。Hongyu Liu提出了一种用于结构和纹理联合恢复的编解码器CNN(Rethinking Image Inpainting via a Mutual Encoder-Decoder with Feature Equalizations)。利用编码器的深层和浅层CNN特征分别表示输入图像的结构和纹理。。将编码器深层要素传递给包含结构语义的结构分支,将浅层要素传递给包含纹理详细信息的纹理分支。每个分支将使用多个比例的CNN特征来填充空洞,连接两个分支的CNN特征,然后首先对通道关注度进行重新加权,并使用双向传播激活函数来实现不同CNN特征级别的空间均衡,解码器通过跳过连接生成修复后的图像。它的优点是可以在图像修复过程中将填充结构与纹理关联起来,使模型更容易进行端到端的训练,从而生成更合理、更精细的结构和纹理。