《Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding》

该博客介绍了在CVPR2022发表的研究,提出了一种名为ZITS的增量结构增强图像修复方法。ZITS利用Transformer恢复图像的整体结构,并通过ZeroRA策略将结构信息集成到预训练的修复模型中,提高了大掩模图像修复的效果。同时,文章还引入了掩模位置编码以提升修复性能。
摘要由CSDN通过智能技术生成

在这里插入图片描述
发表于CVPR2022!!!
代码链接:https://github.com/DQiaole/ZITS_inpainting

1. 问题

在这里插入图片描述

近年来,图像修复取得了显著的进展。然而,如何恢复纹理逼真、结构合理的图像仍然是一个难题。
1)卷积神经网络的接收域有限,一些特定的方法只处理规则纹理,而失去了整体结构,如图1所示,对于场景,特别是纹理较弱的场景,如果没有对大图像的整体理解,很难恢复关键的边缘和线
2)基于注意力的模型可以更好地学习结构恢复的长程依赖性,但在图像尺寸较大的情况下,由于计算量大而受到限制
3)在以往的工作中,还没有明确地讨论和利用图像修复中的位置信息

2. 方法

为了解决这些问题,本文建议利用一个额外的结构恢复器,以促进图像修复增量。该模型利用一个强大的基于注意的Transformer模型,在一个固定的低分辨率草图空间中恢复整体图像结构。这样的灰度空间很容易上采样到更大的尺度,以传递正确的结构信息。通过零初始化残差加法,我们的结构恢复器可以与其他预训练的绘制模型有效地集成在一起。此外,利用掩蔽位置编码策略提高了大型不规则掩模的性能。
在这里插入图片描述

  • overview
    如上图2,给定masked图像 I m I_m Im, 精确的边 I e I_e Ie,线 I l I_l Il,二值mask M M M,我们将其连接并输入到Transformer Structure Restoration (TSR)模型中,得到恢复的边和线作为草图空间 [ I ~ e , I ~ l ] = T S R ( I m , I e , I l , M ) [\tilde{I}_e, \tilde{I}_l] = TSR(I_m, I_e, I_l, M) [I~e,I~l]=TSR(Im,Ie,Il,M)。在推理阶段, Simple Structure Upsampler (SSU)可以轻松地将灰度草图上采样成任意大小。然后,基于门控卷积的结构特征编码器(Structure Feature Encoder, SFE)从上采样草图中提取多尺度特征 S k = S F E ( I ~ e , I ~ l , M ) , k = { 0 , 1 , 2 , 3 } S_k=SFE(\tilde{I}_e, \tilde{I}_l, M), \\k=\{ 0, 1, 2, 3\} Sk=SFE(I~e,I~l,M),k={ 0,1,2,3}。本文在基于傅里叶卷积的CNN纹理恢复(FTR)的相关层中递增地添加 S k S_k Sk,即 I ~ = F T R ( I m , M , α k ⋅ S k ) , k = { 0 , 1 , 2 , 3 } \tilde{I} = FTR(I_m, M, \alpha _k\cdot S_k), k=\{0, 1, 2, 3 \} I~=FTR(Im
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值