《Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding》

最新推荐文章于 2024-06-16 18:53:52 发布

Love向日葵的兮兮子

最新推荐文章于 2024-06-16 18:53:52 发布

阅读量1.8k

点赞数

分类专栏： Transformer 文章标签：深度学习 transformer 计算机视觉

本文链接：https://blog.csdn.net/weixin_43994864/article/details/123326072

版权

该博客介绍了在CVPR2022发表的研究，提出了一种名为ZITS的增量结构增强图像修复方法。ZITS利用Transformer恢复图像的整体结构，并通过ZeroRA策略将结构信息集成到预训练的修复模型中，提高了大掩模图像修复的效果。同时，文章还引入了掩模位置编码以提升修复性能。

摘要由CSDN通过智能技术生成

在这里插入图片描述
发表于CVPR2022！！！
代码链接：https://github.com/DQiaole/ZITS_inpainting

1. 问题

在这里插入图片描述

近年来，图像修复取得了显著的进展。然而，如何恢复纹理逼真、结构合理的图像仍然是一个难题。
1）卷积神经网络的接收域有限，一些特定的方法只处理规则纹理，而失去了整体结构，如图1所示，对于场景，特别是纹理较弱的场景，如果没有对大图像的整体理解，很难恢复关键的边缘和线
2）基于注意力的模型可以更好地学习结构恢复的长程依赖性，但在图像尺寸较大的情况下，由于计算量大而受到限制
3）在以往的工作中，还没有明确地讨论和利用图像修复中的位置信息

2. 方法

为了解决这些问题，本文建议利用一个额外的结构恢复器，以促进图像修复增量。该模型利用一个强大的基于注意的Transformer模型，在一个固定的低分辨率草图空间中恢复整体图像结构。这样的灰度空间很容易上采样到更大的尺度，以传递正确的结构信息。通过零初始化残差加法，我们的结构恢复器可以与其他预训练的绘制模型有效地集成在一起。此外，利用掩蔽位置编码策略提高了大型不规则掩模的性能。
在这里插入图片描述

overview
如上图2，给定masked图像 $I_m$ , 精确的边 $I_e$ ，线 $I_l$ ，二值mask $M$ ，我们将其连接并输入到Transformer Structure Restoration (TSR)模型中，得到恢复的边和线作为草图空间 $[\tilde{I}_e, \tilde{I}_l] = TSR(I_m, I_e, I_l, M)$ 。在推理阶段， Simple Structure Upsampler (SSU)可以轻松地将灰度草图上采样成任意大小。然后，基于门控卷积的结构特征编码器(Structure Feature Encoder, SFE)从上采样草图中提取多尺度特征 $S_k=SFE(\tilde{I}_e, \tilde{I}_l, M), \\k=\{ 0, 1, 2, 3\}$ 。本文在基于傅里叶卷积的CNN纹理恢复(FTR)的相关层中递增地添加 $S_k$ ，即 $\tilde{I} = FTR(I_m, M, \alpha _k\cdot S_k), k=\{0, 1, 2, 3 \}$

最低0.47元/天解锁文章

Love向日葵的兮兮子

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding》

发表于CVPR2022！！！代码链接：https://github.com/DQiaole/ZITS_inpainting1. 问题近年来，图像修复取得了显著的进展。然而，如何恢复纹理逼真、结构合理的图像仍然是一个难题。1）卷积神经网络的接收域有限，一些特定的方法只处理规则纹理，而失去了整体结构，如图1所示，对于场景，特别是纹理较弱的场景，如果没有对大图像的整体理解，很难恢复关键的边缘和线2）基于注意力的模型可以更好地学习结构恢复的长程依赖性，但在图像尺寸较大的情况下，由于计算量大而受到限制.
复制链接

扫一扫

专栏目录