【可控图像生成系列论文（一）】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

多恩Stone

已于 2024-06-17 12:05:22 修改

阅读量1.3k

点赞数 22

分类专栏： AIGC Diffusion 科研文章标签： pytorch 深度学习人工智能 AIGC python stable diffusion

于 2024-06-17 12:03:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44212848/article/details/139664567

版权

AIGC 同时被 3 个专栏收录

92 篇文章

订阅专栏

55 篇文章

订阅专栏

43 篇文章

订阅专栏

在这里插入图片描述
背景：考虑到用户的不同需求，图像编辑是一项实用而富有挑战性的任务，其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点：在本文作者提出了一种新的编辑形式，称为模仿编辑，以帮助用户更方便地发挥他们的创造力。

具体地说，为了编辑感兴趣的图像区域，用户可以自由地直接从一些野生参考中获得灵感（例如，一些在线的相对图片），而不必处理参考和来源之间的匹配问题。
这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
为此，作者提出了一种称为 MimicBrush 的生成训练框架，该框架从视频剪辑中随机选择两个帧，屏蔽一个帧的一些区域，并使用另一帧的信息学习恢复屏蔽的区域。
这样，该模型从扩散模型的先验知识发展而来，能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论：作者通过实验证明了该的方法在各种测试用例下的有效性，以及它相对于现有替代方案的优越性。作者还构建了一个基准，以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示：不同管道的概念比较。要编辑局部区域，除了获取源图像和源掩码（指示要编辑的区域）外，

修复（Inpainting）模型还使用文本提示来指导生成。
图像合成（Composition）方法采用参考图像和掩模/框来裁剪出特定的参考区域。
不同的是，本方法只是需要一张参考图像，参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑，作者设计了一个名为 MimicBrush 的框架，它使用双扩散 UNet 来处理源图像和参考图像。

更具体地说，作者以自监督的方式训练它，从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化，MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中，并与其周围环境自然融合。

在 MimicBrush 中，作者将带 Mask 的源图像送入 Imitative U-Net，将参考图送入 Reference U-Net。然后将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中，这有助于重建 Mask 区域。如图 1 所示，MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节，并与背景和谐互动。
在这里插入图片描述
图3 所示：MimicBrush 的训练过程。

首先，作者从视频序列中随机抽取两帧作为参考图像和源图像。
然后对源图像进行掩蔽 Mask ，并对源图像进行数据增强。
然后，再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
参考图像也被增强并发送到 Reference U-Net。
训练双U-Nets以恢复源图像的掩蔽区域。
其中，Reference U-Net的注意力键和值（Key、Query）与 Imitative U-Net连接，以帮助合成掩蔽区域。

任务定义和评估标准

在这里插入图片描述
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition（第一行）和纹理迁移 Texture Transfer（第二行）的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。