【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

31 篇文章 0 订阅
17 篇文章 0 订阅

在这里插入图片描述
背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。

  • 具体地说,为了编辑感兴趣的图像区域,用户可以自由地直接从一些野生参考中获得灵感(例如,一些在线的相对图片),而不必处理参考和来源之间的匹配问题。
  • 这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
  • 为此,作者提出了一种称为 MimicBrush 的生成训练框架,该框架从视频剪辑中随机选择两个帧,屏蔽一个帧的一些区域,并使用另一帧的信息学习恢复屏蔽的区域。
  • 这样,该模型从扩散模型的先验知识发展而来,能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论:作者通过实验证明了该的方法在各种测试用例下的有效性,以及它相对于现有替代方案的优越性。作者还构建了一个基准,以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示:不同管道的概念比较。要编辑局部区域,除了获取源图像和源掩码(指示要编辑的区域)外,

  • 修复(Inpainting)模型还使用文本提示来指导生成。
  • 图像合成(Composition)方法采用参考图像和掩模/框来裁剪出特定的参考区域。
  • 不同的是,本方法只是需要一张参考图像,参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑,作者设计了一个名为 MimicBrush 的框架,它使用双扩散 UNet 来处理源图像和参考图像

更具体地说,作者以自监督的方式训练它,从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化,MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中,并与其周围环境自然融合。

在 MimicBrush 中,作者将带 Mask 的源图像送入 Imitative U-Net,将参考图送入 Reference U-Net。然后 将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中,这有助于重建 Mask 区域。如图 1 所示,MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节,并与背景和谐互动。
在这里插入图片描述
图3 所示:MimicBrush 的训练过程。

  • 首先,作者从视频序列中随机抽取两帧作为参考图像和源图像。
  • 然后对源图像进行掩蔽 Mask ,并对源图像进行数据增强。
  • 然后,再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
  • 参考图像也被增强并发送到 Reference U-Net。
  • 训练双U-Nets以恢复源图像的掩蔽区域。
  • 其中,Reference U-Net的注意力键和值(Key、Query)与 Imitative U-Net连接,以帮助合成掩蔽区域。

任务定义和评估标准

在这里插入图片描述
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition(第一行)和纹理迁移 Texture Transfer(第二行)的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。

  • 22
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值