大连理工提出CharacterFactory,仅需2.5GB显存训练10分钟,可以在3秒内无限制地端到端地采样出新的一致性角色,可以结合动作、背景、风格等文本提示实现。

110 篇文章 3 订阅
86 篇文章 3 订阅

大连理工大学的IIAU团队提出CharacterFactory,不需要参考图片,仅需2.5GB显存训练10分钟,可以在3秒内无限制地端到端地采样出新的一致性角色,可以结合动作、背景、风格等文本提示实现一致性图像生成,并且无需微调即可插入视频/3D生成。

相关链接

Demo:https://huggingface.co/spaces/DecoderWQH666/CharacterFactory

Github: https://github.com/qinghew/CharacterFactory(代码已经开源)

Project Page:https://qinghew.github.io/CharacterFactory/

Paper:https://arxiv.org/abs/2404.15677

论文阅读

CharacterFactory:扩散模型中gan的采样一致性特征

摘要

文本到图像模型的最新发展为以人为中心的一代开辟了新的领域。然而,这些模型不能直接用于生成具有一致的新生成身份的图像。在本工作中,我们提出了一个字符框架,该框架允许在GANS的潜在空间中对具有一致身份的新字符进行采样,以用于扩散模型。更具体地说,我们把嵌入名字的单词看作是与身份一致的生成任务的基本真相,并训练一个GAN模型来学习从潜伏空间到嵌入空间的映射。

另外,我们设计了一个与上下文一致的损失,以确保生成的身份嵌入能够在各种背景下生成与识别一致的图像。值得注意的是,整个模型只需要10分钟的训练时间,并且可以在推理过程中对无限的字符进行端到端的采样。

广泛的实验表明,在特征一致性和可编辑性方面,所提出的特征在字符创作上表现出优异的性能。此外,生成的字符可以无缝地与现成的图像/视频/3d扩散模型相结合。我们认为,提出的特征是一个重要的步骤,以一致性的特性生成。并能在推理过程中采样无限的字符端到端。

方法

(a)我们把嵌入名字的单词作为与身份一致的一代的基本事实,并训练一个由mps构建的GAN模型,以学习从1到SSB嵌入空间的映射。此外,与上下文一致的损失是为了确保生成的伪身份能够在各种上下文中显示一致性。 是为 (b)在培训中不涉及扩散模型的情况下,Ide-Gan可以端到端生成可以无缝插入扩散模型的嵌入物,以实现与识别一致的生成。

实验

创造新角色

用拟议的字符生成更符合标识的字符。

故事插图

所提出的特征可以用相同的特征来说明一个故事。

内插性质

我们在随机抽样之间进行线性插值" " and " ",并生成假身份嵌入。为了显示图像空间的平滑变化,我们通过图2(b)的管道将生成的嵌入插入到稳定的扩散中。第1行、第3行的实验是用相同的种子进行的,第2行、第4行使用随机种子。

形象和影像/视频/3D模型

更符合身份 图像/视频/3D 用控制器、模型2V和清梦器生成的结果。

结论

本文所提出的框架,可以以极低的训练开销和极快的推理速度,端到端地采样无限的新角色,在上下文中展现出良好的一致性和可编辑性,并可以与ControlNet、视频、3D等模型结合,做到即插即用,这项工作被认为是一致角色生成的重要一步。

  • 20
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值