用文字编辑图片的神器-Imagic

2022年10月17日,谷歌的Bahjat Kawar等人发表文章介绍了一个用文字编辑图片的神器:Imagic,可根据输入的文字内容编辑图片,首次实现用文字驱动对单张真实图像的复杂编辑

arXiv原文链接:https://arxiv.org/abs/2210.09276

1Imagic介绍

根据文字内容自动编辑图片,用途广泛且很有意思。当前主流方法局限于特定的编辑类型,如物体叠放、风格迁移,或者用于合成图片,或者需要多张输入图像。Imagic首次实现用文字驱动对单张真实图像的复杂编辑。你仅需提供一张清晰图片,Imagic就可以让图里的小狗坐下或者跳跃,让小鸟张开翅膀。Imagic使用的是文图扩散模型(text-to-image diffusion model)。该模型生成与输入图像和目标文本对齐的文本嵌入,同时微调扩散模型以捕获特定图像的外观。

2Imagic编辑图片的效果

输入左图后使用Imagic根据文字内容改变成右图:

输入一张小狗的图片后用Imagic根据文字内容改变小狗的动作/叼的东西:

输入一个人的图片后用Imagic根据文字内容改变人的动作:

 输入一只猫的图片后用Imagic根据文字内容添加猫的装饰物/改变猫的表情:

 输入一屁马的图片后用Imagic根据文字内容改变马的类型/风格:

输入一个蛋糕的图片后用Imagic根据文字内容改变蛋糕的类型:

Imagic利用概率模型能够生成符合文字描述的不同图像:

更多类型的图片编辑:

3、Imagic的原理

给定真实图像和目标文本提示,Imagic首先对目标文本进行编码并得到初始文本嵌入,其次对其进行优化以重构输入图像,然后微调生成模型以提高对输入图像的保真度,最后进行插值以生成编辑结果。原理图如下:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值