2022年10月17日,谷歌的Bahjat Kawar等人发表文章介绍了一个用文字编辑图片的神器:Imagic,可根据输入的文字内容编辑图片,首次实现用文字驱动对单张真实图像的复杂编辑。
arXiv原文链接:https://arxiv.org/abs/2210.09276
1、Imagic介绍
根据文字内容自动编辑图片,用途广泛且很有意思。当前主流方法局限于特定的编辑类型,如物体叠放、风格迁移,或者用于合成图片,或者需要多张输入图像。Imagic首次实现用文字驱动对单张真实图像的复杂编辑。你仅需提供一张清晰图片,Imagic就可以让图里的小狗坐下或者跳跃,让小鸟张开翅膀。Imagic使用的是文图扩散模型(text-to-image diffusion model)。该模型生成与输入图像和目标文本对齐的文本嵌入,同时微调扩散模型以捕获特定图像的外观。
2、Imagic编辑图片的效果
输入左图后使用Imagic根据文字内容改变成右图:
输入一张小狗的图片后用Imagic根据文字内容改变小狗的动作/叼的东西:
输入一个人的图片后用Imagic根据文字内容改变人的动作:
输入一只猫的图片后用Imagic根据文字内容添加猫的装饰物/改变猫的表情:
输入一屁马的图片后用Imagic根据文字内容改变马的类型/风格:
输入一个蛋糕的图片后用Imagic根据文字内容改变蛋糕的类型:
Imagic利用概率模型能够生成符合文字描述的不同图像:
更多类型的图片编辑:
3、Imagic的原理
给定真实图像和目标文本提示,Imagic首先对目标文本进行编码并得到初始文本嵌入,其次对其进行优化以重构输入图像,然后微调生成模型以提高对输入图像的保真度,最后进行插值以生成编辑结果。原理图如下: