用文字编辑图片的神器-Imagic

最新推荐文章于 2024-08-22 18:32:43 发布

马克er

最新推荐文章于 2024-08-22 18:32:43 发布

阅读量954

点赞数 1

文章标签：计算机视觉人工智能图像处理

原文链接：https://arxiv.org/abs/2210.09276

版权

2022年10月17日，谷歌的Bahjat Kawar等人发表文章介绍了一个用文字编辑图片的神器：Imagic，可根据输入的文字内容编辑图片，首次实现用文字驱动对单张真实图像的复杂编辑。

arXiv原文链接：https://arxiv.org/abs/2210.09276

1、Imagic介绍

根据文字内容自动编辑图片，用途广泛且很有意思。当前主流方法局限于特定的编辑类型，如物体叠放、风格迁移，或者用于合成图片，或者需要多张输入图像。Imagic首次实现用文字驱动对单张真实图像的复杂编辑。你仅需提供一张清晰图片，Imagic就可以让图里的小狗坐下或者跳跃，让小鸟张开翅膀。Imagic使用的是文图扩散模型（text-to-image diffusion model）。该模型生成与输入图像和目标文本对齐的文本嵌入，同时微调扩散模型以捕获特定图像的外观。

2、Imagic编辑图片的效果

输入左图后使用Imagic根据文字内容改变成右图：

输入一张小狗的图片后用Imagic根据文字内容改变小狗的动作/叼的东西：

输入一个人的图片后用Imagic根据文字内容改变人的动作：

输入一只猫的图片后用Imagic根据文字内容添加猫的装饰物/改变猫的表情：

输入一屁马的图片后用Imagic根据文字内容改变马的类型/风格：

输入一个蛋糕的图片后用Imagic根据文字内容改变蛋糕的类型：

Imagic利用概率模型能够生成符合文字描述的不同图像：

更多类型的图片编辑：

3、Imagic的原理

给定真实图像和目标文本提示，Imagic首先对目标文本进行编码并得到初始文本嵌入，其次对其进行优化以重构输入图像，然后微调生成模型以提高对输入图像的保真度，最后进行插值以生成编辑结果。原理图如下：

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用文字编辑图片的神器-Imagic

2022年10月17日，谷歌的Bahjat Kawar等人公开了一个用文字编辑图片的神器：Imagic，首次实现用文字驱动对单张真实图像的复杂编辑。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。