An Image is Worth One Word Personalizing Text-to-Image Generation using Textual Inversion

TextualInversion是一种利用少量目标概念图片(3-5张)和新增的伪词向量,通过训练文本生成图像,实现对特定概念的高保真度生成。这种方法具有低成本且易于训练的特点,是扩散模型时代早期的重要定制化生成技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Textual Inversion: An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

TL; DR:Textual Inversion 在给定的 3-5 张目标 concept 数据上,新增并学习一个 pseudo word 的 embedding,然后生图时通过在 prompt 中加入 pseudo word 来触发目标 concept 的生成。


导语

在扩散模型大火之后,文本条件控制生图模型也相继出现。但是,对于生活中很多特定的概念,比如我家的猫,很难用文本详尽地描述其特征。如何实现特定概念的定制化生成,是一个很有意义的研究方向。Texutal Inversion 是这方面早期比较优秀的工作。仅需 3-5 张目标概念的图片,通过新增并学习一个文本 pseudo word 的 embedding,生图时通过 pseudo word 触发生成目标概念,训练成本与模型保存成本极低。

下面是 textual Inversion 的一些定制生成结果,可以看到,对目标概念的保真度还是很高的,并且搭配其他 prompt,迁移到其他风格上时,也有合理的生成结果。

在这里插入图片描述

方法

文生图框架(如 Stable Diffusion)的文本编码器一般是一个类 BERT 的模型,该类模型首先对输入文本字符串进行 tokenize,得到一系列整数,然后根据这些整数去 embedding 层中查表得到对应的特征向量,然后将这个特征向量序列送入到 Transformer 模型中进行处理,最终得到一个特征向量。该特征向量通过交叉注意力等方式注入到生图模型中,实现文本控制生图。

Textual Inversion 首先构造文本 prompt 与目标概念的图片集(3-5 张)组成训练图文对数据,然后在词表中新增一个 pseudo word S ∗ S_* S ,新增并学习其 embedding v ∗ v_* v 。训练完成后,通过 pseudo word 触发目标概念的生成。训练目标与 LDM 一致:
v ∗ = arg ⁡ min ⁡ v E z ∼ E ( x ) , y , ϵ ∼ N ( 0 , I ) , t [ ∣ ∣ ϵ − ϵ θ ( z t , t , c θ ( y ) ) ∣ ∣ 2 2 ] v_*=\mathop{\arg\min}_{v}\mathbb{E}_{z\sim\mathcal{E}(x),y,\epsilon\sim\mathcal{N}(0,\mathbf{I}),t}[||\epsilon-\epsilon_\theta(z_t,t,c_\theta(y))||_2^2] v=argminvEzE(x),y,ϵN(0,I),t[∣∣ϵϵθ(zt,t,cθ(y))22]
但是所有模型的参数都是固定的,可学习的参数只有 embedding 向量 v v v 。作者认为由于本身是个重构任务,所以期望可以学习到目标概念的独特的细节。注意 pseudo word 的 embedding 初始化不要用随机初始化,而是可以选择一个与目标概念接近的词的 embedding 作为初始化,比如上面图中展示的两个概念就可以用 sculpture 和 cat 的词 embedding 进行初始化。

在这里插入图片描述

总结

Textual Inversion 应该可以说是扩散模型时代最早的定制化概念生成的方法,效果不错,而且训练成本和模型保存成本极低。是一片很有意义的工作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值