LaVi-Bridge:跨语言和生成视觉模型的桥梁,文本到图像生成新框架

人工智能咨询培训老师叶梓 转载标明出处

传统的文本到图像生成模型通常由语言模型和视觉模型两部分组成。语言模型负责解析用户的文本提示,而视觉模型则根据解析出的上下文生成相应的图像。然而,随着各自领域模型的快速发展,如何将这些先进的模型有效整合进现有的文本到图像生成框架中,成为了一个挑战。由香港大学、香港中文大学和香港科技大学的研究人员联合提出的新方法——LaVi-Bridge,正是为了解决这一问题而设计的。

在图1LaVi-Bridge的概览中,图左侧,研究者保持视觉模型固定,尝试了不同的语言模型;而在图右侧,保持语言模型固定,尝试了不同的视觉模型。对于每种组合,都展示了相应的可视化结果。这表明LaVi-Bridge具备高度的灵活性和通用性,能够适应各种模型结构,实现文本到图像的生成。

方法

LaVi-Bridge是一个灵活的框架,它允许将不同的预训练语言模型和生成视觉模型整合在一起,以实现文本到图像的生成。该框架利用LoRA(Low-rank Adaptation)和适配器(adapter),无需修改原始模型的权重,提供了一种即插即用的方法。LaVi-Bridge与各种语言模型和生成视觉模型兼容,适应不同的结构。

LaVi-Bridge框架建立在扩散模型的基础上,这是一种用于图像生成的模型。扩散模型包含两个关键阶段:正向过程和逆向过程。在正向过程中,逐步向自然图像中添加高斯噪声,直至图像完全转化为噪声。逆向过程则是一个去噪过程,通过一系列时间步骤逐渐消除噪声,恢复出自然图像。在逆向过程中,使用可训练的视觉模型来预测和去除噪声,从而从高斯噪声中恢复出自然图像。

在文本到图像的扩散模型中,每个时间步骤包含两个组件:语言模型f和视觉模型g。语言模型将用户输入的文本y转换为嵌入表示,捕获文本的语义含义。而视觉模型,即前述的去噪模型,编码图像特征z,从输入图像中提取相关的视觉信息。文本嵌入和图像特征之间的交互通过交叉注意力层实现,具体公式如下:

其中,是投影矩阵。

LaVi-Bridge的工作流程如图2所示。首先从语言模型池和视觉模型池中各选择一个预训练模型。接着将这些模型的权重固定,不对其进行修改,而是引入LoRA技术为两种模型注入可训练参数。通过适配器(adapter)建立语言模型和视觉模型之间的连接,适配器由多层前馈网络构成。在这个过程中,唯一需要训练的权重是由LoRA和适配器引入的,这大大减少了训练成本并保持了原有模型结构的稳定性。

LaVi-Bridge能够整合任意两个预训练的语言模型和生成视觉模型,即使这些模型之前是分开训练的。这里,语言模型表示为f,视觉模型表示为g。由于f和g是独立训练的,直接交互文本信息和图像信息可能导致无意义的模型输出。为了在它们之间建立联系,LaVi-Bridge保持预训练的语言和视觉模型固定,并利用LoRA向两者分别引入可训练参数Δθ。这样,带有LoRA的语言和视觉模型可以表示为,其中分别是f和g的原始参数。另外引入了一个适配器作为语言模型和视觉模型之间的桥梁,以促进更好的对齐。适配器由多层前馈网络构成,表示为ℎ。因此,交叉注意力层可以表示为:

现在只需要在相对较少的文本-图像对上训练和ℎ。训练完成后,语言和生成视觉模型可以有效地协作生成有意义的图像。LaVi-Bridge非常直接,LoRA和适配器是其关键且不可或缺的组成部分。

LaVi-Bridge旨在适应包括编码器仅、编码器-解码器、解码器仅在内的多种语言模型结构,以及像U-Net和ViT这样的生成视觉模型结构。在语言模型中,研究者在所有注意力层的线性层注入LoRA。同样,在基于Transformer的视觉模型中,LoRA被注入到所有注意力层的线性层中。在基于U-Net的视觉模型中,LoRA被注入到ResBlocks、注意力层和交叉注意力层的所有线性层和卷积层中。

为了解决语言模型输出的嵌入维度与视觉模型处理的维度之间的维度差异问题,研究者为适配器采用了两个前馈层。适配器的输入维度与语言模型的输出文本嵌入维度相匹配,而输出维度与视觉模型的交叉注意力接收的维度一致。

在训练过程中,首先选择要整合的语言和生成视觉模型。保持它们的原始权重固定,并按照上述设计在文本-图像对上训练LoRA和适配器。训练后的LoRA和适配器的参数数量比原始模型权重少,这使得LaVi-Bridge非常灵活。

实验

训练数据集由总共100万文本-图像对组成,包括约60万对来自COCO2017训练集的文本-图像对和40万对来自内部数据集的高质量图像和标题。对于每种设置,LoRA的秩被设置为32,图像分辨率为512×512,批量大小为256。使用了AdamW优化器,学习率为1×10−41×10−4,并训练了总共50k步。在推理过程中,采用了DDIM采样器进行采样,时间步数设置为50,分类器自由引导比例设置为7.5。

研究者对短提示、长提示和组合提示进行了定量评估。如下:

  1. 对于短提示,使用COCO2014验证集进行评估。随机抽取了3万张图像,并在此子集中测试图像质量和文本对齐。使用FID和美学得分作为评估图像质量的指标,使用CLIP得分评估文本对齐。
  2. 对于长提示,使用了同样的3万子集,并利用Llama-2生成扩展标题,长度在20到70个词之间,构建了3万长提示的数据集。由于标题扩展过程不涉及参考图像的内容,因此仅使用美学得分评估图像质量,CLIP得分评估文本对齐。
  3. 对于组合提示,使用了Compbench提出的基准。组合提示主要用于测试模型对文本属性的理解,例如生成正确的对象属性(如颜色和形状)以及对象之间准确的位置关系。

研究者评估了LaVi-Bridge在不同语言模型下的性能。将视觉模型固定为Stable Diffusion V1.4的U-Net,并在LaVi-Bridge下与不同的语言模型集成。考虑了基于编码器仅框架的CLIP文本编码器、基于编码器-解码器框架的T5系列(T5-Small、T5-Base、T5-Large)和基于解码器仅框架的Llama-2-7B。

图3展示了使用不同语言模型的LaVi-Bridge的可视化结果。从图3中可以观察到,所有这些语言模型都可以有效地与Stable Diffusion V1.4的U-Net集成,并生成有意义的结果,如图中的猫和客厅的案例所示。这表明LaVi-Bridge对不同语言模型具有很好的泛化能力。此外,当提供的提示包含更复杂的语义时,不同模型结构的性能会有所不同。研究发现,对应于Llama-2的文本到图像扩散模型能够完美地描述语义信息。例如,在第三列中,Llama-2生成的结果有效地将女性融入了破碎的瓷器海洋中。在第四列中,它正确理解并生成了纸艺中的少女和猫。在第七列中,它甚至使用纱线描绘了整个海滩场景。这些例子超越了带有CLIP和T5的模型的能力。另外T5-Large和Llama-2在生成钢铁侠案例中的食物和酒方面表现准确,在最后一列中,它们成功地生成了“眼睛为深黄色和翡翠色的古老石头”。带有CLIP文本编码器、T5-Small和T5-Base的模型无法准确捕捉这些案例。

表1提供了定量评估,从表1中可以观察到,Llama-2在所有用于评估文本对齐能力的指标中都取得了最佳结果,无论是在短提示、长提示还是组合提示的设置下。此外,Llama-2在大多数评估图像质量的指标上也表现最佳。另一方面,随着模型容量的增加,通常情况下T5-Large的表现优于T5-Base,T5-Base优于T5-Small在自然语言处理领域。这一结论也适用于LaVi-Bridge。在表1中用于评估文本对齐能力的所有指标中,T5-Large优于T5-Base,T5-Base优于T5-Small。这说明将更好的语言模型整合到文本到图像扩散模型中,可以提高LaVi-Bridge下的性能。

研究者还进行了用户研究,评估了不同语言和视觉模型组合的图像质量和文本对齐。用户根据这些评估标准对生成的图像进行排名。排名最后的图像得分为1,倒数第二的得分为2,依此类推。然后计算每个模型的得分百分比。选择了20个提示,共有30名用户参与测试。

用户研究的结果如图5左侧的两个圆形图所示。使用Llama-2的模型在图像质量和文本对齐方面表现最佳,特别是在文本对齐方面有明显优势。与其他模型相比,CLIP和T5-Small在图像质量和文本对齐方面的性能明显较差。Stable Diffusion中的U-Net总体上优于Latent Diffusion Model中的U-Net。

研究者还评估了LaVi-Bridge在不同视觉模型下的性能。将语言模型固定为T5-Large,并在LaVi-Bridge下与不同的生成视觉模型集成。考虑了在Latent Diffusion Model和Stable Diffusion V1.4中训练良好的UNets,以及PixArt中的Vision Transformer,共三种模型。

图4展示了在不同生成视觉模型下LaVi-Bridge的可视化结果。从图4中可以看到,这三种视觉模型都能与T5-Large很好地集成,并根据给定的文本提示生成相对准确的图像。从这些案例中,可以观察到基于PixArt的Transformer模型生成的图像比其他两种基于U-Net的模型生成的图像具有更丰富的细节。例如,第一列中的森林、第三列中的海盗船船体以及第六列中山脚下的灌木丛都非常精致和逼真。此外,还可以观察到,基于Stable Diffusion V1.4的U-Net生成的图像在特征细节上比基于Latent Diffusion Model的U-Net生成的图像更详细。另外对于基于PixArt的模型,文本对齐在某些情况下更好。例如,在第五列的图像中,只有基于PixArt的Transformer模型生成了提示中提到的“旧汽车”。同样,在第七列中,手持剑和盾牌的花园战士与提示描述高度一致。

从表2中可以观察到,对于所有衡量图像质量的指标,使用PixArt视觉模型的LaVi-Bridge取得了最佳结果。另外PixArt在短提示和长提示的文本对齐方面也取得了最佳结果。这反映了使用PixArt的Transformer作为视觉模型在一定程度上也可以提高模型对语义的理解。同样值得注意的是,Stable Diffusion中的U-Net是Latent Diffusion Model中使用的U-Net的增强版本,在LaVi-Bridge下的所有衡量图像质量的指标上仍然优于Latent Diffusion Model的U-Net。

研究者还进行了消融实验,以探究LaVi-Bridge训练框架对原始预训练文本到图像扩散模型的影响,以及LoRA和适配器在LaVi-Bridge中的作用。

LaVi-Bridge训练的影响:研究者考虑了Stable Diffusion V1.4,它采用CLIP文本编码器作为语言模型,U-Net作为视觉模型。在LaVi-Bridge框架下,将LoRA和适配器应用于与Stable Diffusion V1.4结构和权重相同的模型,并与原始模型进行了性能比较。图6的前两行展示了可视化结果,表3左两列提供了定量评估结果。研究发现,在文本对齐方面没有显著差异,但图像质量方面,如果使用相同的模型和权重,LaVi-Bridge训练可能导致性能下降。

LoRA和适配器的作用:研究者使用T5-Large作为语言模型,Stable Diffusion V1.4的U-Net作为视觉模型,探究了LoRA和适配器的作用。在没有LoRA的情况下,仅训练适配器;在适配器实验中,使用单一线性层代替包含非线性激活层的多层前馈网络来调整语言模型和视觉模型之间的维度不匹配。图6底部三行展示了可视化结果,表3右三列提供了定量评估结果。研究发现,没有LoRA和适配器时,图像质量和文本对齐都受到显著影响。例如,在“健身公牛”案例中,没有LoRA或适配器,模型无法理解并整合这两个不太相关的元素,导致图像质量明显低于原始设置。

这项研究不仅推动了文本到图像生成技术的发展,也为未来在这一领域的研究提供了新的思路和工具。LaVi-Bridge的代码已经在GitHub上公开,项目地址:https://shihaozhaozsh.github.io/LaVi-Bridge/

论文链接:https://arxiv.org/abs/2403.07860

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值