IP-Adapter：用于文本到图像扩散模型的文本兼容图像提示适配器

最新推荐文章于 2024-07-30 18:36:42 发布

丁希希哇

最新推荐文章于 2024-07-30 18:36:42 发布

阅读量5.7k

点赞数 30

分类专栏： AIGC阅读学习文章标签：计算机视觉 AIGC 算法人工智能

本文链接：https://blog.csdn.net/weixin_47748259/article/details/135563134

版权

39 篇文章

订阅专栏

IP-Adapter是一种用于增强图像生成能力的工具，通过解耦的交叉注意力机制，与传统img2img方法进行结构、流程和输出的区分。文章详细阐述了其网络架构，包括图像编码器和解耦交叉注意力模块，以及训练和推理过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、IP-Adapter简介

现在给出prompt要求在图1一个男人的基础上加上参考图2：
在这里插入图片描述

stable diffustion是扩散模型，它的核心作用机制就是对噪音的处理，prompt可以看做是我们的目标，通过不断的去噪过程，向着目标越来越靠近，最终生成出预期的图片。
IP-Adapter将图片单独提出作为一种提示特征，相比SD模型把图像特征和文本特征抽取后拼接在一起的方法，IP-Adapter通过带有解耦交叉注意力的适配模块，将文本特征的Cross-Attention 和图像特征的Cross-Attention区分开来，在Unet的模块中新增了一路Cross-Attention模块，用于引入图像特征。
img2img是直接将参考图传入unet，去替换了原始的随机噪音，这样所有的生成结果都是建立在它的基础上，于是有了前面人和老虎混杂的现象就比较好理解了。

当前adapter很难达到微调图像提示模型或从头训练的模型性能，主要原因是图像特征无法有效的嵌入预训练模型中。大多数方法只是将拼接的特征输入到冻结的cross-attention中，阻止了扩散模型捕捉图像图像提示的细粒度特征。
为了解决这个问题，我们提出了一种解耦交叉注意力策略，即通过新添加的交叉注意力层嵌入图像特征。提议的IP-adapter包含两个部分：
- 图像编码器用于从图像提示中提取图像特征；
- 具有解耦的cross-attention的适配模块，用于将图像特征嵌入预训练的文本到图像扩散模型中。

图像特征由具有解耦交叉注意力的适配模块集成到预训练的UNet模型中。
在这里插入图片描述把文本特征和图像特征分开cross-attention再相加，之前的想法大多数先将图像特征和文本特征拼接后再cross。

在训练过程中，我们只对 IP 适配器进行优化，同时保持预训练扩散模型的参数不变，训练目标与原始 SD 相同：
我们还在训练阶段随机放弃图像条件，以便在推理阶段实现无分类器指导：
如果丢弃了图像条件，可以将clip图像embedding归0。由于文本cross-attention和图像cross-attention是分离的，在推理阶段还可以调整图像条件的权重：