IP-Adapter Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

最新推荐文章于 2025-04-25 21:06:48 发布

Adenialzz

最新推荐文章于 2025-04-25 21:06:48 发布

阅读量710

点赞数 8

文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_44966641/article/details/136692647

版权

文章介绍了一种名为IP-Adapter的方法，通过在文生图模型中添加解耦的图像prompt处理，提高模型的可控性。该方法将文本和图像特征的交叉注意力分开，通过训练图文对数据集实现图像信息的融入。效果展示显示了结合图像prompt后的结构和细节控制能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

TL; DR：提出通过解耦交叉注意力模块来图片作为生图条件，加入到单纯的文生图模型中。所谓解耦，其实就是除了文本 prompt 交叉注意力之外，加了一个图像 prompt 交叉注意力，两个支路是分开的，而非之前的拼接或者相加。

导语

现在的生图模型大都以文本作为条件。俗话说：”一图胜千言“，一张图像中包含着极其丰富的信息，如果能将图像信息作为条件，生图模型的可控性有将得到巨大的提升。本文提出 IP-Adapter，为预训练的文生图扩散模型提供 image prompt 的能力。IP-Adapter 设计的核心是解耦的交叉注意力机制，将文本特征和图像特征的交叉注意力层分开来，

方法

IP-Adapter 的结构非常清晰，就是加了一支和文本 prompt 条件结构完全相同的图像 prompt 处理之路，同样是 encoder + linear + cross attention 到 UNet 中。其中只有 linear 和 cross attention 是可训练的。

仅有文本 prompt 的交叉注意力：
$Z=\text{softmax}(\frac{Q\cdot K_\text{text}}{V_\text{text}})$
加入 IP-Adapter 图像 prompt 之后：
$Z_\text{new}=\text{softmax}(\frac{Q\cdot K_\text{text}}{\sqrt{d}})V_\text{text}+\lambda\cdot\text{softmax}(\frac{Q\cdot K_\text{image}}{\sqrt{d}})V_\text{image}$
其中 $Q$ 是 query，来自 UNet，两者是共享的，而 $K$ 和 $V$ 则是各自不同的。