【扩散模型（二）】IP-Adapter 从条件分支的视角，快速理解相关的可控生成研究

最新推荐文章于 2025-04-16 22:03:19 发布

多恩Stone

最新推荐文章于 2025-04-16 22:03:19 发布

阅读量1.9k

点赞数 34

分类专栏： AIGC 科研 Diffusion 文章标签：计算机视觉人工智能 aigc python transformers

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44212848/article/details/139955105

版权

AIGC 同时被 3 个专栏收录

92 篇文章

订阅专栏

55 篇文章

订阅专栏

43 篇文章

订阅专栏

系列文章目录

【扩散模型（一）】中介绍了 Stable Diffusion 可以被理解为重建分支（reconstruction branch）和条件分支（condition branch）
本文将从该视角快速理解 IP-Adapter 以及相关可控生成研究。

文章目录

系列文章目录
前言
一、IP-Adapter
二、InstantID
三、MimicBrush
总结

前言

上一篇文章提到可以从两个分支来看 Stable Diffusion ¹，其中：

重建分支（reconstruction）负责从噪声中逐步重建出清晰的图像。
条件分支（condition）则引入额外的信息或条件，指导图像的生成过程，使得生成结果符合特定的要求。

在这里插入图片描述
从该视角，可以快速地理解基于 SD 的类似可控生成模型，重点都是在修改 condition 分支的部分，通过修改 corss-attention 中的 QKV 来更好地引入控制条件。

一、IP-Adapter

在这里插入图片描述
IP-Adapter ² 则可以看为很好地引入了图像 condition 来引导去噪过程，其核心部分是有效地将图像与文字条件信息通过 Decouple Cross-Attention 来注入 U-Net。

二、InstantID

在这里插入图片描述
InstantID³ 在 IP-Adapter 的基础上（condition1 从一般的 image encoder 换成了针对 face 的 encoder），多训练了一个 U-Net 的一半（即 ControlNet），并在其中加入了人脸的 landmark 来很好地约束 FaceID 信息，提升了生成时的人脸可控性。

三、MimicBrush

在这里插入图片描述
MimicBrush ⁴ 类似 InstantID，增加了一个 Reference Un-Net 作为条件分支来引入控制条件，而 MimicBrush 与 IP-Adapter、InstantID 的不同点在于：

MimicBrush 的重建分支中，是从图像输入（Source Image）来进行重建，即先加噪、再去噪的。
而 IP-Adapter、InstantID 的重建分支中，是直接输入 noise 随机噪声，通过 U-Net 对其进行去噪声的。

总结

有了以上多篇论文架构图的例子，应该能很快识别各种基于 IP-Adapter 的可控生成工作啦！🎉

High-Resolution Image Synthesis with Latent Diffusion Models ↩︎
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models ↩︎
InstantID: Zero-shot Identity-Preserving Generation in Seconds ↩︎
Zero-shot Image Editing with Reference Imitation ↩︎

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。