论文: https://arxiv.org/abs/2308.06721
项目:https://huggingface.co/h94/IP-Adapter-FaceID
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
文章目录
摘要
近年来,大型文本到图像扩散模型的强大能力在创造高保真图像方面取得了令人印象深刻的成果。然而,仅使用文本提示来生成所需图像是非常棘手的,因为这通常涉及复杂的提示工程。文本提示的一个替代方案是图像提示,正如俗话所说:“一幅图胜过千言万语”。尽管现有的直接从预训练模型进行微调的方法有效,但它们需要大量的计算资源,并且与其他基础模型、文本提示和结构控制不兼容。在本文中,我们提出了IP-Adapter,这是一种有效且轻量级的适配器,用于实现预训练文本到图像扩散模型的图像提示能力。我们IP-Adapter的关键设计是解耦的交叉注意力机制,它将文本特征和图像特征的交叉注意力层分离。尽管我们的方法很简单,但仅有2200万参数的IP-Adapter可以