扩散模型(Diffusion model)已经在文本到图像的生成任务(text-to-image generation)中取得了很大的进展。他们利用文本编码器和交叉注意力模块,在像素级上向图像中注入纹理信息。但是生成图像的能力还需要提升。现有的一些方法存在一些问题:噪音图像会导致不同的对象看起来相似,交叉注意块在像素级别注入信息,导致全局对象理解的泄漏并导致对象混合。
因此,引入检测引导方法,整合一个潜在的目标检测模块,在生成过程中来分离不同的目标对象。具体来说,检测引导方法是在交叉注意图上进行潜在对象检测,进而获得目标对象信息。基于目标对象的信息,检测引导方法通过交叉注意力图,使得屏蔽冲突提示并增强相关提示。
交叉注意图:噪音数据的特征作为Key;纹理嵌入作为Query和Value。
潜在的目标检测:利用YOLO模型作为潜在的目标检测器,并在COCO数据集上进行训练。具体训练过程是:添加高斯噪音到图像中,并利用原始图像的标签信息作为提示;并把噪音图像+提示信息输入到预训练的扩散模型中。获取中间CAMs的输出结果,进而输入到潜在目标检测模型中。潜在目标检测模型可以根据对应的CAMs,推理学习出目标框和每个目标的置信分数。然后利用预测的目标框和真值目标框来计算损失函数,并更新潜在的目标检测模型。
在采样过程中,首先利用语言解析器(language parser)从提示中发现目标。然后基于对应的CAMs,产生每个目标的目标框,并分配不同的目标。为了做到这一点,首先利用非最大值抑制来消除多余的目标框....
CAM Correction:
利用几个连续步骤来矫正CAMs和一个策略来位置生成过程的连续性。
Boundary Correction,Conflict Elimination, Target Enhancement and Smooth Involvement..
生成图像对比图,左边的Stable diffusion2.1算法,右边的是Detection Guidance