Paper reading：Detector Guidance for Multi-Object text-toimage generation_detector guidance for multi-object text-to-image g-CSDN博客

本文链接：https://blog.csdn.net/yihaizhiyan/article/details/131081110

文章介绍了扩散模型在文本到图像生成任务中的应用，指出现有方法存在的问题，如对象混淆和信息泄漏。为解决这些问题，提出了检测引导方法，结合潜在目标检测模块，通过YOLO模型在COCO数据集上训练，用以分离和增强不同目标对象。该方法利用高斯噪音和CAMs改进目标检测，并通过边界校正、冲突消除、目标增强和平滑参与等步骤优化生成过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

扩散模型（Diffusion model）已经在文本到图像的生成任务（text-to-image generation）中取得了很大的进展。他们利用文本编码器和交叉注意力模块，在像素级上向图像中注入纹理信息。但是生成图像的能力还需要提升。现有的一些方法存在一些问题：噪音图像会导致不同的对象看起来相似，交叉注意块在像素级别注入信息，导致全局对象理解的泄漏并导致对象混合。

因此，引入检测引导方法，整合一个潜在的目标检测模块，在生成过程中来分离不同的目标对象。具体来说，检测引导方法是在交叉注意图上进行潜在对象检测，进而获得目标对象信息。基于目标对象的信息，检测引导方法通过交叉注意力图，使得屏蔽冲突提示并增强相关提示。

交叉注意图：噪音数据的特征作为Key；纹理嵌入作为Query和Value。

潜在的目标检测：利用YOLO模型作为潜在的目标检测器，并在COCO数据集上进行训练。具体训练过程是：添加高斯噪音到图像中，并利用原始图像的标签信息作为提示；并把噪音图像+提示信息输入到预训练的扩散模型中。获取中间CAMs的输出结果，进而输入到潜在目标检测模型中。潜在目标检测模型可以根据对应的CAMs，推理学习出目标框和每个目标的置信分数。然后利用预测的目标框和真值目标框来计算损失函数，并更新潜在的目标检测模型。

在采样过程中，首先利用语言解析器(language parser)从提示中发现目标。然后基于对应的CAMs，产生每个目标的目标框，并分配不同的目标。为了做到这一点，首先利用非最大值抑制来消除多余的目标框....

CAM Correction:

利用几个连续步骤来矫正CAMs和一个策略来位置生成过程的连续性。

Boundary Correction，Conflict Elimination, Target Enhancement and Smooth Involvement..