Paper reading:Detector Guidance for Multi-Object text-toimage generation

文章介绍了扩散模型在文本到图像生成任务中的应用,指出现有方法存在的问题,如对象混淆和信息泄漏。为解决这些问题,提出了检测引导方法,结合潜在目标检测模块,通过YOLO模型在COCO数据集上训练,用以分离和增强不同目标对象。该方法利用高斯噪音和CAMs改进目标检测,并通过边界校正、冲突消除、目标增强和平滑参与等步骤优化生成过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

扩散模型(Diffusion model)已经在文本到图像的生成任务(text-to-image generation)中取得了很大的进展。他们利用文本编码器和交叉注意力模块,在像素级上向图像中注入纹理信息。但是生成图像的能力还需要提升。现有的一些方法存在一些问题:噪音图像会导致不同的对象看起来相似,交叉注意块在像素级别注入信息,导致全局对象理解的泄漏并导致对象混合。

因此,引入检测引导方法,整合一个潜在的目标检测模块,在生成过程中来分离不同的目标对象。具体来说,检测引导方法是在交叉注意图上进行潜在对象检测,进而获得目标对象信息。基于目标对象的信息,检测引导方法通过交叉注意力图,使得屏蔽冲突提示并增强相关提示。

交叉注意图:噪音数据的特征作为Key;纹理嵌入作为Query和Value。

潜在的目标检测:利用YOLO模型作为潜在的目标检测器,并在COCO数据集上进行训练。具体训练过程是:添加高斯噪音到图像中,并利用原始图像的标签信息作为提示;并把噪音图像+提示信息输入到预训练的扩散模型中。获取中间CAMs的输出结果,进而输入到潜在目标检测模型中。潜在目标检测模型可以根据对应的CAMs,推理学习出目标框和每个目标的置信分数。然后利用预测的目标框和真值目标框来计算损失函数,并更新潜在的目标检测模型。

在采样过程中,首先利用语言解析器(language parser)从提示中发现目标。然后基于对应的CAMs,产生每个目标的目标框,并分配不同的目标。为了做到这一点,首先利用非最大值抑制来消除多余的目标框....

CAM Correction:

利用几个连续步骤来矫正CAMs和一个策略来位置生成过程的连续性。

Boundary Correction,Conflict Elimination, Target Enhancement and Smooth Involvement..

生成图像对比图,左边的Stable diffusion2.1算法,右边的是Detection Guidance

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值