📖标题:T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
🌐来源:arXiv, 2505.00703
🌟摘要
🔸大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提高性能。然而,将这种推理策略应用于视觉生成领域在很大程度上仍未得到探索。
🔸在本文中,我们提出了一种新的推理增强文本到图像生成模型T2I-R1,该模型由RL和双层CoT推理过程提供支持。具体来说,我们确定了两级 CoT,可用于增强生成的不同阶段:(1)用于提示的高级规划的语义级 CoT,以及(2)补丁生成期间用于低级像素处理的令牌级 CoT。为了更好地协调这两个级别的 CoT,我们引入了具有生成奖励集合 BiCoT-GRPO,它在同一训练步骤中无缝优化两个生成 CoT。
🔸通过将我们的推理策略应用于基线模型 Janus-Pro,我们在 T2I-CompBench 上实现了卓越的性能,在 WISE 基准上提高了 13%,甚至在 WISE 基准上提高了 19%,甚至超过了最先进的模型 FLUX.1。代码可在以下网址获得:https://github.com/CaraJ7/T2I-R1。
🛎️文章简介
🔸研究问题:如何将语义层次和标记层次的链式思维(CoT)结合起来,以提升文本到图像生成的质量与一致性?
🔸主要贡献:论文提出了T2I-R1模型,首次将语义级和标记级CoT整合在同一框架内,通过BiCoT-GRPO强化图像生成过程。
📝重点思路
🔸识别并定义了图像生成任务中的双层推理过程:语义级CoT负责高层次的图像规划,而标记级CoT则专注于逐步的像素生成。
🔸采用强化学习(RL)框架BiCoT-GRPO,同时优化这两种CoT,提升模型的推理能力。
🔸通过引入多样化的视觉专家集合作为奖励模型,评估生成图像的多个维度。
🔸模型的训练数据来源于T2I-CompBench和WISE,使用特定的奖励设计来引导生成过程。
🔎分析总结
🔸实验结果表明,T2I-R1在T2I-CompBench和WISE基准上分别提升了13%和19%,超越了现有的最优模型FLUX。
🔸语义级CoT在处理复杂场景时显著增强了模型的规划能力,提高了生成图像的质量和一致性。
🔸标记级CoT通过逐步生成图像,确保了视觉的连贯性,减少了图像生成中的伪影问题。
🔸结合两种CoT的优化策略使得生成的图像更符合用户的真实意图,增强了模型在处理不常见场景时的鲁棒性。
💡个人观点
论文系统地结合了语义级和标记级的推理过程,通过强化学习框架实现了更高质量的图像生成。这种双层次的推理方法不仅提高了生成的视觉效果,还使得模型能更好地理解和回应复杂的文本提示。
🧩附录