港中文：强化学习和双层推理优化图像生成

最新推荐文章于 2025-05-11 23:27:05 发布

大模型任我行

最新推荐文章于 2025-05-11 23:27:05 发布

阅读量1k

点赞数 29

分类专栏：大模型-模型训练大模型-推理优化文章标签：人工智能自然语言处理语言模型论文笔记

本文链接：https://blog.csdn.net/weixin_46739757/article/details/147763578

版权

大模型-模型训练同时被 2 个专栏收录

270 篇文章

订阅专栏

大模型-推理优化

123 篇文章

订阅专栏

在这里插入图片描述

📖标题：T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
🌐来源：arXiv, 2505.00703

🌟摘要

🔸大型语言模型的最新进展已经证明了思维链 (CoT) 和强化学习 (RL) 如何提高性能。然而，将这种推理策略应用于视觉生成领域在很大程度上仍未得到探索。
🔸在本文中，我们提出了一种新的推理增强文本到图像生成模型T2I-R1，该模型由RL和双层CoT推理过程提供支持。具体来说，我们确定了两级 CoT，可用于增强生成的不同阶段：（1）用于提示的高级规划的语义级 CoT，以及（2）补丁生成期间用于低级像素处理的令牌级 CoT。为了更好地协调这两个级别的 CoT，我们引入了具有生成奖励集合 BiCoT-GRPO，它在同一训练步骤中无缝优化两个生成 CoT。
🔸通过将我们的推理策略应用于基线模型 Janus-Pro，我们在 T2I-CompBench 上实现了卓越的性能，在 WISE 基准上提高了 13%，甚至在 WISE 基准上提高了 19%，甚至超过了最先进的模型 FLUX.1。代码可在以下网址获得：https://github.com/CaraJ7/T2I-R1。

🛎️文章简介

🔸研究问题：如何将语义层次和标记层次的链式思维（CoT）结合起来，以提升文本到图像生成的质量与一致性？
🔸主要贡献：论文提出了T2I-R1模型，首次将语义级和标记级CoT整合在同一框架内，通过BiCoT-GRPO强化图像生成过程。

📝重点思路

🔸识别并定义了图像生成任务中的双层推理过程：语义级CoT负责高层次的图像规划，而标记级CoT则专注于逐步的像素生成。
🔸采用强化学习（RL）框架BiCoT-GRPO，同时优化这两种CoT，提升模型的推理能力。
🔸通过引入多样化的视觉专家集合作为奖励模型，评估生成图像的多个维度。
🔸模型的训练数据来源于T2I-CompBench和WISE，使用特定的奖励设计来引导生成过程。

🔎分析总结

🔸实验结果表明，T2I-R1在T2I-CompBench和WISE基准上分别提升了13%和19%，超越了现有的最优模型FLUX。
🔸语义级CoT在处理复杂场景时显著增强了模型的规划能力，提高了生成图像的质量和一致性。
🔸标记级CoT通过逐步生成图像，确保了视觉的连贯性，减少了图像生成中的伪影问题。
🔸结合两种CoT的优化策略使得生成的图像更符合用户的真实意图，增强了模型在处理不常见场景时的鲁棒性。