23年12月,加州大学圣地亚哥、谷歌研究院、南加州大学、剑桥大学联合发布Rich Human Feedback for Text-to-Image Generation论文。
作者受大模型中RLHF技术的启发,用人类反馈来改进Stable Diffusion等文生图模型,提出了先进的RichHF-18K数据集和多模态RAHF模型。这项技术旨在通过引入更为丰富和多样化的人类反馈,来提升文本到图像生成的质量和准确性。通过收集并整合来自不同领域专家的反馈,模型能够更准确地理解文本描述的意图,并生成与之更加匹配、细节更丰富的图像。
Abstract
最近的文本到图像 T2I 生成模型,例如稳定扩散和 Imagen,在基于文本描述生成高分辨率图像方面取得了重大进展。然而,许多生成的图像仍然存在伪影/不合理性、文本描述错位和审美质量等问题。受具有人类反馈 (RLHF) 的强化学习对大型语言模型的成功启发,先前的工作收集了人类提供的分数作为对生成图像的反馈,并训练了一个奖励模型来改进 T2I 生成。在本文中,我们通过 (i) )标记不可信或与文本没对齐的图像区域,以及 (ii) 标注文本提示中哪些单词在图像中被歪曲或丢失。我们在 RichHF18K 数据集上收集了丰富的人类反馈,训练多模态Transformer来自动预测如此丰富的反馈。实验表明,预测的丰富的人类反馈可用于改进图像生成,例如,通过高质量训练数据来微调和改进生成模型,或者通过创建带有预测热图的掩码来修复有问题的区域。值得注意的是,除了用于生成人类反馈数据的图像之外,这些改进还可以泛化推广到Muse模型(Stable Diffusion 变体)。
1. Introduction
文本到图像 (T2I) 生成模型正在迅速成为各个领域内容创建的关键,包括娱乐、艺术、设计和广告,也可以推广到图像编辑、视