51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation

深圳季连AIgraphX

已于 2024-07-10 08:09:02 修改

阅读量1k

点赞数 32

分类专栏： aiXpilot 智驾大模型文章标签： AIGC stable diffusion 人工智能自动驾驶智慧城市

于 2024-06-26 10:45:07 首次发布

本文链接：https://blog.csdn.net/weixin_45035094/article/details/139900691

版权

aiXpilot 智驾大模型专栏收录该内容

57 篇文章 33 订阅 ¥89.90 ¥99.00

订阅专栏

超级会员免费看

23年12月，加州大学圣地亚哥、谷歌研究院、南加州大学、剑桥大学联合发布Rich Human Feedback for Text-to-Image Generation论文。

作者受大模型中RLHF技术的启发，用人类反馈来改进Stable Diffusion等文生图模型，提出了先进的RichHF-18K数据集和多模态RAHF模型。这项技术旨在通过引入更为丰富和多样化的人类反馈，来提升文本到图像生成的质量和准确性。通过收集并整合来自不同领域专家的反馈，模型能够更准确地理解文本描述的意图，并生成与之更加匹配、细节更丰富的图像。

Abstract

最近的文本到图像 T2I 生成模型，例如稳定扩散和 Imagen，在基于文本描述生成高分辨率图像方面取得了重大进展。然而，许多生成的图像仍然存在伪影/不合理性、文本描述错位和审美质量等问题。受具有人类反馈 (RLHF) 的强化学习对大型语言模型的成功启发，先前的工作收集了人类提供的分数作为对生成图像的反馈，并训练了一个奖励模型来改进 T2I 生成。在本文中，我们通过 (i) )标记不可信或与文本没对齐的图像区域，以及 (ii) 标注文本提示中哪些单词在图像中被歪曲或丢失。我们在 RichHF18K 数据集上收集了丰富的人类反馈，训练多模态Transformer来自动预测如此丰富的反馈。实验表明，预测的丰富的人类反馈可用于改进图像生成，例如，通过高质量训练数据来微调和改进生成模型，或者通过创建带有预测热图的掩码来修复有问题的区域。值得注意的是，除了用于生成人类反馈数据的图像之外，这些改进还可以泛化推广到Muse模型（Stable Diffusion 变体）。

1. Introduction

文本到图像 (T2I) 生成模型正在迅速成为各个领域内容创建的关键，包括娱乐、艺术、设计和广告，也可以推广到图像编辑、视

了解本专栏

超级会员免费看

深圳季连AIgraphX

关注

32
点赞
踩
30

收藏

觉得还不错? 一键收藏
打赏
0
评论
51-61 CVPR 2024 最佳论文 | Rich Human Feedback for Text-to-Image Generation

受大模型中RLHF技术启发，团队用人类反馈来改进Stable Diffusion等文生图模型，提出了先进的RichHF-18K数据集和多模态RAHF模型。
复制链接

扫一扫