强化学习微调文本到图像模型
Aligning Text-to-Image Models using Human Feedback
https://arxiv.org/abs/2302.12192
https://zhuanlan.zhihu.com/p/609818797
问题:当前的文本到图像模型通常会生成与文本提示不匹配的图像。
局限性和未来方向:
• 更细致的人类反馈。我们观察到的一些质量较差的生成图片,例如高度饱和的图像颜色,可能是由于相似的图像在训练集中排名很高。指导评分者寻找一组更多样化的评分模式(过饱和的颜色、不切实际的动物解剖结构、物理违规等均列为生成失败)将提高生成性能。
• 多样化的大型人类数据集。本文仅考虑有限类别的文本类别(计数、颜色、背景),从而考虑一种简单形式的人类反馈(好或坏)。扩展到更主观的文本类别(如艺术生成)和信息丰富的人类反馈(如排名)将是未来研究的重要方向。
• 不同的目标和算法。为了更新文本到图像模型,本文使用奖励加权似然最大化。使用 RL 算法将是一个有趣的方向,认为 RLHF 微调可能会产生更好的模型,因为 (a) 在更新期间使用在线样本生成,以及 (b) 对先前模型的 KL 正则化可以减轻对奖励函数的过度拟合。