强化学习微调文本到图像模型

最新推荐文章于 2024-01-16 22:30:16 发布

Galaxen

最新推荐文章于 2024-01-16 22:30:16 发布

阅读量270

点赞数 1

文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44909476/article/details/130953456

版权

强化学习微调文本到图像模型

Aligning Text-to-Image Models using Human Feedback
https://arxiv.org/abs/2302.12192
https://zhuanlan.zhihu.com/p/609818797

问题：当前的文本到图像模型通常会生成与文本提示不匹配的图像。

局限性和未来方向：

• 更细致的人类反馈。我们观察到的一些质量较差的生成图片，例如高度饱和的图像颜色，可能是由于相似的图像在训练集中排名很高。指导评分者寻找一组更多样化的评分模式（过饱和的颜色、不切实际的动物解剖结构、物理违规等均列为生成失败）将提高生成性能。

• 多样化的大型人类数据集。本文仅考虑有限类别的文本类别（计数、颜色、背景），从而考虑一种简单形式的人类反馈（好或坏）。扩展到更主观的文本类别（如艺术生成）和信息丰富的人类反馈（如排名）将是未来研究的重要方向。

• 不同的目标和算法。为了更新文本到图像模型，本文使用奖励加权似然最大化。使用 RL 算法将是一个有趣的方向，认为 RLHF 微调可能会产生更好的模型，因为 (a) 在更新期间使用在线样本生成，以及 (b) 对先前模型的 KL 正则化可以减轻对奖励函数的过度拟合。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习微调文本到图像模型

强化学习微调文本到图像模型
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。