提升文本到图像一致性的新方法：自动提示优化

人工智能大模型讲师培训咨询叶梓

于 2024-08-24 19:30:00 发布

阅读量1.1k

点赞数 19

分类专栏：人工智能文章标签：人工智能深度学习计算机视觉大模型提示生成模型文生图

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44292902/article/details/141397404

版权

人工智能咨询培训老师叶梓转载标明出处

尽管图像质量得到了显著提升，但这些模型在生成与输入文本提示一致的图像方面仍需要提升。常见的问题包括无法正确捕捉对象的数量、关系和属性。为了解决这些挑战，现有的解决方案通常需要模型微调、只关注附近的提示样本，并且受到图像质量、表示多样性和提示-图像一致性之间不利权衡的影响。来自Meta 团队及其合作的研究人员提出了一种名为OPT2I的新框架，过迭代生成修订的提示，目标是最大化一致性得分，从而解决了这些挑战。如图1所示，该框架由文本到图像生成模型（T2I）、大模型（LLM）和一致性评估目标（Scorer）组成。LLM会迭代地利用提示和评分对的历史记录来提出经过改进的提示。在示例中，该系统在Davidsonian Scene Graph评分标准下将一致性评分提高了30%以上。

OPT2I框架

图2描述了OPT2I框架的组成部分，展示了如何通过迭代生成修订后的提示来优化一致性评分。

框架组成： OPT2I框架由三个核心组件构成：

预训练的T2I生成模型：这个模型负责根据文本提示生成图像。
一致性度量（Consistency Metric）：用于评估生成图像与用户提示之间的一致性。
大型语言模型（LLM）：利用任务描述和历史提示-得分对来生成修订后的提示。

工作流程：

初始化：用户输入一个文本提示，该提示被用来生成初始图像，并计算一致性得分。
迭代优化：基于初始得分，LLM提出改进的文本提示。这些新提示再次用于生成图像，并计算新的一致性得分。
元提示（Meta-prompt）：包含任务描述和历史提示-得分对，用于指导LLM生成更好的提示。
终止条件：优化过程在达到最大迭代次数或一致性得分达到完美/目标值时结束。

优化问题的目标是找到一个能够最大化图像与文本提示一致性的文本提示改

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。