人工智能咨询培训老师叶梓 转载标明出处
尽管图像质量得到了显著提升,但这些模型在生成与输入文本提示一致的图像方面仍需要提升。常见的问题包括无法正确捕捉对象的数量、关系和属性。为了解决这些挑战,现有的解决方案通常需要模型微调、只关注附近的提示样本,并且受到图像质量、表示多样性和提示-图像一致性之间不利权衡的影响。来自Meta 团队及其合作的研究人员提出了一种名为OPT2I的新框架,过迭代生成修订的提示,目标是最大化一致性得分,从而解决了这些挑战。如图1所示,该框架由文本到图像生成模型(T2I)、大模型(LLM)和一致性评估目标(Scorer)组成。LLM会迭代地利用提示和评分对的历史记录来提出经过改进的提示。在示例中,该系统在Davidsonian Scene Graph评分标准下将一致性评分提高了30%以上。
OPT2I框架
图2描述了OPT2I框架的组成部分,展示了如何通过迭代生成修订后的提示来优化一致性评分。
框架组成: OPT2I框架由三个核心组件构成:
- 预训练的T2I生成模型:这个模型负责根据文本提示生成图像。
- 一致性度量(Consistency Metric):用于评估生成图像与用户提示之间的一致性。
- 大型语言模型(LLM):利用任务描述和历史提示-得分对来生成修订后的提示。
工作流程:
- 初始化:用户输入一个文本提示,该提示被用来生成初始图像,并计算一致性得分。
- 迭代优化:基于初始得分,LLM提出改进的文本提示。这些新提示再次用于生成图像,并计算新的一致性得分。
- 元提示(Meta-prompt):包含任务描述和历史提示-得分对,用于指导LLM生成更好的提示。
- 终止条件:优化过程在达到最大迭代次数或一致性得分达到完美/目标值时结束。
优化问题的目标是找到一个能够最大化图像与文本提示一致性的文本提示改