文章链接:https://doi.org/10.48550/arXiv.2305.10843
代码链接 : https://github.com/Schuture/Benchmarking-Awesome-Diffusion-Models
文章题目
X-IQE: eXplainable Image Quality Evaluation for Text-to-Image Generation with Visual Large Language Models
发表年限
2023
期刊/会议名称
NeurIPS 2023 submission
论文简要
- 本文介绍了一种新颖的可解释图像质量评估方法X-IQE,利用视觉大语言模型LLM通过生成文本解释来评估text-to-image生成方法。
- X-IQE利用分层的思维链(CoT)使MiniGPT-4能够生成自洽、无偏见的文本,这些文本与人类评估高度相关。
- 它具有几个优点:
- 能够区分真实图像和生成图像
- 评估文本与图像的对齐性
- 评估图像美学
- 无需模型训练或微调。
- 与人类评估相比,X-IQE更具成本效益和高效性,同时显著提高了深度图像质量评估模型的透明度和可解释性。
动机
- 人类视觉系统对图像质量的评估过程涵盖了多个因素,例如图像内容的合理性、与文本描述的对齐性和美学。然而,这些评估因素中的一些本质上是主观的,难以量化,这在IQA任务中构成了一个重要障碍。
- 现有的图像质量评估解决方案可以大致分为两类:人工评估和模型评估。尽管人工评估被广泛使用,但它存在一些显著的缺点,一方面成本较高,另一方面不同的评估组在对同一组图像进行评估时得出的评分或结论可能存在较大差异。模型评估通常依赖于复杂的模型以及特殊标记的数据和特征。这也是昂贵的,并且无法达到人类的强大泛化能力。
- 大多数先前基于模型的评估只关注预测图像质量分数,难以解释其训练数据中的bias和缺陷,最终导致模型性能存在缺陷。
主要思想或方法架构
-
本文的核心思想是利用预训练的视觉大型语言模型(LLMs)以对话的方式生成图像的分析文本。X-IQE利用MiniGPT-4作为其基础模型,并结合艺术专业人士的专业知识设计了标准化和无偏的提示。
-
MiniGPT-4结合了预训练的视觉编码器ViT与Q-Former和先进的LLM Vicuna。ViT实现了图像解析,而Vicuna具有生成连贯自然的对话能力,能够与用户进行交互和理解。MiniGPT-4使用冻结的ViT和Vicuna进行训练,其中包括从视觉特征到Vicuna的线性投影。
-
X-IQE从保真度、对齐度和审美三个方面评估图像质量。某些属性的评估结果可以作为评估其他属性的先验知识。
-
保真度衡量图像的真实性,影响了文本到图像对齐的评估,因为与真实图像相比,AI生成的图像通常显示出对文本较低的对齐度。此外,通过突出在保真度评估中发现的特定缺陷,将图像识别为人工智能生成会影响美学分析。了解用于图像生成的真实提示,有助于对齐度评估,也有助于在审美评估中评估视觉冲击力和构图。
-
CoT(Chains of Thought)策略是一种层次化的策略,旨在在多任务或多阶段的情况下提高模型的性能和连贯性。CoT策略通过建立任务之间和任务内部的思考链条,使得模型可以在不同任务之间进行信息传递和共享,以提高整体性能。
-
X-IQE的CoT设计如下:
-
在每个评估任务内,建立了一个专门的CoT,包括:
-
图像描述包含在第一个任务中,并在后续任务中重复使用。
实验结果
-
作者使用流行的扩散模型生成的图像验证了作者的方法作为基准的有效性。
-
在COCO Caption数据集上,X-IQE表现出与最先进评估方法类似的性能,同时克服了先前评估模型在DrawBench数据集上的限制,特别是处理模糊的生成提示和生成图像中的文本识别。
-
温度参数在LLM中非常关键,它控制生成文本的随机性和创造性。温度参数决定了生成文本时选择下一个单词的方式。
-
较低的温度值会导致模型选择概率最高的单词,生成的文本更加确定和保守。而较高的温度值会增加单词选择的随机性,生成的文本更加多样和创造性。
-
K r i p p e n d o r f f ′ s Krippendorff's Krippendorff′s α α α是一种用于衡量观察者间一致性的统计指标。它通常用于评估人类注释者对于某个任务的标注或评分的一致性程度。可以看到当温度较低时,模型输出的结果更一致,Vicuna 13B总是优于7B。
-
较大的LLM在所有三个任务的问题回答中提供更加精确和有效的响应。
-
上图是任务内和任务间CoTs的消融研究。
-
基线是直接要求MiniGPT-4单独评估分数。
-
在没有CoT的情况下,X-IQE的表现不尽人意。
-
真假图像的差异主要体现在保真度得分的分布上。
-
X-IQE倾向于给真实图像分配更多的7分,而给Stable Diffusion生成图像分配更多的5分。
-
上图说明了X-IQE在推理过程中进行图像分析的能力,尽管有些判断可能不准确。
-
COCO Caption数据集上的对齐度和审美评分分布
-
与人类评价倾向于以均值为中心的分数判断相比,X-IQE展示了更广泛的判断范围,突出了X-IQE在生成数据集上的泛化能力。
- X-IQE准确地对四种模型生成的图像进行了排名,特别是对于SD2.1的糟糕对齐和美观性的情况也能准确运行。
- 这可以归因于X-IQE在解析长而模糊的文本和识别图像中的文本方面的强大功能,这是传统模型难以完成的。