📖标题:LLaVA-Critic: Learning to Evaluate Multimodal Models
🌐来源:arXiv, 2410.02712
摘要
🔸我们介绍LLaVA Critic,这是第一个开源的大型多模态模型(LMM),旨在作为一个多面手评估器来评估各种多模态任务的性能。LLaVA Critic使用高质量的评论家指令集进行培训,该数据集包含各种评估标准和场景。
🔸我们的实验证明了该模型在两个关键领域的有效性:(i)LMMas-a-Jegister,其中LLaVA Critic提供可靠的评估分数,在多个评估基准上与GPT模型相当或超过GPT模型;以及(ii)偏好学习,它为偏好学习生成奖励信号,增强模型对齐能力。这项工作强调了开源LMM在自我批评和评估方面的潜力,为未来研究LMM的可扩展、超人的对齐反馈机制奠定了基础。
🛎️文章简介
🔸研究问题:如何评估多模态模型的性能并提供相应的推理过程?
🔸主要贡献:论文开发了LLaVA-Critic,一个能够自动化评估多模态模型响应的通用评判模型,并公开了相关数据集、代码库和模型检查点。
📝重点思路
🔺相关工作
🔸LMM评估器:如GPT-4V和GPT-4o等都被证明可以作为视觉语言任务的通用评估器。
🔸LMM偏好学习:RLHF是一种经过验证的方法,DPO引入了奖励模型的新参数化,CriticGPT用作反馈信号来改进代码LLM,还包括BPO、RLHF-V等一系列工作。
🔺论文方案
🔸构建评估提示池:源自7个广泛使用的多模态基准,包含46k张图像和113k个评估指令样本,涵盖点对点和成对评估设置。
🔸生成训练数据集:最终生成了包含18,915个问题-图像对和72,782个评判数据样本的训练数据集。
🔸开发LLaVA-Critic多模态模型:通过在预训练的LLaVA-OneVision模型基础上进行微调,以增强其作为评估器的能力。
🔸实验评估:在不同场景下评估LLaVA-Critic的性能,包括LMM-as-a-Judge和Preference Learning,并与GPT-4o和人类评估者对比。
🔎分析总结
🔸评估能力卓越:LLaVA-Critic作为评判模型,其提供的评估分数和排名与商业GPT模型高度相关,是一种在资源受限环境下成本效益高的替代方案。
🔸提供优质反馈:在偏好学习中,LLaVA-Critic提供的AI生成反馈在DPO中优于LLaVA-RLHF中基于人类反馈训练的奖励模型提供的偏好信号。
🔸鲁棒性:LaVA-Critic在评估LMM响应的多种场景中表现一致,无论是在实例级评分还是模型级排名上,特别是在未见过的评估任务。
💡个人观点
论文的核心是开放了一个多模态评估器及相关资源。
附录