字节跳动:LLM评估器以评估多模态性能

在这里插入图片描述

📖标题:LLaVA-Critic: Learning to Evaluate Multimodal Models
🌐来源:arXiv, 2410.02712

摘要

🔸我们介绍LLaVA Critic,这是第一个开源的大型多模态模型(LMM),旨在作为一个多面手评估器来评估各种多模态任务的性能。LLaVA Critic使用高质量的评论家指令集进行培训,该数据集包含各种评估标准和场景。
🔸我们的实验证明了该模型在两个关键领域的有效性:(i)LMMas-a-Jegister,其中LLaVA Critic提供可靠的评估分数,在多个评估基准上与GPT模型相当或超过GPT模型;以及(ii)偏好学习,它为偏好学习生成奖励信号,增强模型对齐能力。这项工作强调了开源LMM在自我批评和评估方面的潜力,为未来研究LMM的可扩展、超人的对齐反馈机制奠定了基础。

🛎️文章简介

🔸研究问题:如何评估多模态模型的性能并提供相应的推理过程?
🔸主要贡献:论文开发了LLaVA-Critic,一个能够自动化评估多模态模型响应的通用评判模型,并公开了相关数据集、代码库和模型检查点。

📝重点思路

🔺相关工作

🔸LMM评估器:如GPT-4V和GPT-4o等都被证明可以作为视觉语言任务的通用评估器。
🔸LMM偏好学习:RLHF是一种经过验证的方法,DPO引入了奖励模型的新参数化,CriticGPT用作反馈信号来改进代码LLM,还包括BPO、RLHF-V等一系列工作。

🔺论文方案

🔸构建评估提示池:源自7个广泛使用的多模态基准,包含46k张图像和113k个评估指令样本,涵盖点对点和成对评估设置。
🔸生成训练数据集:最终生成了包含18,915个问题-图像对和72,782个评判数据样本的训练数据集。
🔸开发LLaVA-Critic多模态模型:通过在预训练的LLaVA-OneVision模型基础上进行微调,以增强其作为评估器的能力。
🔸实验评估:在不同场景下评估LLaVA-Critic的性能,包括LMM-as-a-Judge和Preference Learning,并与GPT-4o和人类评估者对比。

🔎分析总结

🔸评估能力卓越:LLaVA-Critic作为评判模型,其提供的评估分数和排名与商业GPT模型高度相关,是一种在资源受限环境下成本效益高的替代方案。
🔸提供优质反馈:在偏好学习中,LLaVA-Critic提供的AI生成反馈在DPO中优于LLaVA-RLHF中基于人类反馈训练的奖励模型提供的偏好信号。
🔸鲁棒性:LaVA-Critic在评估LMM响应的多种场景中表现一致,无论是在实例级评分还是模型级排名上,特别是在未见过的评估任务。

💡个人观点

论文的核心是开放了一个多模态评估器及相关资源。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值