LMM 评估指标汇总:20+模型、7个维度

一、引言

最近一年,随着 ChatGPT 的发布,大型语言模型(LLM)获得了前所未有的关注,开源 LLM 不断涌现,例如 LLamA 系列、MPT 系列,以及国内的 Baichuan 系列、ChatGLM 系列等。在这些模型的基础上,研究者还进一步开发了 Vicuna 系列模型等,这些模型在各种任务上的性能不断提升。同时,越来越多的研究者开始将 LLM 引入到多模态任务中,产生了一系列大型多模态模型(Large Multimodal Models, LMM),其中以视觉-语言模型最为热门。在本文中,我们将重点介绍最近一年内流行的视觉-语言模型(Vision-Language Model,VLM)。

在之前的文章中我们已经陆续介绍了 LMM 涉及的任务、数据集,以及常见的 10 多种 LMM 的模型结构及其对应的训练数据和训练方式;此外,我们还具体介绍了几个 LMM 的论文,比如 MiniGPT-v2、LLaVA-1.5、CogVLM、mPLUG-Owl2 等;最后,我们还介绍了解决 LMM 幻觉的一些方案,比如 Woodpecker、LURE。

强烈推荐同步阅读 LMM 相关模型和训练综述:

1. 最全 LMM 模型结构(13种)综述

最近常见多模态 LMM 的解读可以参考:

1. 微软 GPT-4V 技术报告解读(1)

2. 微软 GPT-4V 技术报告解读(2)

3. CogVLM: Visual Expert for Large Language Models 论文解读

4. MiniGPT-v2 论文解读

5. LLaVA-1.5 论文解读

6. BLIP-2 论文及实现解读

常见多模态数据集的解读可以参考:

1. LMM 视觉问答(VQA)数据集解读

其他多模态幻觉校正可以参考:

1. Woodpecker: LMM 幻觉校正 - 论文解读

本文我们尝试从 7 个方面对 20+ LMM 的指标进行汇总,分别为:

图像描述:COCO、Nocaps、Flickr30K、TextCaps

图像问答:GQA、VQA、VQAv2、OK-VQA、SciQA-Img、VizWiz、IconQA、VSR、HM、TextVQA 和 OCR-VQA

视觉定位:RefCOCO、RefCOCO+、RefCOCOg 和 GRIT

幻觉:PoPE、CHAIR

综合评估:MME、TouchStone、SEED-Bench、MM-Vet、MMB、MMB-CN

纯文本评估:MMLU、BBH、AGIEval、ARC-c 和 ARC-e

部分评估基准可参考下图 Table 5.2 所示(出自 [2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants):

由于 LLM、LMM 往往需要大规模数据进行训练,因此如果不清楚数据的构成,很容易出现数据污染问题,比如把部分数据加入到训练集中,导致评估指标异常高。此外,现在 LMM 的训练往往会分为预训练和指令微调阶段,有些任务会在预训练阶段加入特定数据集的训练集,有些是在微调阶段加,而有些任务完全不加,这些情况如果一起比较难免不公平。此外,有些任务会使用 zero-shot 评估,有些使用 few-shot 评估,这对最终指标影响非常大。所以本文中我们简单划分:

训练方式:

预训练中加入了待评估任务的训练集

指令微调阶段加入了待评估任务的训练集

整个阶段未使用待评估任务的任何数据

评估方式:

zero-shot

few-shot

我们会将不同文章中的指标交叉汇总,以便能更直观的比较,所有指标按如下约定方式汇总:

所有数据均来自相关 LMM 的论文中

不同的模型我们会使用不同的背景色,指标中的背景色表示该指标的来源论文

指标文章会有黑色、红色、蓝色三种:

红色:在多个论文中看到相同的结果,表示结果比较可信

黑色:只在一个论文中看到该结果

蓝色:多个论文中结果不一致,表示不同文章评估可能存在差异

在指标文本的后面我们还会加上 * 标识,表明对应的模型在训练中使用了该评估数据的训练数据

如下图所示为图像描述相关指标,其中主要包括 zero-shot 评估和 finetune 后评估,需要说明的是:

CogVLM 在 Nocaps 和 Flickr30K 上使用 zero-shot 进行评估,在 COCO 和 TexCaps 会在对应评估任务的训练集上训练,然后进行评估。

Qwen-VL 的训练集中包含了 COCO 和 Flickr30K 的训练数据,因此指标上我们加上了 * 标识。

如下图所示为图像问答相关的 zero-shot 结果,其中带 * 标识表明模型训练中加入了训练集:

如下图所示为图像问答相关的 finetune 结果:

对应的论文:[2204.14198v2] Flamingo: a Visual Language Model for Few-Shot Learning

如下图 Table 1 所示为 Flamingo 的评估结果,其包含 3 个模型,同时评估了 zero-shot,4-shot、32-shot 以及 finetune 的结果(指标包含图像描述,图像问答和视频问答):

对应的论文:[2301.12597v3] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

如下图 Table 1 为 BLIP-2 的 zero-shot 评估结果,包括图像问答、图像描述和图文检索:

如下图 Table 2 所示为 BLIP-2 的 zero-shot 图像问答评估结果:

如下图 Table 3 所示为 BLIP-2 的 finetune 图像描述评估结果:

如下图 Table 4 所示为 BLIP-2 finetune 图像问答评估结果:

对应的论文:[2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

如下图 Table 1 所示为 InstructBLIP  的 zero-shot 图像描述和图像问答评估指标:

如下图 Table 3 所示为 InstructBLIP  的 finetune 图像问答评估指标:

对应的论文:[2306.15195] Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

如下图 Table 6 所示为 Shikra 的 zero-shot 图像问答和图像描述评估指标:

对应的论文:[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

如下图 Table 4 所示为 Qwen-VL 的 zero-shot 图像描述和图像问答指标,Nocaps、Flickr30K 和 SciQA-Img、VizWiz 标注为 zero-shot 指标,对于未标注 zero-shot 的任务,Qwen-VL 使用了其对应的训练集:

如下图 Table 5 所示为 Qwen-VL 的文本导向图像问答评估指标,同样使用了相关任务的训练集:

对应的论文:[2310.03744] Improved Baselines with Visual Instruction Tuning

如下图 Table 2 所示为 LLaVA-1.5 的图像问答评估指标,加 * 表示训练中使用了相关任务的训练集:

对应的论文:[2310.09478] MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

如下图 Table 3 所示为 MiniGPT-2 的图像问答指标,VSR、IconVQA、VizWiz 和 HM 为 zero-shot 指标,训练中使用了 OKVQA 和 GQA 的训练集:

对应的论文:CogVLM: Visual Expert for Large Language Models

如下图 Table 1 所示为 CogVLM 的图像描述指标,Nocaps 和 Flickr30K 为 zero-shot 指标,COCO 和 TextCaps 为 finetune 评估指标:

如下图 Table 2 所示为 CogVLM 的图像问答指标,其中带 * 的表示 few-shot 或 zero-shot 指标(其他为 finetune 的结果):

对应的论文为:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 1 所示为 mPLUG-Owl2 的图像描述和图像问答评估指标,评估的为 zero-shot 指标,双 + 表示训练中使用了对应任务的训练集:

如下图所示为视觉定位相关的评估结果:

对应的论文:[2306.15195] Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

如下图 Table 3 所示为 Shikra 的视觉定位评估指标:

对应的论文:[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

如下图 Table 6 所示为 Qwen-VL  的视觉定位评估指标:

如下图 Table 4 所示为 MiniGPT-2 的视觉定位评估指标:

如下图 Table 4 所示为 CogVLM 的视觉定位评估指标:

如下图 Table 2 所示为 SoM-Prompting 的视觉定位评估指标:

如下图所示为几个模型在 POPE 上的评估指标:

如下图 Table 7 所示为 Shikra 在 POPE 上的具体评估指标:

对应的论文:[2310.09478] MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

如下图 Table 6 所示为 MiniGPT-v2 的 CHAIR 评估指标:

对应的论文:[2310.16045] Woodpecker: Hallucination Correction for Multimodal Large Language Models

如下图 Table 1 所示为 Woodpecker 在 POPE 上的具体评估指标:

如下图所示为 Woodpecker 在 MME 上的具体评估指标:

对应的论文:[2310.00754] Analyzing and Mitigating Object Hallucination in Large Vision-Language Models

如下图 Table 4 和 Table 5 所示为 LURE 的 CHAIR 评估指标:

如下图所示为在多个多模态基准上的评估结果,需要说明的是,MME 的 All 选项指标为 InternLM-xComposer 论文中统计的指标,我们发现其与其他论文中分别统计的 Perception 和 Cognition 指标之和无法对齐:

对应的论文:[2307.02469] What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?

如下图 Table 7 所示为 lynx 在多个多模态基准上的指标:

对应的论文:[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

如下图 Table 7 所示为 Qwen-VL 在多个多模态基准上的指标:

对应的论文:[2310.03744] Improved Baselines with Visual Instruction Tuning

如下图 Table 2 所示为 LLaVA-1.5 在多个多模态基准上的指标:

对应的论文:[2309.15112] InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

如下图 Table 3 所示为 InternLM-xComposer 在多个多模态基准上的指标:

对应的论文:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 2 所示为 mPLUG-Owl2 在多个多模态基准上的指标:

对应的论文:[2311.04219] OtterHD: A High-Resolution Multi-modality Model

如下图 Table 1 所示为 OtterHD 在多个多模态基准上的指标:

对应的论文为:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 3 所示为 mPLUG-Owl2 在纯文本基准上的评估指标:

对应的论文为:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 4 所示为 mPLUG-Owl2 在视频问答任务上的评估指标,评估的为 zero-shot 指标:

https://arxiv.org/abs/2309.10020

https://arxiv.org/abs/2107.07651v2

https://arxiv.org/abs/2204.14198v2

https://arxiv.org/abs/2301.12597v3

https://arxiv.org/abs/2304.08485v1

https://arxiv.org/abs/2310.03744

https://arxiv.org/abs/2304.10592v2

https://arxiv.org/abs/2310.09478v1

https://arxiv.org/abs//2211.07636

https://arxiv.org/abs/2302.13971

https://arxiv.org/abs/2304.14178

https://arxiv.org/abs/2303.15389

https://arxiv.org/abs/2002.05202v1

https://arxiv.org/abs/2308.12966v3

https://arxiv.org/abs/2309.15112v4

https://arxiv.org/abs/2310.07704v1

https://arxiv.org/abs/2311.04219

https://arxiv.org/abs/2309.10020

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值