LMM 评估指标汇总：20+模型、7个维度-CSDN博客

本文概述了过去一年来视觉-语言模型的发展，包括LLM的扩展、多模态模型的兴起，以及训练方法和评估指标的深入探讨。重点介绍了预训练、微调和不同评估方式对模型性能的影响，并对比了多个模型在各类任务上的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、引言

最近一年，随着 ChatGPT 的发布，大型语言模型（LLM）获得了前所未有的关注，开源 LLM 不断涌现，例如 LLamA 系列、MPT 系列，以及国内的 Baichuan 系列、ChatGLM 系列等。在这些模型的基础上，研究者还进一步开发了 Vicuna 系列模型等，这些模型在各种任务上的性能不断提升。同时，越来越多的研究者开始将 LLM 引入到多模态任务中，产生了一系列大型多模态模型（Large Multimodal Models, LMM），其中以视觉-语言模型最为热门。在本文中，我们将重点介绍最近一年内流行的视觉-语言模型（Vision-Language Model，VLM）。

在之前的文章中我们已经陆续介绍了 LMM 涉及的任务、数据集，以及常见的 10 多种 LMM 的模型结构及其对应的训练数据和训练方式；此外，我们还具体介绍了几个 LMM 的论文，比如 MiniGPT-v2、LLaVA-1.5、CogVLM、mPLUG-Owl2 等；最后，我们还介绍了解决 LMM 幻觉的一些方案，比如 Woodpecker、LURE。

强烈推荐同步阅读 LMM 相关模型和训练综述：

1. 最全 LMM 模型结构（13种）综述

最近常见多模态 LMM 的解读可以参考：

1. 微软 GPT-4V 技术报告解读（1）

2. 微软 GPT-4V 技术报告解读（2）

3. CogVLM: Visual Expert for Large Language Models 论文解读

4. MiniGPT-v2 论文解读

5. LLaVA-1.5 论文解读

6. BLIP-2 论文及实现解读

常见多模态数据集的解读可以参考：

1. LMM 视觉问答（VQA）数据集解读

其他多模态幻觉校正可以参考：

1. Woodpecker: LMM 幻觉校正 - 论文解读

本文我们尝试从 7 个方面对 20+ LMM 的指标进行汇总，分别为：

图像描述：COCO、Nocaps、Flickr30K、TextCaps

图像问答：GQA、VQA、VQAv2、OK-VQA、SciQA-Img、VizWiz、IconQA、VSR、HM、TextVQA 和 OCR-VQA

视觉定位：RefCOCO、RefCOCO+、RefCOCOg 和 GRIT

幻觉：PoPE、CHAIR

综合评估：MME、TouchStone、SEED-Bench、MM-Vet、MMB、MMB-CN

纯文本评估：MMLU、BBH、AGIEval、ARC-c 和 ARC-e

部分评估基准可参考下图 Table 5.2 所示（出自 [2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants）：

由于 LLM、LMM 往往需要大规模数据进行训练，因此如果不清楚数据的构成，很容易出现数据污染问题，比如把部分数据加入到训练集中，导致评估指标异常高。此外，现在 LMM 的训练往往会分为预训练和指令微调阶段，有些任务会在预训练阶段加入特定数据集的训练集，有些是在微调阶段加，而有些任务完全不加，这些情况如果一起比较难免不公平。此外，有些任务会使用 zero-shot 评估，有些使用 few-shot 评估，这对最终指标影响非常大。所以本文中我们简单划分：

训练方式：

预训练中加入了待评估任务的训练集

指令微调阶段加入了待评估任务的训练集

整个阶段未使用待评估任务的任何数据

评估方式：

zero-shot

few-shot

我们会将不同文章中的指标交叉汇总，以便能更直观的比较，所有指标按如下约定方式汇总：

所有数据均来自相关 LMM 的论文中

不同的模型我们会使用不同的背景色，指标中的背景色表示该指标的来源论文

指标文章会有黑色、红色、蓝色三种：

红色：在多个论文中看到相同的结果，表示结果比较可信

黑色：只在一个论文中看到该结果

蓝色：多个论文中结果不一致，表示不同文章评估可能存在差异

在指标文本的后面我们还会加上 * 标识，表明对应的模型在训练中使用了该评估数据的训练数据

如下图所示为图像描述相关指标，其中主要包括 zero-shot 评估和 finetune 后评估，需要说明的是：

CogVLM 在 Nocaps 和 Flickr30K 上使用 zero-shot 进行评估，在 COCO 和 TexCaps 会在对应评估任务的训练集上训练，然后进行评估。

Qwen-VL 的训练集中包含了 COCO 和 Flickr30K 的训练数据，因此指标上我们加上了 * 标识。

如下图所示为图像问答相关的 zero-shot 结果，其中带 * 标识表明模型训练中加入了训练集：

如下图所示为图像问答相关的 finetune 结果：

对应的论文：[2204.14198v2] Flamingo: a Visual Language Model for Few-Shot Learning

如下图 Table 1 所示为 Flamingo 的评估结果，其包含 3 个模型，同时评估了 zero-shot，4-shot、32-shot 以及 finetune 的结果（指标包含图像描述，图像问答和视频问答）：

对应的论文：[2301.12597v3] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

如下图 Table 1 为 BLIP-2 的 zero-shot 评估结果，包括图像问答、图像描述和图文检索：

如下图 Table 2 所示为 BLIP-2 的 zero-shot 图像问答评估结果：

如下图 Table 3 所示为 BLIP-2 的 finetune 图像描述评估结果：

如下图 Table 4 所示为 BLIP-2 finetune 图像问答评估结果：

对应的论文：[2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

如下图 Table 1 所示为 InstructBLIP 的 zero-shot 图像描述和图像问答评估指标：

如下图 Table 3 所示为 InstructBLIP 的 finetune 图像问答评估指标：

对应的论文：[2306.15195] Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

如下图 Table 6 所示为 Shikra 的 zero-shot 图像问答和图像描述评估指标：

对应的论文：[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

如下图 Table 4 所示为 Qwen-VL 的 zero-shot 图像描述和图像问答指标，Nocaps、Flickr30K 和 SciQA-Img、VizWiz 标注为 zero-shot 指标，对于未标注 zero-shot 的任务，Qwen-VL 使用了其对应的训练集：

如下图 Table 5 所示为 Qwen-VL 的文本导向图像问答评估指标，同样使用了相关任务的训练集：

对应的论文：[2310.03744] Improved Baselines with Visual Instruction Tuning

如下图 Table 2 所示为 LLaVA-1.5 的图像问答评估指标，加 * 表示训练中使用了相关任务的训练集：

对应的论文：[2310.09478] MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

如下图 Table 3 所示为 MiniGPT-2 的图像问答指标，VSR、IconVQA、VizWiz 和 HM 为 zero-shot 指标，训练中使用了 OKVQA 和 GQA 的训练集：

对应的论文：CogVLM: Visual Expert for Large Language Models

如下图 Table 1 所示为 CogVLM 的图像描述指标，Nocaps 和 Flickr30K 为 zero-shot 指标，COCO 和 TextCaps 为 finetune 评估指标：

如下图 Table 2 所示为 CogVLM 的图像问答指标，其中带 * 的表示 few-shot 或 zero-shot 指标（其他为 finetune 的结果）：

对应的论文为：[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 1 所示为 mPLUG-Owl2 的图像描述和图像问答评估指标，评估的为 zero-shot 指标，双 + 表示训练中使用了对应任务的训练集：

如下图所示为视觉定位相关的评估结果：

对应的论文：[2306.15195] Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic

如下图 Table 3 所示为 Shikra 的视觉定位评估指标：

对应的论文：[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

如下图 Table 6 所示为 Qwen-VL 的视觉定位评估指标：

如下图 Table 4 所示为 MiniGPT-2 的视觉定位评估指标：

如下图 Table 4 所示为 CogVLM 的视觉定位评估指标：

如下图 Table 2 所示为 SoM-Prompting 的视觉定位评估指标：

如下图所示为几个模型在 POPE 上的评估指标：

如下图 Table 7 所示为 Shikra 在 POPE 上的具体评估指标：

对应的论文：[2310.09478] MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

如下图 Table 6 所示为 MiniGPT-v2 的 CHAIR 评估指标：

对应的论文：[2310.16045] Woodpecker: Hallucination Correction for Multimodal Large Language Models

如下图 Table 1 所示为 Woodpecker 在 POPE 上的具体评估指标：

如下图所示为 Woodpecker 在 MME 上的具体评估指标：

对应的论文：[2310.00754] Analyzing and Mitigating Object Hallucination in Large Vision-Language Models

如下图 Table 4 和 Table 5 所示为 LURE 的 CHAIR 评估指标：

如下图所示为在多个多模态基准上的评估结果，需要说明的是，MME 的 All 选项指标为 InternLM-xComposer 论文中统计的指标，我们发现其与其他论文中分别统计的 Perception 和 Cognition 指标之和无法对齐：

对应的论文：[2307.02469] What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?

如下图 Table 7 所示为 lynx 在多个多模态基准上的指标：

对应的论文：[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

如下图 Table 7 所示为 Qwen-VL 在多个多模态基准上的指标：

对应的论文：[2310.03744] Improved Baselines with Visual Instruction Tuning

如下图 Table 2 所示为 LLaVA-1.5 在多个多模态基准上的指标：

对应的论文：[2309.15112] InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition

如下图 Table 3 所示为 InternLM-xComposer 在多个多模态基准上的指标：

对应的论文：[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 2 所示为 mPLUG-Owl2 在多个多模态基准上的指标：

对应的论文：[2311.04219] OtterHD: A High-Resolution Multi-modality Model

如下图 Table 1 所示为 OtterHD 在多个多模态基准上的指标：

对应的论文为：[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 3 所示为 mPLUG-Owl2 在纯文本基准上的评估指标：

对应的论文为：[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

如下图 Table 4 所示为 mPLUG-Owl2 在视频问答任务上的评估指标，评估的为 zero-shot 指标：

https://arxiv.org/abs/2309.10020

https://arxiv.org/abs/2107.07651v2

https://arxiv.org/abs/2204.14198v2

https://arxiv.org/abs/2301.12597v3

https://arxiv.org/abs/2304.08485v1

https://arxiv.org/abs/2310.03744

https://arxiv.org/abs/2304.10592v2

https://arxiv.org/abs/2310.09478v1

https://arxiv.org/abs//2211.07636

https://arxiv.org/abs/2302.13971

https://arxiv.org/abs/2304.14178

https://arxiv.org/abs/2303.15389

https://arxiv.org/abs/2002.05202v1

https://arxiv.org/abs/2308.12966v3

https://arxiv.org/abs/2309.15112v4

https://arxiv.org/abs/2310.07704v1

https://arxiv.org/abs/2311.04219

https://arxiv.org/abs/2309.10020