一、引言
最近一年,随着 ChatGPT 的发布,大型语言模型(LLM)获得了前所未有的关注,开源 LLM 不断涌现,例如 LLamA 系列、MPT 系列,以及国内的 Baichuan 系列、ChatGLM 系列等。在这些模型的基础上,研究者还进一步开发了 Vicuna 系列模型等,这些模型在各种任务上的性能不断提升。同时,越来越多的研究者开始将 LLM 引入到多模态任务中,产生了一系列大型多模态模型(Large Multimodal Models, LMM),其中以视觉-语言模型最为热门。在本文中,我们将重点介绍最近一年内流行的视觉-语言模型(Vision-Language Model,VLM)。
在之前的文章中我们已经陆续介绍了 LMM 涉及的任务、数据集,以及常见的 10 多种 LMM 的模型结构及其对应的训练数据和训练方式;此外,我们还具体介绍了几个 LMM 的论文,比如 MiniGPT-v2、LLaVA-1.5、CogVLM、mPLUG-Owl2 等;最后,我们还介绍了解决 LMM 幻觉的一些方案,比如 Woodpecker、LURE。
强烈推荐同步阅读 LMM 相关模型和训练综述:
1. 最全 LMM 模型结构(13种)综述
最近常见多模态 LMM 的解读可以参考:
1. 微软 GPT-4V 技术报告解读(1)
2. 微软 GPT-4V 技术报告解读(2)
3. CogVLM: Visual Expert for Large Language Models 论文解读
4. MiniGPT-v2 论文解读
5. LLaVA-1.5 论文解读
6. BLIP-2 论文及实现解读
常见多模态数据集的解读可以参考:
1. LMM 视觉问答(VQA)数据集解读
其他多模态幻觉校正可以参考:
1. Woodpecker: LMM 幻觉校正 - 论文解读
本文我们尝试从 7 个方面对 20+ LMM 的指标进行汇总,分别为:
图像描述:COCO、Nocaps、Flickr30K、TextCaps
图像问答:GQA、VQA、VQAv2、OK-VQA、SciQA-Img、VizWiz、IconQA、VSR、HM、TextVQA 和 OCR-VQA
视觉定位:RefCOCO、RefCOCO+、RefCOCOg 和 GRIT
幻觉:PoPE、CHAIR
综合评估:MME、TouchStone、SEED-Bench、MM-Vet、MMB、MMB-CN
纯文本评估:MMLU、BBH、AGIEval、ARC-c 和 ARC-e
部分评估基准可参考下图 Table 5.2 所示(出自 [2309.10020] Multimodal Foundation Models: From Specialists to General-Purpose Assistants):
由于 LLM、LMM 往往需要大规模数据进行训练,因此如果不清楚数据的构成,很容易出现数据污染问题,比如把部分数据加入到训练集中,导致评估指标异常高。此外,现在 LMM 的训练往往会分为预训练和指令微调阶段,有些任务会在预训练阶段加入特定数据集的训练集,有些是在微调阶段加,而有些任务完全不加,这些情况如果一起比较难免不公平。此外,有些任务会使用 zero-shot 评估,有些使用 few-shot 评估,这对最终指标影响非常大。所以本文中我们简单划分:
训练方式:
预训练中加入了待评估任务的训练集
指令微调阶段加入了待评估任务的训练集
整个阶段未使用待评估任务的任何数据
评估方式:
zero-shot
few-shot
我们会将不同文章中的指标交叉汇总,以便能更直观的比较,所有指标按如下约定方式汇总:
所有数据均来自相关 LMM 的论文中
不同的模型我们会使用不同的背景色,指标中的背景色表示该指标的来源论文
指标文章会有黑色、红色、蓝色三种:
红色:在多个论文中看到相同的结果,表示结果比较可信
黑色:只在一个论文中看到该结果
蓝色:多个论文中结果不一致,表示不同文章评估可能存在差异
在指标文本的后面我们还会加上 * 标识,表明对应的模型在训练中使用了该评估数据的训练数据
如下图所示为图像描述相关指标,其中主要包括 zero-shot 评估和 finetune 后评估,需要说明的是:
CogVLM 在 Nocaps 和 Flickr30K 上使用 zero-shot 进行评估,在 COCO 和 TexCaps 会在对应评估任务的训练集上训练,然后进行评估。
Qwen-VL 的训练集中包含了 COCO 和 Flickr30K 的训练数据,因此指标上我们加上了 * 标识。
如下图所示为图像问答相关的 zero-shot 结果,其中带 * 标识表明模型训练中加入了训练集:
如下图所示为图像问答相关的 finetune 结果:
对应的论文:[2204.14198v2] Flamingo: a Visual Language Model for Few-Shot Learning
如下图 Table 1 所示为 Flamingo 的评估结果,其包含 3 个模型,同时评估了 zero-shot,4-shot、32-shot 以及 finetune 的结果(指标包含图像描述,图像问答和视频问答):
对应的论文:[2301.12597v3] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
如下图 Table 1 为 BLIP-2 的 zero-shot 评估结果,包括图像问答、图像描述和图文检索:
如下图 Table 2 所示为 BLIP-2 的 zero-shot 图像问答评估结果:
如下图 Table 3 所示为 BLIP-2 的 finetune 图像描述评估结果:
如下图 Table 4 所示为 BLIP-2 finetune 图像问答评估结果:
对应的论文:[2305.06500] InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
如下图 Table 1 所示为 InstructBLIP 的 zero-shot 图像描述和图像问答评估指标:
如下图 Table 3 所示为 InstructBLIP 的 finetune 图像问答评估指标:
对应的论文:[2306.15195] Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic
如下图 Table 6 所示为 Shikra 的 zero-shot 图像问答和图像描述评估指标:
对应的论文:[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
如下图 Table 4 所示为 Qwen-VL 的 zero-shot 图像描述和图像问答指标,Nocaps、Flickr30K 和 SciQA-Img、VizWiz 标注为 zero-shot 指标,对于未标注 zero-shot 的任务,Qwen-VL 使用了其对应的训练集:
如下图 Table 5 所示为 Qwen-VL 的文本导向图像问答评估指标,同样使用了相关任务的训练集:
对应的论文:[2310.03744] Improved Baselines with Visual Instruction Tuning
如下图 Table 2 所示为 LLaVA-1.5 的图像问答评估指标,加 * 表示训练中使用了相关任务的训练集:
对应的论文:[2310.09478] MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
如下图 Table 3 所示为 MiniGPT-2 的图像问答指标,VSR、IconVQA、VizWiz 和 HM 为 zero-shot 指标,训练中使用了 OKVQA 和 GQA 的训练集:
对应的论文:CogVLM: Visual Expert for Large Language Models
如下图 Table 1 所示为 CogVLM 的图像描述指标,Nocaps 和 Flickr30K 为 zero-shot 指标,COCO 和 TextCaps 为 finetune 评估指标:
如下图 Table 2 所示为 CogVLM 的图像问答指标,其中带 * 的表示 few-shot 或 zero-shot 指标(其他为 finetune 的结果):
对应的论文为:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
如下图 Table 1 所示为 mPLUG-Owl2 的图像描述和图像问答评估指标,评估的为 zero-shot 指标,双 + 表示训练中使用了对应任务的训练集:
如下图所示为视觉定位相关的评估结果:
对应的论文:[2306.15195] Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic
如下图 Table 3 所示为 Shikra 的视觉定位评估指标:
对应的论文:[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
如下图 Table 6 所示为 Qwen-VL 的视觉定位评估指标:
如下图 Table 4 所示为 MiniGPT-2 的视觉定位评估指标:
如下图 Table 4 所示为 CogVLM 的视觉定位评估指标:
如下图 Table 2 所示为 SoM-Prompting 的视觉定位评估指标:
如下图所示为几个模型在 POPE 上的评估指标:
如下图 Table 7 所示为 Shikra 在 POPE 上的具体评估指标:
对应的论文:[2310.09478] MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning
如下图 Table 6 所示为 MiniGPT-v2 的 CHAIR 评估指标:
对应的论文:[2310.16045] Woodpecker: Hallucination Correction for Multimodal Large Language Models
如下图 Table 1 所示为 Woodpecker 在 POPE 上的具体评估指标:
如下图所示为 Woodpecker 在 MME 上的具体评估指标:
对应的论文:[2310.00754] Analyzing and Mitigating Object Hallucination in Large Vision-Language Models
如下图 Table 4 和 Table 5 所示为 LURE 的 CHAIR 评估指标:
如下图所示为在多个多模态基准上的评估结果,需要说明的是,MME 的 All 选项指标为 InternLM-xComposer 论文中统计的指标,我们发现其与其他论文中分别统计的 Perception 和 Cognition 指标之和无法对齐:
对应的论文:[2307.02469] What Matters in Training a GPT4-Style Language Model with Multimodal Inputs?
如下图 Table 7 所示为 lynx 在多个多模态基准上的指标:
对应的论文:[2308.12966v3] Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
如下图 Table 7 所示为 Qwen-VL 在多个多模态基准上的指标:
对应的论文:[2310.03744] Improved Baselines with Visual Instruction Tuning
如下图 Table 2 所示为 LLaVA-1.5 在多个多模态基准上的指标:
对应的论文:[2309.15112] InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition
如下图 Table 3 所示为 InternLM-xComposer 在多个多模态基准上的指标:
对应的论文:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
如下图 Table 2 所示为 mPLUG-Owl2 在多个多模态基准上的指标:
对应的论文:[2311.04219] OtterHD: A High-Resolution Multi-modality Model
如下图 Table 1 所示为 OtterHD 在多个多模态基准上的指标:
对应的论文为:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
如下图 Table 3 所示为 mPLUG-Owl2 在纯文本基准上的评估指标:
对应的论文为:[2311.04257] mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
如下图 Table 4 所示为 mPLUG-Owl2 在视频问答任务上的评估指标,评估的为 zero-shot 指标:
https://arxiv.org/abs/2309.10020
https://arxiv.org/abs/2107.07651v2
https://arxiv.org/abs/2204.14198v2
https://arxiv.org/abs/2301.12597v3
https://arxiv.org/abs/2304.08485v1
https://arxiv.org/abs/2310.03744
https://arxiv.org/abs/2304.10592v2
https://arxiv.org/abs/2310.09478v1
https://arxiv.org/abs//2211.07636
https://arxiv.org/abs/2302.13971
https://arxiv.org/abs/2304.14178
https://arxiv.org/abs/2303.15389
https://arxiv.org/abs/2002.05202v1
https://arxiv.org/abs/2308.12966v3
https://arxiv.org/abs/2309.15112v4
https://arxiv.org/abs/2310.07704v1
https://arxiv.org/abs/2311.04219
https://arxiv.org/abs/2309.10020