A Survey on Multimodal Large Language Models

小蜗子

已于 2024-10-06 20:30:34 修改

阅读量412

点赞数 16

分类专栏：研究方向文章标签：语言模型人工智能自然语言处理

于 2024-09-17 13:19:11 首次发布

本文链接：https://blog.csdn.net/weixin_44466434/article/details/142312592

版权

研究方向专栏收录该内容

30 篇文章 6 订阅

订阅专栏

摘要

近年来，以GPT-4V为代表的多模态大语言模型(Multimodal Large Language Model, mlm)是一个新兴的研究热点，它利用强大的大语言模型(Large Language Models, llm)作为大脑来执行多模态任务。MLLM令人惊讶的突发能力，如基于图像编写故事和无ocr的数学推理，在传统的多模态方法中是罕见的，这表明了人工通用智能的潜在途径。为此，学术界和工业界都在努力开发可以与GPT-4V竞争甚至更好的mlms，以惊人的速度推动研究的极限。在本文中，我们旨在追踪和总结传销的最新进展。首先，我们提出了mlm的基本表述，并描述了mlm的相关概念，包括体系结构、训练策略和数据以及评估。然后，我们介绍了关于如何扩展mllm以支持更多粒度、模式、语言和场景的研究主题。我们继续研究多模态幻觉和扩展技术，包括多模态ICL (M-ICL)、多模态CoT (M-CoT)和llm辅助视觉推理(LAVR)。最后，我们讨论了存在的挑战，并指出了未来的研究方向。鉴于传销的时代才刚刚开始，我们会不断更新这个调查，希望它能启发更多的研究。收集最新论文的相关GitHub链接可在https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models上获得。

1.介绍

近年来法学硕士取得了显著的进步[1]，[2]，[3]，[4]，[5]。通过扩大数据规模和模型规模，这些法学硕士培养了非凡的应急能力，通常包括指令跟随[5]、[6]、情境学习(ICL)[7]和思维链(CoT)[8]。尽管llm在大多数自然语言处理(NLP)任务上表现出令人惊讶的零/几次推理性能，但它们本质上对视觉是“盲目的”，因为它们只能理解离散文本。同时，大视觉模型(Large Vision Models, lvm)可以清晰地看到[9]、[10]、[11]、[12]，但通常在推理上比较滞后。

鉴于这种互补性，LLM和LVM相互发展，导致了多模态大型语言模型(Multimodal Large Language Model, MLLM)的新领域。形式上，它指的是基于llm的模型，具有接收、推理和输出多模态信息的能力。在MLLM之前，已经有很多关于多模态的研究，多模态可以分为判别[13]、[14]、[15]和生成[16]、[17]、[18]两种范式。CLIP[13]作为前者的代表，将视觉和文字信息投射到一个统一的表示空间中，为下游的多模态任务搭建桥梁。OFA[16]是后者的代表，它以一种顺序到顺序的方式统一多模态任务。根据序列运算，MLLM可以归为后者，但与传统的MLLM相比，它表现出两个代表性特征:(1) MLLM基于具有十亿尺度参数的LLM，这是以往模型所没有的。(2) MLLM使用新的训练范式来释放其全部潜力，例如使用多模态指令调谐[19]，[20]来鼓励模型遵循新的指令。有了这两个特征，MLLM展示了新的能力，如基于图像编写网站代码[21]，理解模因的深层含义[22]，以及无ocr的数学推理[23]。

自从GPT-4[3]发布以来，由于它显示了惊人的多模式示例，因此对mlms的研究一直很狂热。学术界和工业界的共同努力推动了快速发展。对mllm的初步研究主要集中在基于文本提示和图像[20]、[24]/视频[25]、[26]/音频[27]的文本内容生成。后续工作扩展了功能或使用场景，包括:(1)更好的粒度支持。对用户提示进行更精细的控制，通过方框支持特定区域[28]或通过点击支持特定对象[29]。(2)增强了对输入输出模式的支持[30]，[31]，如图像、视频、音频和点云。除了输入，NExT-GPT[32]等项目还进一步支持不同形式的输出。(3)提高语言支持。人们已经努力将mlms的成功扩展到训练语料库相对有限的其他语言(例如汉语)[33]，[34]。(4)扩展到更多的领域和使用场景。一些研究将mllm的强大能力转移到其他领域，如医学图像理解[35]，[36]，[37]和文档解析[38]，[39]，[40]。此外，还开发了多模式代理来协助现实世界的交互，例如具身代理[41]，[42]和GUI代理[43]，[44]，[45]。MLLM时间线如图1所示。

鉴于这一领域的快速发展和可喜的成果，我们写了这个调查，以使研究人员掌握传销的基本思想，主要方法和目前的进展。请注意，我们主要关注视觉和语言形式，但也包括涉及其他形式的作品，如视频和音频。具体来说，我们用相应的摘要介绍了mlm最重要的方面，并打开了一个GitHub页面，该页面将实时更新。据我们所知，这是第一次关于传销的调查。

本次综述的结构如下：综述首先全面回顾了MLLMs的基本方面，包括（1）主流架构（§2）；（2）完整的训练策略和数据配方（§3）；（3）性能评估的常见实践（§4）。接着，我们深入讨论了关于MLLMs的一些重要主题，每个主题都聚焦于一个主要问题：（1）哪些方面可以进一步改进或扩展（§5）？（2）如何减轻多模态幻觉问题（§6）？综述接下来介绍了三种关键技术（§7），每种技术都专注于一个特定场景：M-ICL（§7.1）是一种常用于推理阶段以提高小样本性能的有效技术。另一项重要技术是M-CoT（§7.2），通常用于复杂推理任务。随后，我们概述了开发基于LLM的系统以解决复合推理任务或处理常见用户查询的通用想法（§7.3）。最后，我们以总结和潜在的研究方向结束本次综述。

2.体系结构

一个典型的LLM可以抽象为三个模块，即预训练的模态编码器、预训练的LLM和连接它们的模态接口。将图像/音频编码器等模态编码器类比为人类，它们是人类的眼睛/耳朵，负责接收和预处理光学/声学信号，而llm就像人类的大脑，能够理解和推理处理后的信号。在两者之间，模态接口用于对齐不同的模态。一些mlm还包括一个生成器来输出除文本之外的其他形式。该体系结构的示意图如图2所示。在本节中，我们将依次介绍每个模块。

图2:典型MLLM体系结构的说明。它包括一个编码器、一个连接器和一个LLM。可选的生成器可以附加到LLM以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征，这些特征由连接器处理，以便LLM能够更好地理解。连接器大致有三种类型:基于投影的、基于查询的和基于融合的连接器。前两种类型采用令牌级融合，将功能处理成令牌，然后与文本令牌一起发送，而最后一种类型在LLM中启用功能级融合。

2.1 Modality encoder模态编码器

编码器将原始信息(如图像或音频)压缩成更紧凑的表示形式。与其从头开始训练，一种常见的方法是使用与其他模式对齐的预训练编码器。例如，CLIP[13]通过对图像-文本对进行大规模预训练，集成了一个语义上与文本对齐的视觉编码器。因此，使用这种初始预对齐编码器通过对齐预训练更容易与llm对齐(见§3.1)。

常用的图像编码器系列如表1所示。除了普通的CLIP图像编码器[13]，一些作品还探索使用其他变体。如MiniGPT-4[21]采用EVA-CLIP [47]， [48] (viti - g /14)编码器，采用改进的训练技术进行训练。相比之下，Osprey[29]引入了基于卷积的ConvNext-L编码器[46]，以利用更高的分辨率和多层次特征。一些作品还探索了无编码器的架构。例如，Fuyu-8b[49]的图像块在发送给llm之前直接进行投影。因此，该模型自然支持灵活的图像分辨率输入。

在选择编码器时，通常会考虑分辨率、参数大小和预训练语料库等因素。值得注意的是，许多研究已经通过经验验证，使用更高的分辨率可以获得显著的性能提升[34]，[50]，[51]，[52]。放大输入分辨率的方法可分为直接放大法和贴片分割法。直接缩放方式将更高分辨率的图像输入到编码器，这通常需要进一步调整编码器[34]或用更高分辨率替换预训练的编码器[50]。类似地，CogAgent[44]使用双编码器机制，其中两个编码器分别处理高分辨率和低分辨率图像。通过交叉注意将高分辨率特征注入低分辨率分支。Patch-division方法将高分辨率图像分割成多个小块，再利用低分辨率编码器。例如，Monkey[51]和SPHINX[53]将大图像分成更小的小块，并将子图像与下采样的高分辨率图像一起发送给图像编码器，其中子图像和低分辨率图像分别捕获局部和全局特征。相比之下，经验研究发现，参数大小和训练数据组成与输入分辨率相比不那么重要[52]。

类似的编码器也可用于其他模式。例如，Pengi[27]使用CLAP[54]模型作为音频编码器。ImageBind- llm[30]使用ImageBind[55]编码器，该编码器支持对图像、文本、音频、深度、热和惯性测量单元(IMU)数据进行编码。配备强大的编码器，ImageBind-LLM可以响应多个模态的输入。

2.2 Pre-trained LLM

与其从头开始培训法学硕士，不如从一个预先训练好的法学硕士开始，这样更有效、更实用。通过对web语料库的大量预训练，法学硕士已经嵌入了丰富的世界知识，并表现出强大的泛化和推理能力。

我们在表2中总结了常用的和公开可用的法学硕士。值得注意的是，继GPT-3之后，大多数llm都属于因果解码器类别[7]。其中FlanT5[56]系列是BLIP-2[59]和InstructBLIP[60]等作品中较早使用的llm。LLaMA系列[5]、[57]和Vicuna家族[4]是备受学术界关注的具有代表性的开源llm。由于这两位法学硕士主要是在英语语料库上进行预训练，他们在多语言支持(如中文)方面受到限制。而Qwen[58]是一名中英文双语的LLM。

值得注意的是，增大llm的参数大小也会带来额外的收益，类似于增加输入分辨率的情况。具体而言，Liu等[50]，[61]发现只需将LLM从7B扩展到13B，就可以在各种基准上得到全面改善。此外，当使用34B LLM时，考虑到在训练期间仅使用英语多模态数据，该模型显示出紧急零射击中文能力。Lu等人[62]通过将llm从13B扩展到35B和65B/70B看到了类似的现象，其中更大的模型尺寸在专门为llm设计的基准上带来了一致的收益。还有一些作品使用较小的llm来促进在移动设备上的部署。例如，MobileVLM系列[63]，[64]使用缩小版的LLaMA[5](称为MobileLLaMA 1.4B/2.7B)，能够在移动处理器上进行高效推理。

最近，法学硕士对混合专家(MoE)架构的探索引起了越来越多的关注[65]，[66]，[67]。与密集模型相比，稀疏结构通过选择性激活参数，可以在不增加计算成本的情况下扩大总参数大小。从经验上看，MM1[52]和MoE- llava[68]发现，在几乎所有的基准测试中，MoE的实现都比密集的实现取得了更好的性能。

2.3 Modality interface

由于法学硕士只能感知文本，弥合自然语言和其他模式之间的差距是必要的。然而，以端到端方式训练大型多模式模型将是昂贵的。一种更实用的方法是在预训练的视觉编码器和LLM之间引入一个可学习的连接器。另一种方法是在专家模型的帮助下将图像翻译成语言，然后将语言发送给LLM。

Learnable Connector.可学的连接器。它负责弥合不同模式之间的差距。具体来说，该模块将信息投射到LLM能够有效理解的空间中。基于多模态信息融合的方式，实现多模态信息接口的方法大致有两种，即符号级融合和特征级融合。

对于令牌级融合，编码器输出的特征被转换为令牌，并在发送到llm之前与文本令牌连接。一种常见且可行的解决方案是利用一组可学习的查询令牌以基于查询的方式提取信息[69]，这种方法首先在BLIP-2中实现[59]，随后被各种工作所继承[26]，[60]，[70]。这种q - former风格的方法将视觉标记压缩成数量较少的表示向量。相比之下，一些方法只是使用基于mlp的接口来弥合模态差距[20]，[37]，[71]，[72]。例如，LLaVA系列采用1 / 2线性MLP[20]，[50]来投影视觉标记，并将特征维度与词嵌入对齐。

与此相关的是，MM1[52]对连接器的设计选择进行了研究，发现对于令牌级融合，模态适配器的类型远不如视觉令牌数量和输入分辨率重要。然而，Zeng等人[73]比较了令牌级融合和特征级融合的性能，并经验地揭示了令牌级融合变体在VQA基准方面表现更好。关于性能差距，作者建议交叉注意模型可能需要更复杂的超参数搜索过程来实现可比较的性能。

作为另一行，特征级融合插入了额外的模块，可以在文本特征和视觉特征之间进行深度交互和融合。例如，Flamingo[74]在llm的冻结Transformer层之间插入额外的交叉注意层，从而通过外部视觉线索增强语言特征。类似地，CogVLM[75]在每个Transformer层中插入一个视觉专家模块，以实现视觉和语言特征之间的双重交互和融合。为了获得更好的性能，引入模块的QKV权重矩阵是从预训练的LLM初始化的。类似地，LLaMA-Adapter[76]在Transformer层中引入了可学习的提示。这些提示首先嵌入视觉知识，然后将文本特征作为前缀连接起来。

在参数大小方面，与编码器和llm相比，可学习接口通常只占很小的一部分。以Qwen-VL[34]为例，Q-Former的参数大小约为0.08B，占整个参数的比例不到1%，而编码器和LLM分别约占19.8% (1.9B)和80.2% (7.7B)。

Expert Model.专家模式。除了可学习的界面，使用专家模型，如图像字幕模型，也是一种可行的方法来弥合模态差距[77]，[78]，[79]，[80]。其基本思想是将多模态输入转换为无需训练的语言。通过这种方式，法学硕士可以通过转换的语言理解多模态。例如，videchat - text[25]使用预训练的视觉模型提取动作等视觉信息，并使用语音识别模型丰富描述。虽然使用专家模型很简单，但它可能不如采用可学习的界面那么灵活。将外文格式转换为文本会造成信息丢失。例如，将视频转换为文本描述会扭曲时空关系[25]。

3 .培训策略和数据

一个成熟的MML要经历三个阶段的训练，即预训练、指令调优和校准调优。培训的每个阶段需要不同类型的数据，实现不同的目标。在本节中，我们将讨论培训目标，以及每个培训阶段的数据收集和特征。

3.1 Pre-training

3.1.1 Training Detail

预训练是训练的第一个阶段，主要目的是对齐不同的模态，学习多模态的世界知识。预训练阶段通常需要大规模的文本配对数据，例如标题数据。通常，标题对用自然语言句子描述图像/音频/视频。

在这里，我们考虑一个常见的场景，即训练MML使视觉与文本对齐。如表3所示，给定一张图像，该模型经过训练，可以自回归地预测图像的标题，遵循标准的交叉熵损失。一种常见的预训练方法是保持预训练模块(如视觉编码器和llm)冻结，并训练一个可学习的界面[20]，[35]，[72]。这个想法是在不丢失预先训练的知识的情况下调整不同的模式。一些方法[34]，[81]，[82]还解冻了更多模块(例如视觉编码器)，以启用更多可训练的参数进行对齐。需要注意的是，训练方案与数据质量密切相关。对于短而有噪声的标题数据，可以采用较低的分辨率(例如224)来加快训练过程，而对于较长且更清晰的数据，最好使用较高的分辨率(例如448或更高)来减轻幻觉。此外，ShareGPT4V[83]发现，在预训练阶段有高质量的标题数据时，解锁视觉编码可以促进更好的对齐。

3.1.2 Data

预训练数据主要有两个目的，即(1)对齐不同的模式(2)提供世界知识。预训练语料库根据粒度可以分为粗粒度和细粒度数据，我们将依次介绍。我们总结了表4中常用的预训练数据集。

粗粒度标题数据具有一些典型的共同特征:(1)数据量大，因为样本通常来自互联网。(2)由于web涂写的性质，这些标题通常是短而嘈杂的，因为它们来自网络图像的替代文本。这些数据可以通过自动工具进行清理和过滤，例如，使用CLIP[13]模型过滤出相似度低于预定义阈值的图像文本对。接下来，我们将介绍一些具有代表性的粗粒度数据集。

CC. CC- 3m[84]是一个包含3.3万个图像标题对的网络规模标题数据集，其中原始描述来自与图像相关的alt-text。作者设计了一个复杂的数据清洗流水线:(1)对图像进行过滤，过滤出内容或宽高比不合适的图像。(2)对于文本，使用NLP工具获取文本注释，并根据设计的启发式对样本进行过滤。(3)对于图像-文本对，通过分类器为图像分配标签。如果文本注释不与图像标签重叠，则丢弃相应的样本.

CC-12M[85]是CC-3M的后续作品，包含12.4万个图像标题对。与之前的工作相比，CC-12M放松和简化了数据采集管道，从而收集了更多的数据。

SBU字幕[86]。它是一个带标题的照片数据集，包含1M对图像-文本，图像和描述来自Flickr。具体来说，通过使用大量查询词查询Flickr网站来获取一组初始图像。因此，附在图像上的描述可作为说明文字。然后，为了确保描述与图像相关，保留的图像满足以下要求:(1)图像描述的长度是令人满意的，由观察决定。(2)图像的描述包含至少2个预定义术语列表中的单词和一个通常表示空间关系的命题词(例如“on”，“under”)。

LAION。这个系列是大型的网络规模的数据集，从互联网上潦草的图像和相关的替代文本作为标题。为了过滤图像-文本对，执行以下步骤:(1)丢弃长度短的文本或尺寸太小或太大的图像。(2)基于URL的图像重复数据删除。(3)提取图像和文本的CLIP[13]嵌入，并使用嵌入删除可能非法的内容和嵌入之间余弦相似度低的图像-文本对。在这里，我们提供了一些典型变体的简要总结:

•LAION-5B[87]:它是一个具有5.85B图像-文本对的研究目的数据集。该数据集是多语言的，具有2B英语子集。

•LAION-COCO[88]:包含从LAION-5B的英文子集中提取的6亿张图像。标题是合成的，使用BLIP[89]生成各种图像标题，并使用CLIP[13]选择最适合图像的标题。

coyo - 700 m[90]。它包含747M个图像-文本对，这些图像-文本对是从CommonCrawl中提取的。对于数据过滤，作者设计了以下策略:(1)对于图像，过滤尺寸、内容、格式或宽高比不合适的图像。此外，基于pHash值对图像进行过滤，以去除与ImageNet和MS-COCO等公共数据集重叠的图像。(2)文本方面，只保存长度、名词形式和合适的单词的英文文本。语句前后的空白将被删除，连续的空白字符将被单个空白替换。此外，出现超过10次的文本(例如“image for”)将被删除。(3)对于图像-文本对，基于(image pHash, text)元组去除重复样本。

最近，更多的研究[83]、[91]、[92]探索了通过提示强mllm(如GPT-4V)生成高质量的细粒度数据。与粗粒度数据相比，这些数据通常包含更长的和更准确的图像描述，从而实现图像和文本模式之间的细粒度对齐。但是，由于这种方法通常需要调用商业用途的mllm，因此成本较高，数据量相对较小。值得注意的是，ShareGPT4V[83]通过首先使用gpt - 4v生成的100K数据训练captioner，然后使用预训练的captioner将数据量扩展到1.2M，达到了一种平衡。

3.2 Instruction-tuning

3.2.1 Introduction

指令是指对任务的描述。直观地说，指令调优的目的是教会模型更好地理解用户的指令并完成所需的任务。通过这种方式进行调优，llm可以通过遵循新指令来推广到未见过的任务，从而提高零命中率性能。这个简单而有效的想法引发了后续NLP工作的成功，如ChatGPT[2]、InstructGPT[95]、FLAN[19]、[56]和OPT-IML[96]。

指令调整与相关典型学习范式的比较如图3所示。监督微调方法通常需要大量特定任务的数据来训练特定任务的模型。提示方法减少了对大规模数据的依赖，可以通过提示工程来完成特定的任务。在这种情况下，虽然少射性能有所提高，但零射性能仍然很一般[7]。不同的是，指令调优学习如何泛化到不可见的任务，而不是像两个对应的任务那样拟合特定的任务。此外，指令调优与多任务提示高度相关[97]。

该图比较了三种学习范式：微调模型需任务特定数据（Pretrain-Finetune），提示通过少量示例推理（Prompting），而指令调优模型可跨多个任务泛化（Instruction Tuning）。

在本节中，我们描述了教学样本的格式、训练目标、典型的教学数据收集方法以及相应的常用数据集.

3.2.2 Training Detail

表5:构建多模态指令数据的简化模板。<指令>是任务的文本描述。{， }和分别是数据样本的输入和输出。请注意，对于某些数据集，输入中的可能会被遗漏，例如图像标题数据集只有。这个例子改编自[98]。

3.2.3 Data Collection

由于指令数据的格式更灵活，任务公式也多种多样，因此收集数据样本通常更棘手，成本也更高。在本节中，我们总结了三种典型的大规模获取指令数据的方法，即数据适应、自我指导和数据混合。

Data Adaptation.特定于任务的数据集是高质量数据的丰富来源。因此，大量的研究[60]、[70]、[76]、[82]、[101]、[102]、[103]、[104]利用现有的高质量数据集构建指令格式的数据集。以VQA数据集的转换为例，原始样本是一个输入输出对，其中输入包括图像和自然语言问题，输出是基于图像的问题的文本答案。这些数据集的输入-输出对可以自然地包含指令样本的多模态输入和响应(见§3.2.2)。指令，即任务的描述，可以来自手动设计，也可以来自GPT辅助下的半自动生成。具体来说，一些作品[21]、[35]、[60]、[70]、[102]、[105]手工制作了一个候选指令库，并在训练期间对其中一个进行采样。我们为VQA数据集提供了一个指令模板示例，如表6所示。其他作品手工设计一些种子指令，并使用这些指令提示GPT生成更多的种子指令[25]，[82]，[98]。

请注意，由于现有VQA和标题数据集的答案通常很简洁，因此直接使用这些数据集进行指令调优可能会限制mllm的输出长度。解决这个问题有两种常见的策略。第一个是在指令中明确指定。例如，ChatBridge[104]对简短回答数据显式声明short和brief，对常规粗粒度标题数据显式声明句子和单句。第二种方法是延长现有答案的长度[105]。例如，M3 IT[105]提出通过用图像的原始问题、答案和上下文信息(例如标题和OCR)提示ChatGPT来改写原始答案。

Self-Instruction.尽管现有的多任务数据集可以提供丰富的数据源，但它们通常不能很好地满足人类在现实场景中的需求，例如多轮对话。为了解决这个问题，一些作品通过自我指导收集样本[106]，利用llm使用少量手工注释的样本生成文本指令遵循数据。具体来说，一些指令下面的样本是手工制作的示范，之后，ChatGPT/GPT-4被提示生成更多的指令样本与示范作为指导。LLaVA[20]将该方法扩展到多模态领域，将图像翻译成带有字幕和边界框的文本，并在需求和演示的指导下提示纯文本GPT-4生成新数据。通过这种方式，构建了一个多模态指令数据集，称为llava - instruction -150k。根据这一思路，随后的作品如MiniGPT-4[21]、ChatBridge[104]、GPT4Tools[107]和DetGPT[72]开发了不同的数据集，以满足不同的需求。近年来，随着功能更强大的多模态模型GPT4V的发布，许多研究都采用GPT-4V来生成更高质量的数据，如LVIS-Instruct4V[91]和ALLaVA[92]。我们在表7中总结了通过自我指导生成的流行数据集。

数据混合。除了多模态指令数据，纯语言的用户助理会话数据也可用于提高会话熟练程度和指令遵循能力[81]、[98]、[101]、[103]。LaVIN[101]通过从纯语言和多模态数据中随机抽样，直接构建了一个minibatch。multidirective[102]通过融合单模态和多模态数据探讨了不同的训练策略，包括混合指令调优(将两种类型的数据结合起来并随机洗牌)和顺序指令调优(文本数据之后是多模态数据)。

提示的多样性。指令的多样性已被发现是模型性能的关键。Lynx[73]通过实证验证了多样化提示有助于提高模型性能和泛化能力。

Task Coverage.在训练数据所涉及的任务方面，Du等[109]进行了实证研究，发现视觉推理任务在提升模型性能方面优于字幕和QA任务。此外，该研究表明，提高指令的复杂性可能比增加任务多样性和结合细粒度空间注释更有益。

3.3 Alignment tuning

3.3.1 Introduction

校准调整更常用于模型需要与特定的人类偏好保持一致的场景，例如，较少幻觉的反应(见§6)。目前，基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)是两种主要的对齐调整技术。在本节中，我们将依次介绍这两种技术的主要思想，并提供一些如何在解决实际问题中使用它们的示例，最后给出相关数据集的汇编。

3.3.2 Training Detail

3.3.3数据

对准调优收集数据的要点是收集模型响应的反馈，即决定哪个响应更好。通常，收集此类数据的成本更高，并且此阶段使用的数据量通常比前几个阶段使用的数据量还要少。在这一部分中，我们介绍了一些数据集，并在表8中进行了总结。

LLaVA-RLHF[112]。它包含了从诚实和乐于助人的人类反馈中收集的10K个偏好对。该数据集主要用于减少模型反应中的幻觉。

RLHF-V[114]。它有5.7万个细粒度的人类反馈数据，这些数据是通过片段级别的幻觉修正收集的。

VLFeedback[115]。它利用人工智能对模型的反应提供反馈。该数据集包含超过380K个比较对，由GPT-4V在帮助、忠诚和道德问题方面打分。

4评价

评估是开发mlm的重要组成部分，因为它为模型优化提供反馈，并有助于比较不同模型的性能。与传统多模态模型的评价方法相比，多模态模型的评价呈现出以下几个新特点:(1)多模态模型具有通用性，对多模态模型进行综合评价具有重要意义。(2) mlm表现出许多需要特别关注的突发能力(例如无ocr数学推理)，因此需要新的评估方案。根据问题类型的不同，mlm的评价可以大致分为闭集和开集两种类型。

4.1 Closed-set

闭集问题指的是一种问题，其中可能的答案选项是预定义的，并且限制在一个有限的集合中。评估通常在任务特定的数据集上执行。在这种情况下，响应可以自然地通过基准指标来判断[20]、[60]、[70]、[76]、[101]、[102]、[103]、[104]。例如，instructlip[60]报告了ScienceQA[116]上的准确性，以及NoCaps[118]和Flickr30K[119]上的CIDEr分数[117]。评估设置通常为零射击[60]、[102]、[104]、[105]或微调[20]、[35]、[60]、[70]、[76]、[101]、[103]、[105]。第一种设置通常选择范围广泛的数据集，涵盖不同的一般任务，并将它们分为保留数据集和保留数据集。在对前者进行调优后，使用未见过的数据集甚至未见过的任务对后者进行零射击性能评估。

上述评价方法通常局限于小范围的选定任务或数据集，缺乏全面的定量比较。为此，一些人努力开发专门为mllm设计的新基准[123]，[124]，[125]，[126]，[127]，[128]，[129]。例如，Fu等[123]构建了一个综合评价基准MME，共包括14个感知和认知任务。MME中的所有指令-答案对都是手动设计的，以避免数据泄漏。MMBench[124]是专门为评估模型能力的多个维度而设计的基准，使用ChatGPT将开放响应与预定义选择相匹配。video - chatgpt[130]和video - bench[131]关注视频域，并提出专门的基准和评估工具进行评估。还有一些评估策略旨在评估模型的特定方面[102]，如POPE[132]用于评估幻觉程度。

4.2 Open-set

与封闭集问题相比，对开放集问题的回答可以更加灵活，其中mlm通常扮演聊天机器人的角色。由于聊天的内容可以是任意的，因此判断它比判断封闭输出更棘手。该标准可分为手动评分、GPT评分和案例研究。手动评分需要人工评估生成的响应。这种方法通常涉及到设计用于评估特定维度的手工问题。例如，mPLUG-Owl[81]收集了一个视觉相关的评估集来判断自然图像理解、图表和流程图理解等能力。类似地，GPT4Tools[107]分别为微调和零射击性能构建了两个集合，并从思想、行动、论据和整体方面评估响应。

由于人工评估是劳动密集型的，一些研究者探索了用GPT进行评分，即GPT评分。这种方法常用于评价多模态对话的表现。LLaVA[20]提出通过纯文本GPT-4从不同方面(如有用性和准确性)对回答进行评分。具体来说，从COCO[133]验证集中采样了30张图像，每张图像通过GPT-4的自我指导与一个简短问题、一个详细问题和一个复杂的推理问题相关联。由模型和GPT-4生成的答案将发送给GPT-4进行比较。随后的研究遵循了这一思路，并提示ChatGPT[81]或GPT-4[35]、[70]、[101]、[104]、[105]对结果进行评分[35]、[70]、[81]、[101]、[104]或判断哪一个更好[103]。

应用纯文本GPT-4作为评估器的一个主要问题是，判断仅基于与图像相关的文本内容，如标题或边界框坐标，而不访问图像[35]。因此，在这种情况下，将GPT-4设置为性能上限可能是有问题的。随着GPT视觉接口的发布，一些作品[77]，[134]利用更先进的GPT- 4v模型来评估mllm的性能。例如，啄木鸟[77]采用GPT-4V根据图像判断模型答案的响应质量。由于GPT-4V可以直接访问图像，因此预计评估将比仅使用文本的GPT-4更准确。

一种补充方法是通过案例研究比较mllm的不同功能。例如，一些研究评估了两种典型的先进商用模型，GPT-4V和Gemini。Yang等人[135]通过在不同领域和任务中制作一系列样本，对GPT-4V进行了深入的定性分析，这些样本涵盖了从初级技能(如标题和物体计数)到需要世界知识和推理的复杂任务(如笑话理解和作为具具代理的室内导航)。Wen等[136]通过设计针对自动驾驶场景的样本，对GPT-4V进行了更有针对性的评估。Fu等[137]通过与GPT-4V进行比较，对Gemini-Pro进行了综合评价。结果表明，尽管反应风格不同，GPT-4V和Gemini表现出相当的视觉推理能力。

5扩展

最近的研究在扩展多模态大语言模型（MLLMs）能力方面取得了显著进展，涵盖了从更强的基础能力到更广泛的场景覆盖。我们追踪了MLLMs在这一方面的主要发展。

粒度支持。为了促进代理和用户之间更好的互动，研究人员开发了支持更细粒度输入和输出的MLLMs。在输入方面，逐步开发了支持用户提示更精细控制的模型，从图像到区域[28]，[138]，[139]，甚至像素[29]，[140]，[141]。具体来说，Shikra[28]支持区域级输入和理解。用户可以通过引用特定区域（这些区域以自然语言形式的边界框表示）与助手更灵活地互动。Ferret[141]更进一步，开发了一种混合表示方案，支持更加灵活的引用。该模型支持不同形式的提示，包括点、框和草图。同样，Osprey[29]通过利用分割模型[9]支持点输入。借助预训练分割模型的卓越能力，Osprey使得用户可以通过单击指定单个实体或其部分。在输出方面，随着输入支持的发展，基于图像的定位能力也得到了提升。Shikra[28]支持基于图像的响应，并带有边界框注释，从而实现了更高的精度和更精细的引用体验。LISA[142]进一步支持掩码级理解和推理，使得像素级定位成为可能。

根据您提供的图片内容，以下是中文的学术翻译：

模态支持。增加模态支持是MLLM研究的一个趋势。一方面，研究人员探索了使MLLM能够支持更多多模态内容输入，如3D点云[41][143][144][145]。另一方面，MLLMs也扩展到了生成更多模态的响应，如图像[32][146][147][148]、音频[32][147][149][150]和视频[32][151]。例如，NExT-GPT[32]提出了一个支持多种模态输入输出的框架，特别是文本、图像、音频和视频的组合，通过扩散模型[152][153]附加到MLLM。该框架采用编码解码器架构，并将LLM作为理解和推理的核心。

语言支持。当前的模型主要是单语的，可能是因为高质量的非英语训练语料库稀缺。因此，一些工作致力于开发多语言模型，以便覆盖更广泛的语言用户群。例如，VisCPM[33]通过设计一个多阶段的训练方案来提高多语言能力，特别是以英语为核心语言，并提供丰富的训练样本。利用一个预训练的双语LLM，多模态能力被转移到中文，通过在指令微调期间添加一些翻译样本。类似地，Qwen-VL[34]采用相同的方法，支持中英双语。在预训练期间，将中文语料混合到训练集中，以保持模型的双语能力，占整个语料库的22.7%。

场景/任务扩展。除了开发通用的个人助手之外，一些研究还集中在更加具体的场景上，在这些场景中需要考虑实际条件，而其他研究则将MLLM应用于具有特定要求的下游任务。

一种典型的趋势是将MLLMs适配到更具体的现实任务中。例如，MobileVLM[63]探索了为资源受限场景开发小规模MLLMs的方案。一些设计和技术被用于移动设备上的部署，如缩小模型规模和定量化技术来加快计算速度。其他工作则开发了与真实世界交互的应用助手[41][154][155]，如专门为图形用户界面（GUI）设计的用户友好型助手，如CogAgent[44]、AppAgent[43]和Mobile-Agent[45]。这些助手在规划和指导每个步骤以完成特定任务时，起到帮助人类与机器互动的作用。另一个关键方向是将MLLMs应用于解决不同领域的具体问题，例如文档理解[38][39][156][157]和医疗领域[35][36][57]。例如，mPLUG-DocOwl[38]利用多种文档形式进行微调，从而在OCR-free文档理解中增强了模型的表现。TextMonkey[39]则引入了多任务标注以改善理解，从而提高了模型性能。除了传统的文档图像和场景文本任务外，还引入了位置关系图，以减少幻觉并帮助模型在视觉信息中寻找真实线索。MLLMs还被扩展到医疗领域以改进理解，如Med-VLAD[158]将医学知识注入到基础LLM中，并开发了一个专门从事医学图像理解和问答的助手。

6 .多模态幻觉

多模态幻觉指的是MLLMs生成的响应与图像内容不一致的现象[77]。作为一个根本且重要的问题，该问题受到了广泛关注。本文简要介绍了一些相关概念和研究进展。

6.1 初步研究

当前关于多模态幻觉的研究可以进一步分类为三种类型[159]：

存在性幻觉是最基本的形式，意味着模型错误地声称图像中存在某些对象。
属性幻觉指的是错误描述某些对象的属性，例如未能正确识别狗的颜色。这通常与存在性幻觉相关，因为属性的描述应基于图像中实际存在的对象。
关系幻觉是一种更复杂的类型，它同样基于对象的存在性。它涉及对象之间关系的错误描述，例如相对位置和交互。

接下来，我们首先介绍一些具体的评估方法（见§6.2），这些方法有助于评估减轻幻觉的方法表现。然后，我们将详细讨论当前减少幻觉的方法，并根据每种方法所属的主要类别进行分类（见§6.3）。

6.2 评估方法

CHAIR[160] 是一种早期的指标，用于评估开放式描述中的幻觉水平。该指标衡量包含幻觉对象的句子比例或句子中提到的所有对象中包含幻觉对象的比例。相比之下，POPE[132] 是一种用于评估封闭集选择的方法。具体来说，使用二元选择的多重提示进行询问，查询图像中是否存在特定对象。该方法还涵盖了更具挑战性的设置，以评估MLLM的鲁棒性，结合数据统计进行分析。最终评估使用一种简单的监测机制，即通过检测关键词“是/否”，将开放式响应转换为封闭式的二元选择。使用类似的评估方法，MME[123] 提供了更全面的评估，涵盖了存在性、数量、位置和颜色等方面，如[77]中所示。

不同于先前通过匹配机制来检测并判定幻觉的方法，HaELM[161] 提出了使用仅限文本的LLM作为评判标准，自动评估MLLMs生成的描述是否与参考描述一致。鉴于仅限文本的LLM只能获取有限的图像上下文并需要参考注释，Woodpecker[77] 使用GPT-4V直接评估基于图像的模型响应。FaithScore[162] 是一种更细粒度的指标，其基于一种将描述性子句细化并分别评估每个子句的流程。基于以往的研究，AMBER[163] 是一种LLM无依赖的基准测试，它涵盖了区分任务和生成任务，并涉及三种类型的可能幻觉（详见§6.1）。

6.3 幻觉减轻方法

根据高层次的观点，当前的方法大致可分为三类：预修正、过程内修正和后修正。

预修正。一种直观且直接的解决方案是收集专门的数据（如带注释的数据）并使用这些数据进行微调，从而得到幻觉较少的模型。LRv-Instruction[164] 引入了一种视觉指令调整任务。除了常规的正向指令外，该数据集还精细地加入了不同语义层级的负指令，以鼓励模型生成与图像内容更一致的响应。LLaVA-RLHF[112] 收集了基于人类偏好的数据，并通过强化学习技术进行微调，使模型生成的答案更准确且减少幻觉。

过程内修正。另一类方法是通过改进架构设计或特征表示来减少幻觉。这类工作试图探讨幻觉的成因，并设计相应的修正方法，以减轻生成过程中的幻觉。HaILE-Switch[159] 对可能引起对象存在性幻觉的因素进行了实证分析，假设存在性幻觉源于对象未通过视觉编码，并且实际上是基于嵌入LLM中的知识进行推断。基于此假设，设计了一种连续控制因素，并引入了混合训练方案来控制推理过程中模型输出的幻觉程度。VCD[165] 认为对象幻觉来源于两个主要原因：即训练语料的统计偏差和嵌入LLM中的强语言模型特征。作者特别指出，向图像中注入噪声时，MLLMs 更倾向于生成基于语言模型的响应，而非基于图像内容进行响应生成，导致幻觉的出现。因此，该方法设计了一种简单的"先对比再对比"的机制，以抵消这些错误偏差。HiACL[166] 探讨了视觉和语言空间的嵌入，基于此提出了一种对比学习方案，旨在通过拉取跨模态的表示进行对比学习，从而推动非幻觉和幻觉对象之间的表征区分。

后修正。不同于之前的范式，后修正在生成后通过后处理来减轻幻觉，并纠正生成后的幻觉。Woodpecker[77] 是一种无训练的通用后修正框架。具体来说，该方法结合了后处理步骤来补充与图像上下文的联系，逐步纠正生成过程中产生的幻觉，并确保对象与图像一致。另一种方法LURE[167] 训练了一个专门的修正器，用于标记在描述中存在高不确定性的目标对象，并重新生成这些响应。

7.扩展技术

7.1 多模态上下文学习

上下文学习（ICL）是大语言模型（LLMs）的一项重要新兴能力。ICL有两个显著特点：（1）与传统的通过大量数据学习隐含模式的监督学习范式不同，ICL的核心是通过类比进行学习[168]。具体来说，在ICL设置中，LLMs通过几个示例以及一个可选的指令进行学习，并将其推广到新的问题上，从而在小样本条件下解决复杂和未见过的任务[22][169][170]。（2）ICL通常以无训练的方式实现[168]，因此可以灵活地集成到推理阶段的不同框架中。一种与ICL密切相关的技术是指令微调（见§3.2），经实验证明，这种技术可以增强ICL能力[19]。

在多模态LLMs的背景下，ICL已扩展到更多模态，形成了多模态上下文学习（M-ICL）。基于§3.2的设置，在推理阶段，M-ICL可以通过向原始示例中添加示例集（即上下文示例集）来实现。在这种情况下，模板可以如表9所示进行扩展。需要注意的是，虽然我们列出了两个上下文示例作为说明，但上下文示例的数量和顺序可以灵活调整。事实上，模型通常对示例展示的排列非常敏感[168][171]。

7.1.1 ICL能力的改进

近年来，越来越多的研究集中在增强ICL在不同场景下的性能。在本节中，我们追踪了该领域的发展，并总结了一些相关的研究工作。

MIMIC-IT[172] 将上下文学习与指令微调结合，构建了一个用于指令微调的包含多模态上下文的数据集。基于该数据集进行微调的模型在图像标题任务中展示了改进的小样本性能。Emu[173] 扩展了Flamingo[74]的想法，通过引入额外的模态到模型生成和相应的训练语料中。在所引入的视觉解码器（如Stable Diffusion）的帮助下，模型从额外的视觉监督中学习，并支持在输出格式和上下文推理方面提供更大的灵活性。具体来说，除了以纯文本回答外，模型还可以以图像形式给出响应。Sheng等[174] 采用了类似的思路，尝试将输出模态扩展到文本和图像中。与采用专门的图像编码器不同，该工作采用了一个统一的量化方案，并共享嵌入层。

一些其他研究探索了在特定设置下提高小样本学习性能的方法。Link-context learning[175] 侧重于加强图像与标签对之间的因果联系，并通过对比训练方案构建正负图像描述对。MMICL[176] 旨在增强在多相关图像上进行推理的能力。为加强图像与文本之间的联系，该工作提出了一个上下文方案，将交织的图像-文本数据转换为统一格式。Jeong[177] 发现，当插入少量不一致的图像或文本作为噪声时，MLLMs可能会生成与上下文不一致的响应。基于这一观察，该工作相应地提出了一种预过滤方法，以移除无关的上下文，并促进生成更连贯的响应。

7.1.2 应用

在多模态应用中，M-ICL主要用于两类场景：（1）解决各种视觉推理任务[22][74][178][179][180]；（2）教授LLMs如何使用外部工具[169][170][181]。前者通常涉及从几个特定任务的示例中学习，并推广到一个新的但相似的问题。从指令和示例中提供的信息中，LLMs能够理解任务的本质，并最终生成准确的答案。相较之下，工具使用的示例则更加细化，通常由一系列可以按顺序执行的步骤组成，以完成任务。因此，第二类场景与CoT（链式思维）密切相关（见§7.2）。

7.2 多模态链式思维（Multimodal Chain of Thought）

正如开创性工作[8]指出的那样，CoT是一系列中间推理步骤，已被证明在复杂推理任务中有效[8][182][183]。CoT的主要思想是促使LLMs不仅输出最终答案，还输出得出答案的推理过程，类似于人类的认知过程。

受到NLP领域成功的启发，多个工作[184][185][186][187]提出了将单模态CoT扩展到多模态CoT（M-CoT）。我们首先介绍了获取M-CoT能力的不同范式（见§7.2.1），然后说明了M-CoT的具体应用，包含链式结构的配置（见§7.2.2）和模式（见§7.2.3）。

7.2.1 学习范式

学习范式同样是一个值得探讨的方面。获取M-CoT能力的途径主要有三种：通过微调和无训练/少样本学习。样本规模的要求随这三种方式的减少而递减。

通常，微调方法涉及精心挑选与CoT学习密切相关的特定数据集。例如，Lu等人[116] 提出了一个科学问题回答数据集ScienceQA，其中包含讲座和解释，这些内容可以作为学习CoT推理的来源，并进一步优化在该数据集上的模型。Multimodal-CoT[185] 也使用ScienceQA基准，但生成的输出是一个两步法，即推理链条（推理步骤链）和基于推理链的最终答案。CoT-PT[187] 通过提示微调和特定步骤的视觉偏差结合，隐式地学习推理链条。

与微调相比，少样本/无样本学习在计算上更为高效。两者的主要区别在于，少样本学习通常需要手工制作一些上下文示例，以便模型更容易逐步学习推理。相较之下，无样本学习不需要任何特定的CoT学习示例。在这种情况下，模型通过提示设计的指令，例如“让我们逐帧分析”[184][186]，从嵌入的知识和推理能力中学习推理链。此外，一些工作[22][188]通过任务描述和工具使用来分解复杂任务为子任务，并提示模型进行推理。

7.2.2 链式配置

结构和长度是推理链中的两个关键方面。从结构上看，当前的方法可以分为单链和树形链两种。使用单链进行推理是一种在各种方法中广泛使用的范式[116][185]。具体而言，逐步推理过程形成了一个单一的问题-推理-答案链。最近，一些方法探索了使用更复杂的结构，例如树形链进行推理。具体来说，DDCoT[189] 将一个问题分解为多个子问题，每个子问题由LLM本身或视觉专家解决并生成推理链条。然后，LLM整合这些推理链条并进行推理以生成最终答案。

关于链的长度，可以分为自适应和预定义两种形式。自适应配置要求LLMs自行决定何时停止推理链[22][116][169][170][185][188]，而预定义配置则在达到预设长度时停止推理链[79][184][186][187]。

7.2.3 生成模式

推理链是如何构建的也是一个值得研究的问题。我们将当前的工作总结为两种模式：（1）基于填充的模式；（2）基于预测的模式。具体来说，基于填充的模式要求通过推断上下文（前后步骤）之间的步骤来填补逻辑空隙[184][186]。相比之下，基于预测的模式要求根据指令和先前的推理历史扩展推理链条[22][116][169][170][185][188]。这两种模式都要求生成的步骤具有一致性和正确性。

7.3 基于LLM的视觉推理

7.3.1 引言

受工具增强型LLMs成功的启发[190][191][192][193]，一些研究探索了调用外部工具[22][107][169][170]或视觉基础模型[22][79][80][188][194][195][196]来执行视觉推理任务的可能性。这些研究在构建任务特定[79][197][198]或通用[22][169][170][181][188]的视觉推理系统时，将LLMs视为具有不同角色的助手。

与传统的视觉推理模型相比[199][200][201]，这些研究展现出几个显著的优势：（1）强大的泛化能力。得益于从大规模预训练中学习到的丰富的开放世界知识，这些系统能够轻松泛化到未见过的对象或概念，在零样本/小样本场景中表现出色[169][170][195][197][198][202]。（2）新兴能力。借助LLMs的强大推理能力，这些系统可以执行复杂的任务。例如，给定一张图片，MM-REACT[22] 可以解释图像表面之下的含义，例如解释某个表情包为什么好笑。（3）更好的交互性和控制。传统模型通常只允许有限的控制机制，并且往往需要昂贵的人工标注数据集[203][204]。相比之下，基于LLM的系统具有在用户友好的界面中进行精细控制的能力（例如点击和自然语言查询）[79]。

在这一部分中，我们首先介绍了用于构建基于LLM的视觉推理系统的不同训练范式（见§7.3.2）。然后，我们深入探讨了LLMs在这些系统中扮演的主要角色（见§7.3.3）。

7.3.2 训练范式

根据训练范式，基于LLM的视觉推理系统可以分为两种类型，即无训练和微调。

无训练。由于在预训练的LLMs中存储了大量的先验知识，一种直观且简单的方法是冻结这些模型，并直接提示LLMs来满足各种需求。根据具体设置，推理系统可以进一步分为小样本模型[22][169][170][181]和零样本模型[79][197]。小样本模型包含少量手工制作的上下文示例（见§7.1），用于引导LLMs生成程序或执行步骤序列。这些程序或执行步骤作为基础模型或外部工具/模块的指令。零样本模型进一步利用LLMs的语言学/语义知识或推理能力。例如，PointCLIP V2[197] 提示GPT-3生成与3D相关的语义描述，以更好地与相应的图像对齐。在CAT[79] 中，LLMs用于根据用户查询微调图像描述。

微调。一些工作采用进一步微调来改善工具使用的规划能力[107]或提高系统的定位能力[142][205]。例如，GPT4Tools[107] 引入了指令微调方法（见§3.2）。相应地，使用了新的工具相关指令数据集进行微调以增强模型。

7.3.3 功能

为了进一步考察LLMs在基于LLM的视觉推理系统中究竟扮演了什么角色，现有的相关工作将这些角色分为三类：

控制器（Controller）的角色
决策者（Decision Maker）的角色
语义优化器（Semantics Refiner）的角色

前两种角色与CoT（见§7.2）相关。通常复杂任务需要分解为中间的更简单步骤。当LLMs作为控制器时，系统经常在单一回合内完成任务，而在决策者角色中，多轮交互更为常见。我们将详细说明LLMs如何在以下部分中承担这些角色。

LLM作为控制器。在这种情况下，LLMs作为中央控制器，执行以下两项工作：（1）将复杂任务分解为更简单的子任务/步骤；（2）将这些任务分配给适当的工具/模块。第一步通常通过利用LLMs的CoT能力来完成。具体来说，LLMs被明确提示输出任务规划[181]，或更直接地调用相应的模块[107][169][170]。例如，VisProg[170] 提示GPT-3输出一个虚拟程序，其中每个程序行调用一个模块来执行子任务。此外，LLMs需要输出模块调用的参数名称。为了处理这些复杂的要求，一些手工制作的上下文示例被用作参考[169][170][181]。这与推理链的优化（见§7.2）紧密相关，尤其是最少到最多提示法[206]。通过这种方式，复杂问题被分解为依次解决的子问题。

LLM作为决策者。在这种情况下，复杂任务往往以多轮的方式进行，通常通过迭代交互完成[195]。决策者通常履行以下职责：（1）总结当前上下文和历史信息，并决定当前步骤是否有足够的信息来回答问题或完成任务；（2）以用户友好的方式组织并汇总答案呈现。

LLM作为语义优化器。当LLMs被用作语义优化器时，研究人员通常利用其丰富的语言学和语义知识。具体来说，LLMs经常被指示将不一致的信息整合为一致且流畅的自然语言句子[202]，或者根据不同的特定需求生成文本[79][197][198]。

8 挑战与未来方向

MLLM的开发仍处于初级阶段，因此有许多改进空间，我们总结如下：

目前的MLLM在处理长上下文的多模态信息方面能力有限。这限制了具有更多多模态标记的高级模型的开发，例如长视频理解以及图像和文本交错的长文档处理。
MLLM需要升级以适应更复杂的指令。例如，生成高质量问答对数据的主流方法仍然是通过提示闭源的GPT-4V进行，因为其具备先进的指令跟随能力，而其他模型通常很难实现这一点。
技术如M-ICL和M-CoT仍有很大的改进空间。目前对这两种技术的研究仍处于初级阶段，相关的MLLM能力较弱。因此，探索这些底层机制和潜在的改进方向是有希望的。
基于MLLM开发具体现实中的智能体是一个热门话题。开发这种能够与现实世界交互的智能体将具有重要意义。这类研究需要模型具备关键能力，包括感知、推理、规划和执行。
安全性问题。类似于LLMs，MLLM可能会受到精心设计的攻击的影响[177][207][208]。换句话说，MLLM可能被误导生成有偏见或不理想的响应。因此，提升模型的安全性将是一个重要话题。