51c多模态~合集2

whaosoft-143

已于 2025-05-12 22:45:58 修改

阅读量718

点赞数 9

分类专栏：人工智能文章标签：人工智能

于 2024-10-30 22:44:35 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143376995

版权

人工智能专栏收录该内容

326 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11586489

#史上最大多模态数据集

开源多模态大模型或将开始腾飞。

值此 Llama 3.1 占领各大头条之际，又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。

对大模型来说，数据集的重要性无需多言，甚至可以说没有大型数据集就不可能有大模型。现在正是多模态大模型（LMM）发展正盛的时候，规模足够大的优质且开源的多模态数据集已经成为该领域的一大「刚需」。

不过，相比于开源的文本数据集，现有的开源多模态数据集都比较小、多样性也不足，并且来源基本都是 HTML 文档 —— 这就限制了数据的广度和多样性。这无疑限制了开源 LMM 的发展，让开源 LMM 与闭源 LMM 之间的差异变得非常大。

近日，华盛顿大学、Salesforce Research 和斯坦福大学等机构的联合团队填补了这一空白，构建了一个万亿 token 级的交织多模态的开源数据集 MINT-1T（Multimodal INTerleaved）。毫无疑问，这是目前最大的开源多模态数据集。

数据集地址：https://github.com/mlfoundations/MINT-1T
论文地址：https://arxiv.org/abs/2406.11271
论文标题：MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

MINT-1T 共包含一万亿文本 token 和三十亿张图像，并且其有 HTML/PDF/ArXiv 等多种不同来源。在 MINT-1T 问世之前，该领域最大的开源数据集是 OBELICS，其包含 1150 亿文本 token 和 3.53 亿张图像，并且来源只有 HTML。图 1 比较了这些数据集。

数据集的构建

首先，该团队从多样化的来源（包括 HTML、PDF、ArXiv）收集了大量多模态数据，图 2 展示了这些不同来源的多模态文档样本。

然后，为了提高数据质量和安全性，他们执行了文本质量过滤、图像过滤、安全过滤（包括去除 NSFW 图像和可识别个人身份的信息）以及去重。图 3 简要展示了这些数据过滤过程。

最终，他们得到的 MINT-1T 数据集包含 9220 亿 HTML token、1060 亿 PDF token 和 90 亿 ArXiv token。值得注意的是，整个数据处理过程耗费了大约 420 万 CPU 小时数。表 1 对比了一些常见的开源或闭源多模态数据集。

模型实验

该团队也实验了使用该数据集训练多模态模型的效果，并与其它数据集进行了比较。

他们使用的模型架构是 Salesforce 的 XGen-MM，评估的则是模型在数据集上学习之后的上下文学习和多图像推理能力。评估基准包括：视觉描述基准（COCO 和 TextCaps）、视觉问答基准（VQAv2、OK-VQA、TextVQA 和 VizWiz）、多图像推理基准（MMMU 和 Mantis-Eval）。

实验结果

在 HTML 文档上训练

该团队首先对比了 MINT-1T 的 HTML 部分与 OBELICS；因为 OBELICS 是之前领先的多模态数据集并且也是基于 HTML 文档，他们基于这两个数据集分别用 100 亿多模态 token 训练了两个模型，并评估了它们的上下文学习性能。

表 2 给出了在常见基准上的 4-shot 和 8-shot 性能。

可以看到，对于 VQA（视觉问答）任务，在 MINT-1T HTML 文档上训练的模型表现优于在 OBELICS 训练的模型，但前者在视觉描述任务上表现更差一些。平均而言，OBELICS 比 MINT-1T (HTML) 略好一点。

添加 PDF 和 ArXiv 文档

之后，该团队又在 MINT-1T 全数据集上进行了测试，即同时包含 HTML、PDF 和 ArXiv 文档。他们通常采样了 100 亿多模态 token，其中 50% 来自 HTML、45% 来自 PDF、5% 来自 ArXiv。

结果同样见表 2，可以看到在 MINT-1T 混合数据上训练的模型在大多数基准上都优于在 OBELICS 和 MINT-1T (HTML) 上训练的模型。

而在更为复杂的多模态推理任务上，如表 3 所示，用 MINT-1T 训练的模型在 MMMU 上优于用 OBELICS 训练的模型，但在 Mantis-Eval 基准上不及后者。

更细粒度的测试和模型架构的影响请参考原论文。

这个超大规模的开源多模态数据集能否成为一系列传奇的起点，最终造就一个类似 Llama 系列模型那样的多模态大模型系列呢？让我们拭目以待吧。

#Bootstrapped Preference Optimization（BPO）

是真看到了，还是以为自己看到了？多模态大模型对文本预训练知识的过度依赖该解决了

本文第一作者皮仁杰是香港科技大学三年级博士生，师从张潼教授和周晓方教授。此前获得香港大学计算机工程学士学位。研究兴趣为多模态大语言模型，以数据为中心的人工智能，以及自动化机器学习。

随着大型语言模型（LLMs）的进步，多模态大型语言模型（MLLMs）迅速发展。它们使用预训练的视觉编码器处理图像，并将图像与文本信息一同作为 Token 嵌入输入至 LLMs，从而扩展了模型处理图像输入的对话能力。这种能力的提升为自动驾驶和医疗助手等多种潜在应用领域带来了可能性。

尽管 MLLMs 具有出色的图文理解能力，但它们仍然会出现错误或幻觉，生成与输入图像不相符的相应，例如回答不存在的对象或错误识别属性等。我们认为多模态大模型在不同训练阶段的数据量和训练时间的不平衡是产生这类偏见的主要原因之一。多模态大模型的语言模块往往使用了海量的文本数据进行预训练，而模态对齐阶段则使用更小的数据规模和更短的训练时间。

为了解决上述问题，我们提出了一种偏好对齐方法 --Bootstrapped Preference Optimization（BPO），能在缓解多模态大模型的幻觉现象的同时提升模型的视觉理解能力。

论文标题：Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
论文链接：https://arxiv.org/pdf/2403.08730
代码链接：https://github.com/pipilurj/bootstrapped-preference-optimization-BPO-

具体来讲，我们设计了两种方法去自动构建偏好学习的负样本，使得多模态模型对与训练的过度依赖暴露出来。之后，我们用原本的数据标注当作正样本，对多模态模型进行偏好微调。总的来说，我们的主要贡献有：

1. 我们提出了一种新的视角，将多模态对齐问题转化为偏好学习任务，其中预训练偏见和视觉理解能力被视为旧的和新的偏好；

2. 我们介绍了一种自动化构建大规模偏好数据集的方法。通过该方法能构造出大量带有预训练偏见信息的负面样本；

3. 在大量实验上证明了我们的方法能有效地提升多模态大模型对于图像的认知能力，训练后的模型在多个基准测试中性能得到提升。

可扩展的偏好数据集构建

对于偏好数据集的正面样本，已经有许多为监督微调而设计的现成数据集，例如通过 LlaVA 和 MiniGPT4 生成的高质量标注问答数据、ShareGPTV 利用强大的 GPT4-V 作为工具为图像生成高质量标题。我们将这些已标注完成的公开数据集作为偏好数据集中的正面响应，在保证高质量数据对的同时避免了昂贵的人工标注。

为了能收集到能反映预训练偏见的负面响应数据，我们提出了两种方法。

a. 弱化图像提示：我们给偏好数据集中的图片数据加上噪声，以此破坏图像特征，使多模态大模型在回答时更倾向原始的预训练分布，由此产生的错误响应会包含 LLM 模块的固有偏见。从图中可以看到，我们通过像图片中加入不同程度的噪声，正确答案出现的概率就越小，带有预训练偏见的答案出现的概率也就越大。

b. 错误注入：我们要求多模态大模型对应的大语言模型直接改写响应，要求模型生成与答案相近但不完全一样的错误回答。

接下来，我们采用直接偏好优化（DPO）对多模态模型进行优化：

实验评估

我们采用经过 BPO 微调过后的 LLaVA 模型（LLaVA-7B-BPO 和 LLaVA-13B-BPO）在 MM-Vet，LLaVA-Wild 和 Object HalBench 上测试。MM-Vet 和 LlaVA-Bench 是专门用来衡量模型综合能力的榜单，Object HalBench 则是评估多模态大模型的视觉可信度。

实验结果表明，经过 BPO 微调后的模型在三个基准测试榜单的所有任务中均取得领先。在大多数任务上，LLaVA-7B-BPO 的表现甚至超过了未曾微调的 LLaVa1.5-13B 模型。

我们还将 BPO 与监督微调训练（SFT）进行对比。我们通过直接使用数据集中的正样本作为监督数据对模型进行微调。实验表明经过 BPO 微调过的多模态大模型在不同类别的子任务下的表现均优于 SFT 微调。

在定性结果上，我们对比了 BPO 微调前后多模态大模型的表现。我们发现经过 BPO 微调后的模型能生成更忠诚于图像输入的答案，并且包含更少错误信息。

更多研究细节，可参考原论文。

#PreFLMR

剑桥大学团队开源：赋能多模态大模型RAG应用，首个预训练通用多模态后期交互知识检索器

本篇分享 ACL 2024 论文PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers，由剑桥大学团队开源，赋能多模态大模型 RAG 应用，首个预训练通用多模态后期交互知识检索器。

论文链接：https://arxiv.org/abs/2402.08327
项目主页：https://preflmr.github.io/

简介

PreFLMR模型是一个通用的预训练多模态知识检索器，可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。目前训练数据、预训练权重、微调代码等均已开源。该模型已在企业级RAG应用成功落地。作者团队将在8月10日-17日参加ACL 2024，欢迎学术交流和商业合作。

背景

尽管多模态大模型（例如GPT4-Vision、Gemini等）展现出了强大的通用图文理解能力，它们在回答需要专业知识的问题时表现依然不尽人意。即使GPT4-Vision也无法回答知识密集型问题（图一上），这成为了很多企业级落地应用的瓶颈。

图1：GPT4-Vision在PreFLMR多模态知识检索器的帮助下可以获得相关知识，生成正确的答案。图中展示了模型的真实输出。

针对这个问题，检索增强生成（RAG，Retrieval-Augmented Generation）提供了一个简单有效的让多模态大模型成为”领域专家”的方案：首先，一个轻量的知识检索器（Knowledge Retriever）从专业数据库（例如Wikipedia或企业知识库）中获得相关的专业知识；然后，大模型将这些知识和问题一起作为输入，生成准确的答案。多模态知识提取器的知识 “召回能力”直接决定了大模型在回答推理时能否获得准确的专业知识。

近期，剑桥大学信息工程系人工智能实验室完整开源了首个预训练、通用多模态后期交互知识检索器PreFLMR （Pre-trained Fine-grained Late-interaction Multi-modal Retriever）。相比以往常见的模型，PreFLMR有以下特点：

PreFLMR是一个可以解决文文检索，图文检索，知识检索等多个子任务的通用预训练模型。该模型经过百万级的多模态数据预训练后，在多个下游检索任务中取得了优秀的表现。同时，作为一个优秀的基底模型，PreFLMR在私有数据上稍加训练就能够获得表现极佳的领域专用模型。

图2：PreFLMR模型同时在多项任务上取得极佳的多模态检索表现，是一个极强的预训练基底模型。

传统的密集文本检索（Dense Passage Retrieval, DPR）只使用一个向量表征问询（Query）或文档（Document）。剑桥团队在NeurIPS 2023发表的FLMR模型证明了DPR的单向量表征设计会导致细粒度信息损失，导致DPR在需要精细信息匹配的检索任务上表现不佳。尤其是在多模态任务中，用户的问询（Query）包含复杂场景信息，压缩至一维向量极大抑制了特征的表达能力。PreFLMR继承并改进了FLMR的结构，使其在多模态知识检索中有得天独厚的优势。

图3：PreFLMR在字符级别（Token level）上编码问询（Query，左侧1、2、3）和文档（Document，右侧4），相比于将所有信息压缩至一维向量的DPR系统有信息细粒度上的优势。

PreFLMR能够根据用户输入的指令（例如“提取能用于回答以下问题的文档”或“提取与图中物品相关的文档”），从庞大的知识库中提取相关的文档，帮助多模态大模型大幅提升在专业知识问答任务上的表现。

图4：PreFLMR可以同时处理图片提取文档、根据问题提取文档、根据问题和图片一起提取文档的多模态问询任务。

剑桥大学团队开源了三个不同规模的模型，模型的参数量由小到大分别为：PreFLMR_ViT-B (207M)、PreFLMR_ViT-L (422M)、PreFLMR_ViT-G (2B)，供使用者根据实际情况选取。

除了开源模型PreFLMR本身，该项目还在该研究方向做出了两个重要贡献：

该项目同时开源了一个训练和评估通用知识检索器的大规模数据集，Multi-task Multi-modal Knowledge Retrieval Benchmark （M2KR），包含10个在学界中被广泛研究的检索子任务和总计超过百万的检索对。
在论文中，剑桥大学团队对比了不同大小、不同表现的图像编码器和文本编码器，总结了扩大参数和预训练多模态后期交互知识检索系统的最佳实践，为未来的通用检索模型提供经验性的指导。

下文将简略介绍M2KR数据集，PreFLMR模型，和实验结果分析。

M2KR 数据集

为了大规模预训练和评估通用多模态检索模型，作者汇编了十个公开的数据集并将其转换为统一的问题-文档检索格式。这些数据集的原本任务包括图像描述（image captioning），多模态对话（multi-modal dialogue）等等。下图展示了其中五个任务的问题（第一行）和对应文档（第二行）。

图5：M2KR数据集中的部分知识提取任务

PreFLMR检索模型

图6：PreFLMR的模型结构。问询（Query）被编码为Token-level的特征。PreFLMR对问询矩阵中的每一个向量，找到文档矩阵中的最近向量并计算点积，然后对这些最大点积求和得到最后的相关度。

PreFLMR模型基于发表于NeurIPS 2023的Fine-grained Late-interaction Multi-modal Retriever (FLMR)并进行了模型改进和M2KR上的大规模预训练。

相比于DPR，FLMR和PreFLMR用由所有的token向量组成的矩阵对文档和问询进行表征。Tokens包含文本tokens和投射到文本空间中的图像tokens。后期交互（late interaction）是一种高效计算两个表征矩阵之间相关性的算法。

具体做法为：对问询矩阵中的每一个向量，找到文档矩阵中的最近向量并计算点积。然后对这些最大点积求和得到最后的相关度。这样，每个token的表征都可以显式地影响最终的相关性，以此保留了token-level的细粒度（fine-grained）信息。

得益于专门的后期交互检索引擎，PreFLMR在40万文档中提取100个相关文档仅需0.2秒，这极大地提高了RAG场景中的可用性。

PreFLMR的预训练包含以下四个阶段：

文本编码器预训练：首先，在MSMARCO（一个纯文本知识检索数据集）上预训练一个后期交互文文检索模型作为PreFLMR的文本编码器。
图像-文本投射层预训练：其次，在M2KR上训练图像-文本投射层并冻结其它部分。该阶段只使用经过投射的图像向量进行检索，旨在防止模型过度依赖文本信息。
持续预训练：然后，在E-VQA，M2KR中的一个高质量知识密集型视觉问答任务上持续训练文本编码器和图像-文本投射层。这一阶段旨在提升PreFLMR的精细知识检索能力。
通用检索训练：最后，在整个M2KR数据集上训练所有权重，只冻结图像编码器。同时，将问询文本编码器和文档文本编码器的参数解锁进行分别训练。这一阶段旨在提高PreFLMR的通用检索能力。

同时，作者展示了PreFLMR可以在子数据集（如OK-VQA、Infoseek）上进一步微调以在特定任务上获得更好的检索性能。

实验结果和纵向扩展

最佳检索结果：表现最好的PreFLMR模型使用ViT-G作为图像编码器和ColBERT-base-v2作为文本编码器，总计二十亿参数。它在7个M2KR检索子任务（WIT，OVEN，Infoseek， E-VQA，OKVQA等）上取得了超越基线模型的表现。

扩展视觉编码更加有效：作者发现将图像编码器ViT从ViT-B（86M）升级到ViT-L（307M）带来了显著的效果提升，但是将文本编码器ColBERT从base（110M）扩展到large（345M）导致表现下降并造成了训练不稳定问题。实验结果表明对于后期交互多模态检索系统，增加视觉编码器的参数带来的回报更大。同时，使用多层Cross-attention进行图像-文本投射的效果与使用单层相同，因此图像-文本投射网络的设计并不需要过于复杂。

PreFLMR让RAG更加有效：在知识密集型视觉问答任务上，使用PreFLMR进行检索增强大大提高了最终系统的表现：在Infoseek和EVQA上分别达到了94%和275%的效果提升，经过简单的微调，基于BLIP-2的模型能够击败千亿参数量的PALI-X模型和使用Google API进行增强的PaLM-Bison+Lens系统。

结论

剑桥人工智能实验室提出的PreFLMR模型是第一个开源的通用后期交互多模态检索模型。经过在M2KR上的百万级数据预训练，PreFLMR在多项检索子任务中展现出强劲的表现。M2KR数据集，PreFLMR模型权重和代码均可以在项目主页 https://preflmr.github.io/ 获取。

拓展资源

FLMR paper (NeurIPS 2023): https://proceedings.neurips.cc/paper_files/paper/2023/hash/47393e8594c82ce8fd83adc672cf9872-Abstract-Conference.html
代码库：https://github.com/LinWeizheDragon/Retrieval-Augmented-Visual-Question-Answering
英文版博客：https://www.jinghong-chen.net/preflmr-sota-open-sourced-multi/
FLMR简介：https://www.jinghong-chen.net/fined-grained-late-interaction-multimodal-retrieval-flmr/

#mPLUG-Owl3

迈向多图长序列理解，阿里开源多模态大模型 mPLUG-Owl3

多模态多轮对话场景

长视频理解场景

阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式，到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯，再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。

尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展，当前对于多模态大模型来说，多图长序列输入仍然是一个极具挑战性的场景。如图1、2所示的多模态多轮对话、长视频理解等实际应用，就对模型的多图长序列理解能力提出了很高的要求。

现有的支持多图输入的工作，主要存在两个方面的缺陷：LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接，在多图长序列输入时会带来很高的推理成本；Flamingo等使用的cross-attention结构，虽然降低了计算成本，但造成了细粒度视觉信息的损失，限制了其在单图和多图场景的性能。

针对上述问题，阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3，该模型能够在支持多图长序列输入的同时，兼顾性能和效率。为实现这一点，作者提出轻量级的hyper attention模块，实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比，mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能。

paper: https://arxiv.org/pdf/2408.04840
code: https://github.com/X-PLUG/mPLUG-Owl/
HF: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
魔搭：https://modelscope.cn/studios/iic/mPLUG-Owl3

模型结构

mPLUG-Owl3模型的主体结构由视觉编码器SigLIP-400M、语言模型Qwen2和线性连接层组成。视觉编码器提取图像特征后，经线性层映射到与语言模型相同的维度。

作者在文本序列中使用了<|image|>作为图像标记位，并通过self-attention和cross-attention并行建模的方式将视觉特征融合到文本特征中。

与Flamingo、EVLM等工作在语言模型的每一层插入cross-attention层的做法不同，mPLUG-Owl3仅将网络的少数层拓展为提出的Hyper Attention Transformer Block (HATB)，从而避免了增加大量参数和计算。

模型结构

HATB模块

如下图(a)所示，Flamingo、IDEFICS等工作采用的cross-attention结构存在以下几点缺陷：(1) 增加大量参数和计算开销；(2) 视觉输入的理解无法受益于语言模型学习到的知识；(3) 未充分考虑图像在输入序列中的位置，限制其在多图场景的性能。

相比之下，作者提出的Hyper Attention Transformer Block (HATB)模块，通过共享LayerNorm、设置模态专属的Key-Value映射、自适应门控等设计，使得文本间的self-attention和跨模态的cross-attention能够高效地并行建模和自适应融合。

HATB模块

具体设计上，如图(b)所示，视觉特征与文本特征首先经过一个共享的LN层。作者在实验中发现，相比为视觉输入单独训练一个LN模块，视觉-语言共享同一个LN表现出更好的收敛性。经过LN层后，继承了mPLUG-Owl2的经验，其为视觉输入设置专属的Key-Value映射，而与文本输入共享相同的Query映射，从而在保留视觉模态特性的同时，使得语言模型能够基于文本语义自适应地获取需要的视觉信息。

在完成文本间self-attention和跨模态cross-attention的并行建模后，作者设计自适应门控机制，通过计算文本特征经线性映射后的激活值获得门控值，实现文本和视觉信息的自适应融合。

此外，作者在进行attention建模之前，引入了多模态交错的旋转位置编码MI-Rope来保留图文的位置信息。由于在文本序列中使用了<|image|>作为图像标记位，对于第n幅图片，其所有patch特征共享对应的标记位的位置编码，从而确保了位置编码不仅能反映图片的顺序，也能反映其在文本序列中的位置。

模型训练

在模型训练上，mPLUG-Owl3采用了三阶段的训练方式:

第一阶段的预训练中，作者从公开数据中收集和采样了约40M图文对用于跨模态对齐，并更新新引入的模块参数，即线性连接层、视觉KV映射以及动态门控模块的参数。
第二阶段多图预训练，为增强模型的多图理解能力，作者收集了交错图文、富文本图片和视频这三类数据，并对线性连接层和大语言模型的参数进行更新。
第三阶段指令微调，使用单图、多图、视频等不同类型的混合数据进行指令微调，训练设置与第二阶段保持一致。三个阶段使用的训练数据及比例如下表所示。

训练数据

实验结果

多图Benchmark评估结果

(多图) MIBench评估结果

作者首先在多个多图benchmark上评估了mPLUG-Owl3的性能。实验结果显示，在NLVR2、Mantis-Eval等多图数据集上，mPLUG-Owl3取得了SOTA性能，领先于Idefics2、Mantis、LLaVA-Interleave等多图模型。

在近期开源的大规模多图评测数据集MIBench上，mPLUG-Owl3也在涵盖多图指令和多模态外部知识等场景的多个任务中取得了大幅领先现有开源模型的效果。

视频数据集评估结果

在MVBench、VideoMME等视频多模态权威benchmark上，mPLUG-Owl3也取得了优于现有多图及视频多模态大模型的性能，体现出模型出色的视频理解能力。

VQA数据集评估结果

(单图)多模态Benchmark评估结果

此外，作者也在多个流行的VQA数据集以及单图输入的多模态benchmark上评估了mPLUG-Owl3的性能。可以看到，尽管mPLUG-Owl3是针对多图长序列设计的，其在单图场景同样具备十分出色的表现。

与相近参数规模的多模态大模型相比，在多个数据集上取得了SOTA效果，甚至在部分数据集上领先于更大参数规模的CogVLM、EVLM等模型。

超长多图序列评估结果

推理效率对比

除了常规的单图、多图和视频理解，作者还利用MMBench验证集数据构造了一个名为Distractor Resistance的新任务，将原始query图片混入多张图片组成的超长序列中，以评估模型面对多图长序列中大量干扰图像时的鲁棒性。

实验结果显示，现有Mantis、LLaVA-Interleave等多图模型的性能均随着序列长度的增加而急剧衰减，而mPLUG-Owl3则在输入多达数百张图像时仍能保持较高的性能。此外，得益于HATB模块的高效设计，mPLUG-Owl3在取得更优性能的同时，兼顾了更高的推理效率。

样例展示

样例1

样例2

上图对比了mPLUG-Owl3和LLaVA-Interleave模型在超长视频理解场景中的表现，对于输入指令，mPLUG-Owl3能够从长达40余分钟的视频中捕捉到关键信息，并给出正确的回答。相比之下，LLaVA-Interleave模型则未能很好地把握细节信息。

#MLLMs

西工大等最新多模态大型语言模型

这里系统地梳理了MLLM在自然语言、视觉和音频等多模态任务中的应用。

摘要——在数据爆炸性增长和技术快速发展的时代，多模态大型语言模型（MLLMs）处于人工智能（AI）系统的前沿。MLLMs旨在无缝集成包括文本、图像、视频、音频和生理序列在内的多种数据类型，解决远远超出单一模态系统能力范围的复杂现实应用问题。在本文中，我们系统地梳理了MLLM在自然语言、视觉和音频等多模态任务中的应用。我们还对不同MLLM在任务中的关注点进行了对比分析，并深入探讨了当前MLLMs的不足之处，并提出了未来研究的潜在方向。通过这些讨论，本文希望为MLLM的进一步发展和应用提供宝贵的见解。

关键词——MLLMs, 任务, AI应用, 融合技术。

多模态大型语言模型（MLLMs）是设计用来处理和集成各种类型数据的复杂人工智能（AI）系统，包括文本、图像、视频、音频和生理序列数据[1]，[2]，[3] 。随着我们进入多模态数据融合的时代，信息技术的快速进步和数据量的爆炸性增长，单一模态系统的能力已不足以应对复杂的现实任务[4]，[5]，[6]。因此，MLLMs的发展不仅是技术进化的必然趋势，也是提高AI应用有效性的关键改进。通过融合来自多个数据源的信息，MLLMs培育了更全面和准确的信息表示，这种能力不仅释放了巨大的潜力，还展示了在各个领域的显著实际应用价值。多样化数据集的整合使得MLLMs能够更有效地执行任务，确立其作为下一代技术的不可或缺地位，致力于充分发挥AI技术的潜力[7]，[8]，[9]。值得注意的是，MLLMs在语言、图像、视频和音频处理等多种多模态任务中表现出了显著的性能。这些模型在集成多模态信息以增强多模态任务的有效性方面表现出色。

在自然语言处理（NLP）任务中，如文本生成和机器翻译，MLLMs利用图像、视频和音频提供上下文支持，增强生成文本的准确性和表达力[10]，[11]，[12] 。这些模型在情感分析和对话系统中也表现出色，通过整合多模态信息来提高理解和生成能力。特别是，MLLMs通过结合视觉和听觉数据，丰富了文本生成和机器翻译[13]，[14]，[15]。这些模型提高了生成文本的准确性和表达力，提供了传统模型无法实现的细腻上下文支持。在情感分析和对话系统中，MLLMs能够整合多模态信息，进一步加深系统的理解和响应能力，展示了在人机交互方面的重大进步[16]，[17]。

此外，在视觉任务中，MLLMs显著提升了任务的理解、分析和生成能力。整合文本描述和图像指令使得图像分类、目标检测和图像注释等任务更加准确。例如，像GPT-4V[13]和Gemini[18]这样的MLLMs结合图像内容和自然语言描述，产生更生动和精确的注释结果。这些模型在图像生成方面也取得了进展，可以从文本描述生成图像或实现跨模态图像风格迁移，从而拓宽了该领域的可能性。同时，由于视频处理的复杂性，它提出了独特的挑战。然而，MLLMs的出现推动了语言模型在这一领域的能力发展。像NExT-GPT[19]和Sora[20]这样的模型在多模态视频生成方面处于领先地位，通过学习多模态数据生成更丰富和逼真的视频内容。此外，智能视频理解技术的进步，如VideoChat[21]和Video-LLaVA[22]，显著增强了分析和处理视频内容的能力。这些发展在虚拟现实、电子游戏和教育应用中承诺了增强的用户体验。

在音频任务中，MLLMs为音频处理任务带来了新的技术变革。传统的音频处理通常依赖于单一模态的信号处理方法，如语音识别[23]或音频分类[24]，这些方法在处理复杂的多模态数据时存在局限性。MLLMs通过结合音频信号、文本和视觉信息，能够更好地理解和生成音频相关内容。例如，在语音生成任务中，MLLMs可以利用文本和视觉信息生成更自然和上下文相关的语音输出[25]，[26]。在音频理解任务中，这些模型可以结合视觉线索和文本描述，更准确地执行情感识别、音频分类或音频事件检测。此外，MLLMs在跨模态音频文本翻译、音频配乐生成和多模态情感分析等任务中显示出强大的潜力[27]，[18]。这些技术进步不仅提高了音频处理的有效性，还扩展了其在智能家居、虚拟助手、影视制作等现实应用中的场景。

本文回顾了MLLM应用的最新进展，在第二节介绍了MLLMs的基本概念和主要架构，第三节描述了它们在不同领域的表现，以识别其优缺点，第四节通过比较分析突出MLLMs的变革性影响，并在第五节提供了未来研究的路线图。我们的讨论旨在激励持续创新，确保MLLMs在AI技术发展的前沿位置。通过对当前实施和进展的全面回顾，本文旨在总结研究成果，提供有价值的参考，并为MLLM领域的未来研究提供指导。我们的目标是激发新思想和新方向，以确保MLLMs在AI技术发展中保持领先地位。

II. 多模态大型语言模型概述

A. 定义和基本概念

总体而言，MLLMs 代表了人工智能和机器学习领域的重大进展，具备处理和解释多种数据类型（包括文本、图像、音频和视频）的能力[28], [29], [30]。通过整合和合成这些不同模态的数据，MLLMs 实现了对信息更全面和精确的理解和生成[3]。

特别是，MLLMs 是专门设计用来同时处理和解码多模态数据的复杂系统。MLLMs 的核心原理在于不同模态的整合和交互，这显著增强了模型的有效性。这种多模态方法不仅提升了对单一数据类型的理解，还促进了它们之间的更细致的互动，从而扩展了 AI 应用的范围和准确性。例如，在图像描述任务中，MLLMs 利用文本和视觉数据生成准确且上下文相关的图像描述。这种协同作用使模型能够超越单一模态系统的限制，提供更丰富和详细的输出。此外，音频和视觉数据的结合可以大大提高视频理解和注释任务的性能，使 MLLMs 成为需要详细多媒体分析的应用中的宝贵工具。

通过利用各种数据类型的集体优势，MLLMs 不仅增强了 AI 解释和与世界互动的能力，还为机器理解复杂、多方面的信息开辟了新的发展方向。

B. 多模态大型语言模型的主要组件

MLLM 通过多个关键组件有效地处理和整合来自不同模态的数据。这些组件设计用于将各种来源的原始输入转化为可操作的见解，使这些模型非常通用和有效。这些模型的架构大致可以分为三个主要组件：多模态输入编码器、特征融合机制和多模态输出解码器。

多模态输入编码器：多模态输入编码器是 MLLMs 中的关键组件，设计用于将来自不同模态的原始输入数据转化为模型可以有效处理的结构化格式。这个重要模块专门处理不同类型的数据，确保每种数据形式都能被优化编码，从而有效地贡献于模型的整体功能。以下是编码器如何处理每种数据类型的细节：

文本：对于文本数据，编码器利用嵌入层技术，将词汇映射到连续数字向量中，以及多层感知器（MLP）或更高级的 Transformer 来管理文本中的长程依赖和上下文。
图像：视觉数据通过最先进的架构如 Vision Transformer (ViT) [31] 处理，ViT 将图像部分视为序列以更好地捕捉关系，或通过残差网络（ResNet）[32] 处理，ResNet 帮助在各层中学习更深的特征而不丢失上下文。
音频：音频数据使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型进行分析。这些模型专门捕捉声音的独特特性，从基本音调到复杂的语言，增强了模型准确解释听觉信息的能力。
序列数据：对于如脑电图（EEG）和心跳等序列数据，编码器采用 1D 卷积神经网络（1D-CNN）和长短期记忆网络（LSTM）单元的组合。该设置特别有效于捕捉数据中的时间和空间模式，这对于医疗应用中的早期诊断至关重要。
通用编码器：一种较新的创新是通用编码器，旨在标准化处理各种高度多样化的数据类型，包括音频、视频和功能性磁共振成像（fMRI）。该编码器利用一种通用方法来处理和整合多种形式的数据，促进数据处理的一致性和效率。这些编码器将原始输入转换为特征向量，然后转化为固定长度的特征序列。这种标准化对于进一步处理数据至关重要，确保模型的后续层可以有效地执行特征融合和解码。

通过适应和优化各种数据类型的初始处理，多模态输入编码器不仅提升了模型的性能，还扩展了其在不同领域的适用性。无论是提高图像描述的准确性，丰富机器翻译的上下文，还是推进医疗诊断工具的精度，这个编码器在使 AI 模型能够执行复杂任务方面发挥了基础性作用。

特征融合机制：多模态模型的核心在于整合不同模态的特征。这个整合可以在不同阶段进行[37]，[38]：

早期融合：在初始阶段结合输入数据，利用不同模态的原始互联性。
中期融合：在特征提取阶段融合特征，使每种模态都能为统一表示做出独特贡献。
晚期融合：在决策阶段整合单独模态路径的最终输出，通常用于需要多种数据类型综合判断的任务。
联合融合：一种混合方法，结合早期、中期和晚期融合，最大化各阶段的数据利用。这些融合过程通常利用预训练的大型语言模型（LLM），这些模型虽然最初设计用于文本数据，但通过高级特征投影和序列化技术适应处理和综合多模态输入。多模态输出解码器：最后，多模态输出解码器将融合、综合的多模态信息重新转换为特定任务所需的可用形式。比如在图像描述任务中，解码器可能基于视觉输入生成描述性文本。在视频理解任务中，它可能生成结合视觉和听觉数据的注释或摘要。每个解码器都经过精心设计以优化准确性和质量，确保输出精确反映从综合模态中获得的见解。

总之，多模态大型语言模型的复杂架构使其能够通过整合和合成文本、图像和音频数据来处理复杂任务。这种能力不仅提升了 AI 应用的性能，还为我们理解和互动技术开辟了新的创新途径。

C. 大型语言模型中的多模态特征概述

在融合多模态特征时，通常不会从零开始训练新模型，而是利用现有的预训练大型模型，如 LLMs。尽管预训练的 LLMs 主要设计用于处理文本输入，但可以通过各种技术使这些模型适应处理多模态数据。我们将在本节介绍一个具体示例，以详细说明融合过程并进行理解。

首先，需要将每种模态的数据编码并投影到统一的特征空间中。例如，可以使用预训练模型如 ResNet 或 Vision Transformer 将图像数据转换为特征向量 Vimage。文本数据可以使用预训练文本编码器如 BERT [39] 转换为特征向量 Vtext，音频数据可以通过预训练音频编码器如 wav2vec [40] 转换为特征向量 Vaudio。然后，通过线性变换或其他投影方法将不同模态的特征向量映射到共享特征空间中。为了将这些多模态特征输入到预训练的 LLM 中，需要将来自不同模态的特征组织成一个序列。可以简单地通过连接来自不同模态的特征（如 [Vimage, Vtext, ..., Vaudio, Vtext]）来形成多模态特征序列。

接下来，将构建的多模态特征序列输入到预训练的 LLM 中进行处理。Transformer 模型通过多层自注意力机制和前馈神经网络处理输入特征序列。每一层包含自注意力和前馈网络模块，更新和整合特征表示，逐步提取更高层次的特征。经过多层 Transformer 处理后，模型生成一个包含综合信息的特征表示序列。根据任务需求，可以通过特定的输出层生成最终结果。例如，如果任务是生成文本描述，可以将综合特征表示输入到文本生成器中以生成描述性文本。

通过遵循这些步骤，可以有效地由 LLM 处理多模态特征。尽管预训练语言模型如 GPT 和 LLAMA 主要设计用于文本输入，但其能力可以通过特征投影和序列化方法扩展，以处理和整合多模态数据，从而执行复杂的多模态任务。

#从视觉表征到多模态大模型

转眼2024，距离上次知乎写作就快过去一年，上一次的计划主题还是“开源大模型”（参见《ChatGPT的朋友们：大语言模型经典论文一次读到吐》），无奈这个方向变化太快，而且也不乏优质总结文章，也就一直没有动笔。正好最近做图文多模态大模型相关的工作，在查阅资料的过程中没遇到比较完整的脉络梳理文章，往往需要综合参考；反观这个方向的综述型论文又过于追求“完美”，个人感觉详略把控不尽人意。

因此，借此机会结合自己的学习过程，对多模态和多模态大模型做一个系统的梳理，尝试以一个亲历者的视角谈谈这部分技术的发展思路，希望能给读者一些不一样的收获，如有偏颇，欢迎指正。

为了表述简单，我们不严谨的将“图文多模态”表述为“多模态”（标题有些夸张），如果后面有机会可以讨论更多模态的相关工作。此外，本文假设读者已经对视觉表征和多模态融合有一定入门背景，希望通过一篇文章回顾将过去几年的经典工作。

一、总览

由于是讲“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。对于文本模态的表征发展，我们在《闲话NLP：文本表征的半世今生》一文中有过一轮的梳理，因此本文只要讲两件事情：

视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；
视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。

对于视觉表征，从发展上可以分为卷积神经网络（CNN）和Vision Transformer（VIT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于VIT线，另有多模态大模型如火如荼的发展，可谓日新月异。

因此，本文的行文思路也就非常简单，如图1所示。第一部分介绍以CNN为基础的视觉表征和预训练手段，以及在此基础上的多模态对齐的方法。由于预训练已经成为AI技术取得效果的标配，多模态对齐部分的内容也是以多模态预训练技术承载；第二部分从VIT技术出发，分别介绍VIT视觉表征的预训练探索工作、多模态对齐的预训练工作以及近两年火热的研究方向多模态大模型。

由于多年间的优秀工作太多，不胜枚举，本文仅挑选笔者从业过程中印象较深，且有标志性特点的工作为代表。优秀的工作不止于本文，不过还是期望通过有限的工作，将近几年的图文多模态相关技术串连起来，方便读者按图索骥进行更深入的学习。下面开始正式的内容。

二、CNN：视觉理解的一代先驱

2.1 卷积视觉表征模型和预训练

对视觉信息的表征，简单来说是将图像信息转化成深度学习输入所需的特征向量或向量序列，如图2。深度学习时代，卷积神经网络（CNN）凭借其局部区域连接、权重共享以及位移不变性等特点，天然的符合了图像信息的建模归纳假设，成为早期最适合视觉表征的模型。具体的，卷积神经网络应用视觉表征的模型很多，我们简单从LeNet-5、AlexNet、VGG和ResNet等模型的演进一窥其在关键要素。

2.1.1 卷积视觉表征：从LeNet到ResNet

LeNet-5早期在数字识别中取得了成功的应用，网络结构是 [CONV-POOL-CONV-POOL-FC-FC]。卷积层使用 5 * 5的卷积核，步长为1；池化层使用 2*2 的区域，步长为2；后面是全连接层；AlexNet相比LeNet-5做了更多层数的堆叠，网络参数进行了相应的调整，并在ImageNet大赛2012夺得冠军；相应VGG网络使用更小的卷积核，同时相比AlexNet进一步提升了网络层数。

随着研究的深入，神经网络的层数也出现了爆发式地增长，由此也不可避免的带来梯度消失和梯度爆炸的问题，使得模型训练的困难度也随之提升。一种解决方法是将神经网络某些层跳过下一层神经元的连接，隔层相连，弱化每层之间的强联系。这种神经网络被称为Residual Network(ResNet)残差网络，网络结构的原理是将卷积层的堆叠，替换成跨层连接的模块，如图3所示。

有了合理的建模模型，可以使用具体任务的训练数据学习视觉表征，进而完成不同的任务（如分类、分割、目标检测等）。而更加有效的方式通常是先用“海量”的数据让模型学到通用的视觉表征，再进行下游具体任务数据的学习，也就是预训练+微调的范式。

2.1.2 卷积视觉预训练

在CNN视觉表征体系下，早期的视觉预训练有另一个叫法是迁移学习，在BERT的预训练+微调范式流行之前就已经被广泛应用。迁移学习中，传统CNN视觉模型在做具体任务训练之前，先在大量的图像任务数据集上进行预先训练（如ImageNet分类任务数据集等）。然后使用预训练的CNN权重初始化Backbone，并增加一些任务定制网络模块，完成在下游任务上的微调（如Backbone+全连接层做分类任务）。

卷积神经网络视觉表征和预训练的优化升级工作还有很多，介绍相关内容的资料也很多，篇幅原因我们对此不进行详细展开和概述，而是把更多的笔墨放在近几年更热门的研究方向上。

2.2 早期多模态融合与预训练

接着是CNN体系下的多模态融合和预训练，视觉和自然语言的跨模态对齐和融合有两种表现形式：一种是双塔结构，多模态分别表征，通过对比学习机制实现视觉和文本在同一空间中的距离度量；另一种是视觉表征和文本表征通过交互型网络结构融合成多模态表征，进而完成下游任务应用。由于前者可以看作后者的特例，我们用后一种表现形式为例，将二者统一，进而讲述以CNN为基础的早期多模态融合与预训练技术。

如图4，展示了上述的多模态融合框架，包括视觉特征提取模块、文本特征提取模块和模态融合模块。文本模块是常见的Token Embedding方式；视觉表征方面，由于CNN已经验证了有效性，因此大多数的工作在都考虑使用CNN做视觉特征抽取，得到高级语义特征，然后将高级语义表征作为输入，和文本Token Embedding序列一起输入到下游融合模块。不同工作的差异主要集中在视觉特征提取CNN Backbone以及Modality Interaction两个模块。

我们以2019年作为粗略分界点，在此之后BERT的训练范式开始流行，多模态方向上的研究热点则是借鉴BERT的成功，使用Transformer网络（特指Transformer Encoder）作为Modality Interaction模块把视觉和自然语言进行特征融合，并通过大规模预训练来学习得到多模态表征；而在此之前的方案通常是简单的多层全连接网络实现，我们不多赘述。

顺着这个思路，确定了使用Transformer作为模型融合模块这个大方向后，第二个问题是如何对视觉特征进行有效编码，得到和文本一样的Token Embedding序列作为模型输入？这一问题的解法在CNN为主的时期有两种主要方式，如图5：

Region Feature Base：先通过基于CNN的目标检测模型（Fast R-CNN等），识别图像中的关键物体区域集合（ROI，Region Of Interest），并提取区域的表征向量，作为Transformer模型的视觉输入Embedding序列。这么做的动机是，每个ROI区域，都有明确的语义表达（人、建筑、物品等），方便后续和文本特征的对齐。比较有代表性的工作如LXMERT、VL-BERT和UNITER等；
Grid Feature Base：区域特征方法虽然看上去合理，但是依赖前置的目标检测模型，整体链路较重。因此也有工作探索，不经过区域检测，直接使用CNN网络提取深层的像素特征作为交互模型输入，同样取得了一些成果。比较有代表性的工作如Pixel-Bert等。

下面我们分别介绍这一时期的经典工作，了解其中基本思路和方法。

2.2.1 LXMERT

LXMERT是早期进行多模态特征融合的工作之一，如图6，模型采用经典的两路深层表征输入结构。在视觉侧关注单图，图像经过目标检测模型得到区域块的特征序列，又经过Transformer做进一步编码区域块之间的关系（Object-Relationship Encoder）；文本侧通过BERT结构得到文本的特征序列（Language Encoder），最后两者使用深层Transformer结构做交叉Attention，最后进行多任务的预训练。LXMERT的预训练任务相比BERT较多，包括Masked图像特征的预测、图像Label的预测（猫、狗等）、VQA、图文是否匹配以及纯文本侧的Masked语言模型（MLM）。

预训练模型经过特定任务微调后，LXMERT在两个视觉问答数据集（VQA和GQA）上达到了当时最先进的结果。作者还展示了LXMERT可以很好地泛化到一个具有挑战性的视觉推理任务（NLVR2），并将之前的最佳结果提高了22%（从54%到76%），是一个比较优秀的工作。

2.2.2 VL-BERT

另一个Region Feature Base的经典工作是VL-BERT。如图7，与LXMERT不同的是，VL-BERT属于单路输入模式，视觉特征在经过目标检测模型进行Region特征提取后，直接和文本Embedding一起拼接输入到Transformer网络中进行多模态的交叉Attention。

VL-BERT设计了两个预训练任务：带视觉特征的掩码语言模型学习（Masked Language Modeling with Visual Clues）、带文本特征的视觉Region分类（Masked RoI Classification with Linguistic Clues）。经过预训练和微调流程，模型可以适用于多种视觉和语言任务，并在视觉问答、图像-文本检索、视觉常识推理等任务上都取得了非常不错的性能。VL-BERT印证了，多模态语义特征不需要各自的单独深度编码，直接做交互也可以取得有效结果。

2.2.3 UNITER

如图8，UNITER使用和VL-BERT类似的架构，同样的单路架构，同样是目标检测模型做视觉的语义特征抽取，并进一步使用更多的训练数据、更多的预训练任务，希望得到一个更加通用的图文多模态表征模型。UNITER通过在四个图像和文本数据集（COCO, Visual Genome, Conceptual Captions, and SBU Captions）上进行大规模的预训练，可以支持多种视觉和语言任务的联合多模态表征。同时设计了四种预训练任务：遮蔽语言建模（MLM），遮蔽区域建模（MRM，有三种变体），图像-文本匹配（ITM），和词-区域对齐（WRA）。

相比于之前方案，UNITER提出了通过最优传输（OT，Optimal Transport）的方法来进行WRA，在预训练过程中显式地加强词和图像区域之间的细粒度对齐。相比其他工作仅使用图像-文本匹配（ITM）的全局对齐方式，WRA更加精准。经过大量的消融实验，UNITER还探索了预训练任务的最佳组合方式，并最终在视觉问答，图像-文本检索，指代表达理解，视觉常识推理，视觉蕴含，和NLVR2等任务上都达到了新的最先进的水平。

UNITER称得上是Region Feature Based多模态预训练的集大成者，同时期的大多数工作也多是类似结构上的修补或增强。但也不乏另辟蹊径的工作，其中以Grid Feature Based相关工作最具影响力。

2.2.4 Pixel-BERT

Pixel-BERT是Grid Feature Based多模态融合代表工作之一。如图9，与Region Feature Based方法不同的是，Pixel-BERT不需要使用目标检测模型进行ROI区域的特征抽取，而是直接通过卷积网络提取图片的像素级别特征，直觉和文本特征一起输入到下游的Transformer网络进行特征融合。这种方式减少了目标检测区域框标注的成本，同时缓解了视觉语义label与文本语义的不均衡问题（区域框的物体类别往往上千规模，而文本可以表达的语义远不止于此）。

详细来说，当时主流的Region Feature Based方法提取视觉特是使用如Fast R-CNN的目标检测模型，通常在Visual Genome数据集上训练得到。这种目标检测模型，通常先提取可能存在物体的区域，然后根据区域特征进行物体类别的分类。相应的，这些区域的特征往往局限在固定的类目集合范围内，语义范围较为有限，这是也使用区域语义特征的固有缺陷。

此外，Pixel-BERT使用随机像素采样机制来增强视觉表示的鲁棒性，并使用MLM和ITM作为预训练任务进行预训练。最后通过对下游任务进行广泛的实验，在包括视觉问答（VQA）、图像文本检索和视觉推理等下游任务中取得了SOTA效果。

三、VIT：拥抱Transformer

Pixel-BERT之类的网络，减少了对与目标检测模型的依赖，仅使用深层卷积神经网络提取像素级别的特征作为下游多模态融合模块，极大简化了图文多模态表征模型的网络结构。那么，我们能不能进一步简化视觉表征模块，直接把图像特征简单加工后就直接输入到Transformer网络和文本特征一起做模态的融合？要做到这一点，我们需要先回答另一个问题，Transformer网络能不能替换CNN作为视觉表征的Backnone？虽然现在来看，答案是肯定的，但在开始阶段，这个过程并不是那么顺利。

我们知道，CNN应用于视觉表征有着很强的归纳偏置或者说先验，在 CNN 中，局部性、二维邻域结构和平移不变性是在整个模型的每一层中都有体现，和视觉图像的特点极其类似：

局部感知性：卷积层通过卷积操作和参数共享，能够高效地提取输入图像的局部特征。这种局部感知性使得CNN能够捕捉图像中的局部结构，例如边缘、纹理等，从而更好地表征图像。
层级结构：CNN的层级结构包括卷积层、激活函数、池化层和全连接层。这种层级结构使得CNN能够逐层提取和组合特征，从低级到高级，形成更复杂的视觉表征。
参数共享：卷积层中的参数共享使得CNN的训练更加高效。相同的卷积核在不同位置对图像进行卷积操作，共享参数减少了模型的复杂度，同时也增强了模型的泛化能力。
空间不变性：卷积操作具有平移不变性，即无论图像中的物体在图像中的位置如何变化，卷积核都能检测到相应的特征，这对于图像分类、目标检测和图像分割等计算机视觉任务非常重要。

而在 Transformer 中的Self-Attention层则是全局的，对于视觉输入的局部关系建模、图像的2D位置关系的建模，以及图像元素的平移不变性的把握上，都需要从头学习。然而，即便是困难重重，因为有BERT的巨大成功，仍然有许多的研究者前赴后继投入到这个方向，并最终取得成功，其中Vision Transformer (ViT) 是最为经典的案例之一。

3.1 VIT范式视觉表征和预训练

3.1.1 VIT：Transformer视觉表征

如图10，VIT将输入图片平铺成2D的Patch序列（16x16），并通过线性投影层将Patch转化成固定长度的特征向量序列，对应自然语言处理中的词向量输入。同时，每个Patch可以有自己的位置序号，同样通过一个Embedding层对应到位置向量。最终Patch向量序列和视觉位置向量相加作为Transfomer Encoder的模型输入，这点与BERT模型类似。

同样，VIT通过一个可训练的CLS token得到整个图片的表征，并接入全链接层服务于下游的分类任务。当经过大量的数据上预训练，迁移到多个中等或小规模的图像识别基准（ImageNet, CIFAR-100, VTAB 等）时，ViT取得了比CNN系的模型更好的结果，同时在训练时需要的计算资源大大减少。按说，ViT的思路并不复杂，甚至一般人也不难想到，但是为什么真正有效的工作确没有很快出现？不卖关子，VIT成功的秘诀在于大量的数据做预训练，如果没有这个过程，在开源任务上直接训练，VIT网络仍会逊色于具有更强归纳偏置的CNN网络。

因此，在此之后的一大研究方向就是如何更加有效的对VIT结构的网络进行预训练。下面我们通过MAE和BEIT两个优秀的工作，来讨论这个方向上的两类主流方案。

3.1.2 MAE：激进的Mask自监督预训练

与自然语言理解类似，VIT模型能取得成功得益于预训练+微调的训练范式。前文提到，传统CNN视觉模型的预训练，仅仅是在大量的图像任务数据集上进行预先训练（如ImageNet分类任务等），然后使用训练后的权重进行初始化Backbone，在下游任务上继续微调完成相应任务。

早期的VIT的预训练和CNN预训练一样，都是通过大规模的有监督分类任务数据集进行训练，和BERT的自监督预训练仍有区别。而自监督预训练有着数据获取成本低、不需要标注、任务难度大模型学习充分等诸多好处，因此很多研究工作探索自监督视觉预训练，比较有代表性的实践工作如Masked AutoEncoder（MAE）。

如图11，所示，MAE以VIT为基础模型，先对完整图片进行Patch掩码，接着使用一个Transformer Encoder对未Mask的Patch进行编码，然后通过相对小的Transformer Decoder模型还原被Masked Patch，从而实现模型的自监督预训练。

MAE取得成功的另一个核心原因是通过75%的高掩码率来对图像添加噪音，这样图像便很难通过周围的像素来对被掩码的像素进行重建，从而使编码器去学习图像中的语义信息。预训练之后，解码器被丢弃，编码器可以应用于未掩码的图像来进行识别任务。

相对于自然语言的自监督训练，MAE使用了更大的掩码比例。后人进一步分析，这么做动机是考虑自然语言和视觉特征的信息密度不同，简单来说：文本数据是经过人类高度抽象之后的一种信号，信息是密集的，可以仅仅预测文本中的少量被掩码掉的单词就能很好的捕捉文本的语义特征。而图像数据是一个信息密度非常小的矩阵，包含着大量的冗余信息，像素和它周围的像素存在较大的相似性，恢复被掩码的像素并不需要太多的语义信息。

3.1.3 BEIT：视觉“分词”表征预训练

另一类Transformer视觉模型预训练的代表范式是BEIT（BERT Pre-Training of Image Transformers）模型。为了与BERT的预训练框架对齐，BEIT通过辅助网络模块先对视觉Patch进行Tokenizer，得到整张图各部分的视觉Token ID。然后将视觉Patch视为自然语言中的单词进行掩码预测，完成预训练流程。

具体的如图12，在预训练之前，BEIT先通过一个离散自回归编码器（ discrete Variational AutoEncoder，dVAE）学习了一个“图像分词”器，最终可以将图像编码成离散的视觉Token集合。而在预训练阶段，输入的图片存在两个视角，一是图像Patch，另一个是视觉Token。BEIT随机对Patch进行掩码，并将掩码部分替换为特殊的Mask Embedding（[M]，图中的灰色部分），随后将掩码后的Patch序列输入到VIT结构的模型中。预训练的目标则是基于被掩码的图像输入向量序列，预测源图像对应的视觉Token ID。

BEIT需要单独的dVAE网络辅助，相对MAE更为复杂。在效果上，MAE验证了使用normalized pixels进行目标像素重建，也可以实现类似效果，因此视觉tokenization过程并非必须。但即便如此，BEIT为视觉预训练提供了一个不错的范式，同样是一次十分有价值的探索。

3.2 VIT为基础的多模态对齐与预训练

以VIT为基础的视觉预训练可以通过Transformers对视觉进行有效表征，这种方法也逐渐成为目前视觉信息编码的主流手段。以此为延伸，基于此的多模态预训练工作也层出不穷，也为如今的多模态大模型的顺理成章打下了坚实基础。

如图13，梳理了以VIT为延伸的多模态对齐和预训练工作，各工作之间都或多或少的有所关联，可谓是一脉相承。下面我们分别介绍这个技术方向的经典工作，读完本小结下面的内容再来看图中的模型关系，可能会更有感觉。

3.2.2 CLIP

CLIP模型是OpenAI 2021发布的多模态对齐方法。与OpenAI的许多工作类似，CLIP强调强大的通用性和Zero-Shot能力，也因此至今仍有很强的生命力，相关技术被广泛应用。

CLIP的核心思路是通过对比学习的方法进行视觉和自然语言表征的对齐。如图xx（1），CLIP首先分别对文本和图像进行特征抽取，文本的Encoder为预训练BERT，视觉侧的Encoder可以使用传统的CNN模型，也可是VIT系列模型。得到图文表征向量后，在对特征进行标准化（Normalize）后计算Batch内图文Pair对之间的余弦距离，通过Triple Loss或InfoNCELoss等目标函数拉近正样本对之间的距离，同时使负样本对的距离拉远。

经过大量的图文Pair对进行预训练后，我们可以得到在同一表征空间下的文本Encoder和图像Encoder。下游应用通常也是两种方式，一是在下游任务上对模型进行微调，适应定制的图文匹配任务，或者仅使用文本或图像Encoder做单模态任务；另一种使用方式是直接使用预训练的图文表征Zero-Shot方式完成下游任务。

CLIP进行Zero-Shot的一种使用方式如图14（2）和（3），对于一个图像分类任务，可以首先将所有的候选类别分别填充“A photo of a {object}”的模板，其中object为候选类别，对于一张待预测类别的图像，通过图像Encoder的到视觉表征后，与所有类别的模板文本Encoder表征进行相似度计算，最后选择相似度最高的类别即可作为预测结果。

CLIP凭借其简洁的架构和出众的效果，被后来很多工作引用，并使用CLIP预训练的Backbone作为视觉表征模块的初始化参数。

3.2.3 VILT

CLIP方法简单有效，双塔的网络结构对于下游应用也十分友好。但是如同表示型语义匹配类似，双塔结构同样也有交互不足的问题，内积或余弦距离的模态融合方式匹配能力上限较低，对于一些需要细粒度跨模态匹配的任务（VQA等）有时力不从心。因此，交互式的多模态对齐和融合仍然极具价值，典型的如VILT模型。

VILT是VIT在图文多模态方向上的工作延续。我们了解了基于Transformer的自然语言模型和视觉模型的预训练范式后，进阶到多模态融合十分容易理解。如图15所示，与BERT文本对的输入方式类似，VILT将文本和视觉Patch的Embedding直接拼接作为Transformer编码器的输入，两种模态有各自可学习的位置编码和模态类型编码。

通过深层的Transformer编码，文本与视觉的模态得到了充分的融合。ViLT使用常用的ITM（Image Text Matching）和MLM（Masked Language Modeling)作为预训练目标。

ITM（Image Text Matching）：图文是否匹配的二分类目标，正样本为常用数据集中提供的语义一致的图文Pair对，负样本对以0.5的概率随机地用替换正图文对中的图片为其他图片；此外借鉴前人工作，匹配目标还增加了图文子区域的匹配目标Word Patch Alignment (WPA)，该目标并不常用，我们也不作过多展开。
MLM（Masked Language Modeling)：以0.15的概率对文本的Token进行掩码，并通过图文的整体上下文信息对预测被掩码的Token。

如图16，可以对比以CNN为基础的多模态预训练和以VIT为基础的预训练，在模型架构上的区别。

而在ViLT之后，多模态预训练的一个较为明显的趋势，是进一步提升模态对齐与融合的效果以及模型结构的通用性，使用统一模型视角进行跨模态对齐和融合。在这个过程中，ALBEF（Align before Fuse）、BLIP（Bootstrapping Language-Image Pre-training）与BEIT-3系列等工作极具参考价值，下面我们简单对比其设计思路。

3.2.5 ALBEF与BLIP

ALBEF通过多任务联合训练将类似CLIP的对比学习和类ViLT的交互融合范式统一到一个训练框架中。如图17所示，模型结构包括一个图像Encoder（12层）、一个文本Encoder（6层）和一个多模态融合的Encoder（6层），各Encoder均沿用Transformer网络。ALBEF的训练任务包括图文对比ITC（Image-Text Contrastive Learning）、ITM（Image-Text Matching）、MLM（Masked Language Modeling）。

ITC：在图文模态深层融合之前，在对图文的表征序列Pooling后，通过对比学习Loss对图文单模态表征进行对齐。这部分和CLIP模型的训练设置类似，不同的是文本的Encoder相对视觉Encoder层数更浅。
ITM：图文Encoder输出的表征序列深层交互后，判断输入图文对是否匹配，与VILT一样是二分类任务。不同的是负样本对的构造，使用对比学习模块进行了Batch内的难负样本挖掘。主要思路是，对比学习模块中一个Batch中，模型认为最为相似的负样本对可以作为难负样本。
MLM：与VILT类似，随机对输入文本token进行掩码，通过图文上下文的输入信息预测被掩码的Token。

最后，由于ALBEF的预训练数据多数为互联网中挖掘的图文对，天然存在较大的噪声数据。为了缓解这个问题，ALBEF在训练过程中通过一个动量自蒸馏的模块（一个移动平均版本的ALBEF模型），生成训练数据集的伪标签，用来辅助模型的训练。

ALBEF通过多任务训练机制将模态对比匹配和深度模态融合结合在一起，下游任务可以根据具体需求使用不同的模块进行微调。与之遥相呼应的的是BLIP模型，在ALBEF基础上，将MLM替换为LM（ Language Modeling）Loss，的使得训练得到的模型同时可以支持图像描述文本的生成能力，如图18所示。使得多模态融合预训练有了多模态大模型即视感。

经过大规模多模态数据的预训练，ALBEF和BLIP在下游任务微调中均取得了十分亮眼的效果，在工业界也被广泛应用。

3.2.8 VL-BEIT、VLMO与BEIT-3

ALBEF和BLIP之类的工作虽然能够同时兼顾对比和深度融合两种训练模式，但视觉和自然语言仍然需要单独的Encoder分别编码，这显然还不是我们所期望的真正的多模态统一模型框架。我们可以从Microsoft Research的VL-BEIT、VLMO与BEIT-3这一系列工作一窥这个方向的探索过程。

VL-BEIT可以看作是前文提到的BEIT在多模态对齐预训练工作的延续，同时借鉴了ViLT的网络结构。如图19，与ViLT的区别在于，VL-BEIT期望将单模态和多模态统一到一个模型中，在预训练任务设计上，同时考虑了纯文本、纯视觉以及图文多模态任务。纯文本任务为MLM（a）；纯视觉特征的MIM，其中MIM的目标是BEIT工作中的Visual Token ID（b）；图文多模态任务包括考虑文本特征的视觉Token预测，以及考虑视觉特征的文本Token预测（c）。

VLMO是VL-BEIT的同期工作，如图20。VLMO相较于VL-BEIT的不同之处在于：1、舍弃了视觉侧的Visual Token ID预测，简化了整体的网络结构；2、增加了类似CLIP的图文对比学习任务，以及交互型的图文匹配任务。虽然VLMO相对于VL-BEIT在效果上并不出彩，但为后续BEIT-3的工作奠定了基础。网络结构上，VLMO是VL-BEIT都使用MoME Transformer结构，对不同的模态使用不同的Expert头，以区分不同模态的表征。

与VLMO网络结构类似，BEIT-3将图像、文本和图文多模态输入统一到一个单独的Multiway Transformer网络。不同于经典的Transformer，BEIT-3使用一个多类型输入共享的多头自注意力模块（Multi-Head Self-Attention），不同类型的模态输入各有一个全连接专家模块单独学习。如图21，视觉模态使用V-FFN、文本模态对应L-FFN，图文多模态输入对应VL-FFN，模型会根据不同类型的模态输入选择不同的模块生效。

在预训练任务上，如图22，BEIT-3相比之下也更加全面，不仅包括常用的图文对比学习、MLM和图像文本描述生成任务，还引进了文本和图像的单模态任务。这样的训练方式，使得BEIT-3真正统一了多模态的不同输入类型，同时更加全面和灵活的支持不同模态的下游任务。为了能够实现这样的能力，BEIT-3使用了更多的预训练数据，模型容量相对于之前的工作也有了显著的提高（达到1.9B），相应地最终也取得了在当时更好的效果。

BEIT-3将多模态对齐和预训练的研究推到了一个新的高度，验证了更多的数据+更大的模型取得更好的效果，在这个研究方向仍不失准。虽然开始饱受争议，但随着ChatGPT的问世，这个发展思路的正确性被进一步加深，也催生了后面多模态大模型的一众研究工作。

四、多模态与大模型

写到这里，经过大规模篇幅的铺垫，终于到了大家都关心的多模态大模型章节。打开前两天的笔记，原来的计划是这部分内容参考综述论文的梳理，选择一些有代表性的工作进行问题的串连。当我重新下载这篇综述论文，想截一张示意图时，却是目瞪狗呆。对比一下，图23是年前的截图，图24是年后的。

这个速度，属实有点跟不上了。调整情绪后，我告诉自己很多工作万变不离其宗，可以延续原来的思路继续写，不增加加新的内容。这样，应该也挺合理的吧。下面我们通过各时期的优秀工作，来系统看一下类似GPT-4的多模态大模型的主流思路。

4.1 Flamingo

如今GPT-4代表着多模态大模型的顶尖水平，但在此之前，甚至在ChatGPT之前就已有相关探索工作，其中谷歌的Flamingo最具当前主流技术雏形。事实上，Flamingo更像是图文多模态领域的GPT-3，不同的是它支持图文上下文的输入，通过In-Context Few-Shot方式完成任务。Flamingo同样支持视频帧序列作为输入，通过Prompt指令完成Video理解任务。

做到这种功能，在模型侧和GPT-3类似，不同的是Flamingo在文本Transfomer网络中增加视觉输入特征，模型结构如图26，包括三个部分。

视觉侧特征抽取使用预训练的ResNet和采样模块（Perceiver Resampler，将变长的视觉特征输入转成少量的视觉特征）模型；
文本侧模型使用LLM（基座使用Chinchilla，同样是谷歌发布的对标GPT-3的大语言模型，并提供了1.4B、7B、和70B等版本，分别对应Flamingo-3B、Flamingo-9B和Flamingo-80B）；
GATED XATTN-DENSE层，用于连接LLM 层与视觉特征，允许 LM 在处理文本时考虑视觉信息。通过交叉注意力，LM 可以关注与视觉特征相关的部分。预训练LLM和视觉ResNet参数训练过程中是冻结状态。

相应的，在数据层面Flamingo也是使用了多样形式的训练语聊，包括：

图文穿插形式：MultiModal MassiveWeb (M3W)，43 Million；
图文Pair对形式：LTIP(Long Text & Image Pairs)，312 Million；
带文本描述的短视频：VTP (Video & Text Pairs) ，27 Million 。

最后Flamingo在各种多模态任务上的效果也非常优秀，甚至在有些数据集上通过few-shot方式可以超过经典模型的SOTA。

Flamingo凭借其出色的效果，吸引了许多研究者对于多模态大模型的注意，但当时这种规模的模型训练不是谁都能玩的起，因此并没有引起特别火热的跟风潮。直到ChatGPT的出现，让人逐渐接受了大模型这条道路的正确性，以前觉得自己玩不起的机构，砸锅卖铁拉投资也愿意投入，自此相关的开源研究开始如火如荼。

在众多开源工作中，BLIP-2以及与之一脉相承的InstructBLIP算是早期的探路者之一，我们可以从这两个工作开始讲起。

4.2 BLIP-2和InstructBLIP

BLIP-2的论文标题是Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models，核心思路是通过利用预训练好的视觉模型和语言模型来提升多模态效果和降低训练成本。

BLIP-2的网络结构如图28所示，从架构上来说，和Flamingo十分类似。包括视觉编码层、视觉与文本的Adapter（Q-Former）以及大语言模型层。

视觉编码层：使用ViT模型，权重初始化通过CLIP预训练完成，并剔除最后一次提升输出特征的丰富性；训练过程中冻结权重，不更新；
文本侧的大语言模型层：早期的BLIP-2使用OPT/FlanT5来实验Decoder based和Encoder-Decoder based LLM的效果；这部分同样在训练过程中冻结权重，不更新；
图文Adapter层：Q-Former结构，类似BLIP网络（同样先进行了图文多模态预训练模块），通过Queries向量，提取视觉侧的关键信息输入到LLM；这部分是多模态大模型训练过程中的主要参数。

和Flamingo相比，BLIP-2简化了视觉特征和大模型的交互，直接仅仅将视觉特征和文本特征一起作为大模型的输入，没有深层的交互模块（如GATED XATTN-DENSE层）；另一方面在视觉和LLM的Adapter层做了更多的设计，即Q-Former结构，如图29。从Q-Former结构图，我们可以看到BLIP的影子，最大的不同在于一个Learned Queries模块，用于对ViT输出的视觉特征进行采样（Pooling），得到固定长度的视觉特征序列。

上面提到，为了避免灾难遗忘，BLIP-2冻结了ViT和LLM的参数，只训练Q-Former模块。为了训练更加稳定，Q-Former模块的训练包括两个阶段。

Stage1: 将Q-Former与冻结的ViT拼接，借鉴BLIP，使用 ITC（图文对比学习）、ITG（图生成文本）和ITM（图文匹配）任务进行学习，对参数进行初始化，学习图文相关性特征。
Stage2：如图30，将Stage1得到的模型再拼接LLM，即Q-Former的输出可通过线性投影输入到LLM（冻结参数），进行视觉到自然语言的生成学习，目标是训练Q-Former使其输出的视觉特征和LLM的输入分布对齐。

BLIP-2通过视觉和LLM的特征对齐，使得LLM具备了多模态理解能力，但其训练数据主要沿用BLIP（图文Pair对形式），和当下的多模态模型的主流技术方案仍存在一定GAP，是早期代表性探索之一。不过，随着指令微调成为大模型必备流程，后续BLIP-2也自然升级为InstructBLIP。

如图31，InstructBLIP的网络结构与BLIP-2几乎一致，同样也是2阶段训练，不同的是采样了指令微调范式，将文本模态的Instruction也作为输入同时给到Q-former和LLM进行学习。

对应的，InstructBLIP的另一个不同是训练数据也使用指令形式，将各种类型任务的开源学术数据，使用模板构造成指令多模态数据。数据模板如图31。

通过指令数据和指令微调，是的InstructBLIP可以像GPT-4一样通过指令提示词的方式完成任务，虽然效果上仍有差距。即使不是InstructBLIP的训练范式并不是开创性的，但是我们依然可以用InstructBLIP作为参考，来看对比后面要介绍的其他工作。

4.3 Qwen-VL

阿里巴巴的Qwen-VL是另一个比较经典的模型，十分值得作为案例介绍多模态大模型的训练要点。Qwen-VL使用Qwen-7B LLM作为语言模型基座，Openclip预训练的ViT-bigG作为视觉特征Encoder，随机初始化的单层Cross-Attention模块作为视觉和自然语言的的Adapter，总参数大小约9.6B。

如图33，Qwen-VL的训练过程分为三个阶段：

Stage1 为预训练，目标是使用大量的图文Pair对数据对齐视觉模块和LLM的特征，这个阶段冻结LLM模块的参数；
Stage2 为多任务预训练，使用更高质量的图文多任务数据（主要来源自开源VL任务，部分自建数据集），更高的图片像素输入，全参数训练；
Stage3 为指令微调阶段，这个阶段冻结视觉Encoder模块，使用的数据主要来自大模型Self-Instruction方式自动生成，目标是提升模型的指令遵循和多轮对话能力。

Qwen-VL的另一个启发是在Stage2和Stage3的训练过程中，不止使用VL数据，还使用了纯文本的训练数据，避免遗忘LLM的能力，这个策略的效果在其他的工作中也有所印证。此外，相比InstructBLIP，Qwen-VL模型视觉和LLM的Adapter模块简化很多，仅仅是一个浅层的Attention Pooling模块，通过更加细节的训练流程和更加丰富的训练数据，仍取得了比InstructBLIP更优的效果。

4.4 LLaVA1.5

同样，微软的LLaVA也是一个持续更新的系列工作，这里主要总结LLaVA和LLaVA1.5的核心思路。图34为LLaVA1.5的数据和模型概况。可以看到，和Qwen-VL相比，LLaVA1.5在预训练和指令微调数据上使用了更少的数据（将Qwen-VL的Stage2和Stage3都视作指令微调）；在模型结构上，除了视觉Encoder和LLM均使用了不同的基座模型，视觉和自然语言的Adapter使用更简单的MLP层。

LLaVA1.5模型的效果在一些评测数据集上相比Qwen-VL有更好的效果，说明通过一些优化工作，使用更少的数据，更简单的Adapter结构，也能使LLM具备不错的多模态理解能力。在数据层面，如图35，对比LLaVA1.5和LLaVA工作，通过增加高质量细粒度的VL数据、丰富指令、纯文本指令微调数据、提升图片输入像素、提升LLM参数规模等手段，可以有效提升模型效果。

4.5 VILA

另一个与LLaVA比较类似，但有所补充的工作是英伟达的VILA（不是显卡）。VILA模型的网络结构和LLaVA十分类似，我们不做过多赘述。不同的是VILA通过实验，总结了多模态预训练的一些经验，其中有些经验在相关工作中也有所体现，主要为以下三点：

LLM参与训练更好：在预训练阶段冻结LLM参数，能做到不错的zero-shot的能力，但会损失in-context学习的能力，而LLM参数参与训练的话可以有效缓解；
预训练数据使用图文交替数据更好：图文Pair对并不是最优的选择，图文交错的数据效果更好；
SFT时纯文本数据图文数据混合更好：在图文指令微调训练数据中混入纯文本的指令数据，不仅可以缓解纯文本能力的遗忘，还能提升VL任务的能力。

具体的，如图37，VILA的训练分为3个阶段，视觉编码模块ViT参数均是冻结状态。Step 0 使用图文Pair数据对初始化Projector（图文Adapter）参数，LLM模块参数冻结；Step 1使用图文交替数据全参数预训练；Step 2使用指令微调数据进行全参数微调，其中微调数据混合了图文指令和纯文本指令；

VILA是较新的工作，因此有更丰富的模型效果对比，如图38，相对各时期的SoTA，VILA在公开评测指标上有不错的效果。

4.6 Gemini 1.0和Gemini 1.5

目光来到闭源世界，与VILA同阶段，谷歌公司发布了Gemini系列，又在近期发布了性能更强的Gemini 1.5，可惜被另一个热爱闭源的OpenAI的Sora抢了风头，属实悲催。由于Gemini系列并没有开源，我们只能通过技术报告中的简单介绍来了解其方法。

Gemini 1.0是一个多模态模型，这里模态除了图图像和文还包括音频、视频，符合谷歌多模态大模型一贯的ALL IN ONE的风格，这也是依赖积累丰富的数据资源和算力资源。Gemini 1.0提供Ultra、Pro和Nano版本，分别适应不同能力、参数大小和推理速度要求，最小的Nano甚至可以端上运行。

方法上，Gemini 1.0的网络结构同样是Transformer Decoders，支持32K上下文长度，使用了Multi-Query Attention等优化机制。如图39，模型输入可以是文本、音频、视觉输入，输入视觉可以是图片、图表、截图、PDFs或视频等，输出可以是图片和文本（没错，可以生成图片）。视觉的Encoder模块借鉴了谷歌自己的Flamingo、CoCa和PaLI，结合这些模型，可以输入多模态的同时，也可以通过离散的视觉Tokens生成图片或视频等视觉模态。

对于音频模态，Gemini可以直接输入Universal Speech Model (USM)的16kHz特征，具体可以参考USM工作。对于视频理解，Gemini通过将视频编码为长上下文窗口中的一系列帧来实现。视频帧或图像可以与文本或音频自然交织在一起，作为模型输入的一部分。Gemini同时支持不同像素输入的视觉以满足不同粒度的理解任务。

在具体训练数据方面，技术报告同样并没有提过多细节，只是简单说了数据包括什么模态、经过了什么清洗步骤等，我们也不再深究。至于最近的Gemini 1.5，同样是技术报告的形式发布，没有特别多技术细节，主要介绍了模型是如何的强。区别要点包括：模型在Gemini 1.0基础上引入了sparse mixture-of-expert (MoE)，同时强化了上下文长度（32K->10M）同时几乎没有损失上下文感知能力。在训练过程中，Gemini 1.5强化了指令微调过程，使用了用户偏好数据。

总体来说，虽然Gemini没有提供技术细节，但也体现了谷歌对于多模态大模型技术方向的判断，比如我们可以get到网络结构的MoE、一个模型更多模态、超长上下文、文本生成+多模态生成结合等。

4.7 LWM

最后，我们再介绍一篇和Gemini类似的开源工作《World Model on Million-Length Video And Language With RingAttention》，模型名LWM（Large World Model）。至于为什么叫World Model，意思可以通过视觉和视频的理解物理世界，，LWM是UC Berkeley最近发布的一篇工作，个人认为在开源方向上是一个优秀的工作，但好像也是由于Sora和Gemini 1.5的热度，没有引起太多关注。

LWM希望完成的任务和Gemini十分相似，核心是超长上下文理解的多模态大模型。凭借支持1M的token输入，LWM可以对超过一小时的视频进行理解，在Gemini 1.5之前几乎是多模态大模型中最长的上下文输入（之一）。LWM的主要工作要点包括：

支持超长上下文，可处理超长的文本、图片序列或视频等；
一些技术难点方案：Masked Sequence Packing方法混合的输入长度；通过loss weighting 平衡视觉和文本模态；模型自动生成长序列问答数据集用于模型训练；
实现了高性能的RingAttention，Masked Sequence Packing等优化项，完成了百万级别长度的多模态序列的训练；
开源7B参数规模的大模型，包括长上下文的文本模态模型（LWM-Text，LWM-Text-Chat），和多模态模型（LWM，LWM-Chat）。

具体方案上，LWM使用Transformer架构，在LLama2 7B基础上扩充上下文理解的长度上限，模型结构如图40：

与之前大多数方法不同的是，视觉的编码器使用VQGAN，可以将256 × 256输入图片编码成16 × 16 离散Token。这使得LWM不仅可以生成文本，也可以基于文本生成Image Token还原成视频。对于多图或视频帧，可以分别做视觉特征抽取，和文本模态一起输入到LLM中。

在模型训练流程上，主要分为两个阶段的训练：

阶段一，使用Books数据集，先扩充文本LLM上下文长度到1M；
阶段二，长上下文的多模态训练，即混合图-文数据、视频-文本数据、以及纯文本的Books数据进行训练。

上面两个过程有两个核心问题需要解决：1、长文档的可扩展训练；2、如何稳定地扩展LLM的上下文。前者关注训练的效率和开销，后者则关注长上下文拓展的有效性。针对问题1，LWM主要实现了高效的RingAttention，同时结合了FlashAttention；针对问题2，一方面，两个训练阶段都是多轮训练方式，逐步提升上下文长度的方式，如图41。另一方面通过简单的调整了RoPE的参数，提升模型长文本的位置编码能力。

总的来说，LWM是一篇不错的文章，最重要的是开源，技术方案基本没有保留，值得拉出来单独讨论。在效果上LWM和Gemini 1.0 Pro以及GPT4有一定的竞争力，更多的细节可以阅读原论文。

五、总结

写到这里，吐一口老血，但还是要总结一下。本文梳理了2019年之后视觉表征和多模态表征的一些变化，主要涉及视觉表征和视觉预训练、多模态表征对齐（或融合）和多模态预训练、多模态大模型技术的相关工作。各工作之间的简化关系如图42，脉络主要是结合笔者自己各阶段的实践经历和认识，会出现一些地方不严谨的地方，欢迎指正。

关于未来畅想，从最近的工作上来看，多模态的呈现出以大模型为主线，逐步开始朝长上下文、混合模态、世界模型、多模态生成等方向发展。开始在自己工作的实践中得到的一个个人观点，是多模态大模型的惊艳能力主要来自于文本大模型中所蕴含的知识，以及超强的上下文理解能力，视觉特征只是从属的信息输入或感知源。但近期Gemini 1.5、LWM、甚至Sora等工作又开始尝试大模型理解物理世界（引出世界模型的概念），大模型好像开始从文本之外的模态强化输入信息的影响力。不管怎么说，持续的更新迭代让人耳目一新，相信也会不断刷新人们对人工智能边界的认知。

#Octopus v3

多模态 AI 系统的特点在于能够处理和学习包括自然语言、视觉、音频等各种类型的数据，从而指导其行为决策。近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

在最近的一篇论文中，研究者提出了一种专为 AI 应用设计的多模态模型，引入了「functional token」的概念。

论文标题：Octopus v3: Technical Report for On-device Sub-billion Multimodal AI Agent
论文链接：https://arxiv.org/pdf/2404.11459.pdf
模型权重和推理代码：https://www.nexa4ai.com/apply

为确保该模型能兼容边缘设备，研究者将其参数量优化至 10 亿以内。与 GPT-4 类似，该模型能同时处理英文和中文。实验表明，该模型能在包括树莓派等各类资源受限的终端设备上高效运行。

研究背景

人工智能技术的飞速发展彻底改变了人机交互的方式，催生出一批能够根据自然语言 \ 视觉等多种形式的输入执行复杂任务、做出决策的智能 AI 系统。这些系统有望实现从图像识别、语言翻译等简单任务到医疗诊断、自动驾驶等复杂应用的自动化。多模态语言模型是这些智能系统的核心，使其能够通过处理整合文本、图像乃至音视频等多模态数据，理解和生成近乎人类的回复。相较于主要关注文本处理和生成的传统语言模型，多模态语言模型是一大飞跃。通过纳入视觉信息，这些模型能够更好地理解输入数据的语境和语义，从而给出更加准确、相关的输出。例如，一个在图文匹配数据上训练的多模态语言模型，相比单纯的文本模型，能够为新图生成更具描述性、更符合上下文的文字说明。处理和整合多模态数据的能力，对于开发多模态 AI 系统至关重要，使其能完成需要同时理解语言和视觉信息的任务，如视觉问答、图像导航、多模态情感分析等。

开发多模态语言模型的一大挑战在于，如何将视觉信息有效地编码为模型可处理的格式。这通常借助卷积神经网络 (CNN) 或 transformer 等架构来实现，如视觉 transformer (ViT) 。CNN 凭借从图像中提取层次化特征的能力，在计算机视觉任务中得到广泛应用，使模型能够学习到输入数据越来越复杂的表示。另一方面，ViT 等基于 transformer 的架构由于能捕捉长距离依赖、建模全局上下文，在理解图像中物体间关系方面优势突出，近年来备受青睐。这些架构使模型能够从输入图像中提取有意义的特征，并将其转化为可与文本输入整合的向量表示。

编码视觉信息的另一种方法是图像符号化 (tokenization), 即将图像分割为更小的离散单元或 token。这种方法让模型能以类似处理文本的方式来处理图像，实现两种模态的更无缝融合。图像 token 信息可与文本输入一同送入模型，使其能同时关注两种模态并生成更准确、更契合上下文的输出。例如，OpenAI 开发的 DALL-E 模型采用 VQ-VAE (向量量化变分自编码器) 的变体对图像做符号化，使模型能根据文本描述生成新颖图像。开发出能够根据用户提供的查询和图像采取行动的小型高效模型，对 AI 系统的未来发展影响深远。这些模型可部署于智能手机、物联网设备等资源受限的设备上，扩大其应用范围和场景。借助多模态语言模型的威力，这些小型系统能以更自然、直观的方式理解和回应用户的问询，同时考虑用户提供的视觉语境。这为实现更具吸引力、个性化的人机互动开启了可能，如根据用户喜好提供视觉推荐的虚拟助手，或根据用户面部表情调节设置的智能家居设备。

此外，多模态 AI 系统的发展有望实现人工智能技术的民主化，让更广泛的用户和行业受益。更小巧高效的模型可在算力较弱的硬件上训练，降低部署所需的计算资源和能耗。这可能带来 AI 系统在医疗、教育、娱乐、电商等各个领域的广泛应用，最终改变人们的生活和工作方式。

相关工作

多模态模型由于能够处理和学习文本、图像、音频等多种数据类型而备受关注。这类模型能捕捉不同模态间复杂的交互，并利用它们的互补信息来提升各类任务的性能。视觉 - 语言预训练 (VLP) 模型如 ViLBERT、LXMERT、VisualBERT 等，通过跨模态注意力学习视觉和文本特征的对齐，生成丰富的多模态表征。多模态 transformer 架构如 MMT、ViLT 等则对 transformer 做了改进，以高效处理多种模态。研究者还尝试将音频、面部表情等其他模态纳入模型，如多模态情感分析 (MSA) 模型、多模态情绪识别 (MER) 模型等。通过利用不同模态的互补信息，多模态模型相比单模态方法取得了更优的性能和泛化能力。

终端语言模型定义为参数量少于 70 亿的模型，因为研究者发现即使采用量化，在边缘设备上运行 130 亿参数的模型也非常困难。这一领域近期的进展包括 Google 的 Gemma 2B 和 7B、Stable Diffusion 的 Stable Code 3B 以及 Meta 的 Llama 7B。有趣的是，Meta 的研究表明，与大型语言模型不同，小型语言模型采用深而窄的架构会有更好的表现。其他对终端模型有益的技术还包括 MobileLLM 中提出的 embedding 共享、分组 query 注意力以及即时分块权重共享等。这些发现凸显了在开发终端应用的小型语言模型时，需要考虑不同于大模型的优化方法和设计策略。

Octopus 方法

Octopus v3 模型开发中采用的主要技术。多模态模型开发的两个关键方面是：将图像信息与文本输入相整合，以及优化模型预测动作的能力。

视觉信息编码

图像处理中存在多种视觉信息编码方法，常用隐藏层的 embedding。例如，VGG-16 模型的隐藏层 embedding 被用于风格迁移任务。OpenAI 的 CLIP 模型展示了对齐文本和图像 embedding 的能力，利用其图像编码器来嵌入图像。ViT 等方法则采用了图像 tokenization 等更先进的技术。研究者评估了多种图像编码技术，发现 CLIP 模型的方法最为有效。因此，本文采用基于 CLIP 的模型进行图像编码。

Functional token

与应用于自然语言和图像的 tokenization 类似，特定 function 也可封装为 functional token。研究者为这些 token 引入了一种训练策略，借鉴了自然语言模型处理未见词的技术。这一方法与 word2vec 类似，通过 token 的上下文环境来丰富其语义。例如，高级语言模型最初可能难以应对 PEGylation 和 Endosomal Escape 等复杂化学术语。但通过因果语言建模，尤其是在包含这些术语的数据集上训练，模型能够习得这些术语。类似地，functional token 也可通过并行策略习得，其中 Octopus v2 模型可为此类学习过程提供强大的平台。研究表明，functional token 的定义空间是无限的，从而能够将任意特定 function 表示为 token。

多阶段训练

为开发出高性能的多模态 AI 系统，研究者采用了集成因果语言模型和图像编码器的模型架构。该模型的训练过程分为多个阶段。首先，因果语言模型和图像编码器分别训练，建立基础模型。随后，将这两个部件合并，并进行对齐训练以同步图像和文本处理能力。在此基础上，借鉴 Octopus v2 的方法来促进 functional token 的学习。最后一个训练阶段中，这些能够与环境交互的 functional token 提供反馈，用于进一步优化模型。因此，最后阶段研究者采用强化学习，并选择另一个大型语言模型作为奖励模型。这种迭代训练方式增强了模型处理和整合多模态信息的能力。

模型评估

本节介绍模型的实验结果，并与集成 GPT-4V 和 GPT-4 模型的效果进行对比。在对比实验中，研究者首先采用 GPT-4V (gpt-4-turbo) 处理图像信息。然后将提取的数据输入 GPT-4 框架 (gpt-4-turbo-preview), 将所有 function 描述纳入上下文并应用小样本学习以提升性能。在演示中，研究者将 10 个常用的智能手机 API 转化为 functional token 并评估其表现，详见后续小节。

值得注意的是，虽然本文仅展示了 10 个 functional token, 但该模型可以训练更多 token 以创建更通用的 AI 系统。研究者发现，对于选定的 API, 参数量不到 10 亿的模型作为多模态 AI 表现可与 GPT-4V 和 GPT-4 的组合相媲美。

此外，本文模型的可扩展性允许纳入广泛的 functional token, 从而能够打造高度专业化的 AI 系统，适用于特定领域或场景。这种适应性使本文方法在医疗、金融、客户服务等行业尤为有价值，这些领域中 AI 驱动的解决方案可显著提升效率和用户体验。

在下面的所有 function 名称中，Octopus 仅输出 functional token 如 < nexa_0>,...,<nexa_N>, 研究者将 functional token 替换为相应的函数名称以便更好地演示。以下所有结果都是直接生成的，无需任何输出解析器。Octopus v3 是一个单一模型，可同时处理中文和英文，这意味着无需专门训练另一个中文模型。

发送邮件

发送短信

Google 搜索

亚马逊购物

智能回收

失物招领

室内设计

Instacart 购物

DoorDash 外卖

宠物护理

社会影响

在 Octopus v2 的基础上，更新后的模型纳入了文本和视觉信息，从其前身纯文本方法迈出了重要一步。这一显著进展实现了视觉和自然语言数据的同步处理，为更广泛的应用铺平了道路。Octopus v2 引入的 functional token 可适应多个领域，如医疗和汽车行业。随着视觉数据的加入，functional token 的潜力进一步扩展到自动驾驶、机器人等领域。此外，本文的多模态模型让树莓派等设备实际转化为 Rabbit R1 、Humane AI Pin 之类的智能硬件成为可能，它采用终端模型而非基于云的方案。

Functional token 目前已获得授权，研究者鼓励开发者参与本文框架，在遵守许可协议的前提下自由创新。在未来的研究中，研究者旨在开发一个能够容纳音频、视频等额外数据模态的训练框架。此外，研究者发现视觉输入可能带来相当大的延迟，目前正在优化推理速度。

#E2E-MFD

多模态融合检测端到端算法E2E-MFD来了！

西安电子科大、上海AI Lab等提出多模态融合检测算法E2E-MFD，将图像融合和目标检测整合到一个单阶段、端到端框架中，简化训练的同时，提升目标解析性能。

恶劣天气下，自动驾驶汽车也能准确识别周围物体了？！

相关论文已入选顶会NeurlPS 2024 Oral，代码、模型均已开源。

论文链接（非最终版本）：https://arxiv.org/abs/2403.09323

代码链接：https://github.com/icey-zhang/E2E-MFD

其中图像融合是指，把不同来源（比如可见光和红外相机）的图像合并成一张，这样就能在一张图像中同时看到不同相机捕捉到的信息；目标检测即找出并识别图像中的物体。

端到端意味着，E2E-MFD算法可以一次性处理这两个任务，简化训练过程。

而且，通过一种特殊的梯度矩阵任务对齐（GMTA）技术，这两个任务还能互帮互助，互相优化。

最终实验结果显示，E2E-MFD在信息传递、图像质量、训练时间和目标检测方面均优于现有方法。

E2E-MFD：多模态融合检测端到端算法

众所周知，精确可靠的目标解析在自动驾驶和遥感监测等领域至关重要。

仅依赖可见光传感器可能会导致在恶劣天气等复杂环境中的目标识别不准确。

可见光-红外图像融合作为一种典型的多模态融合（MF）任务，通过利用不同模态的信息互补来解决这些挑战，从而促进了多种多模态图像融合技术的快速发展。

诸如CDDFuse和DIDFuse方法采用两步流程：

首先训练多模态融合网络（MF），然后再训练目标检测（OD）网络，用来分别评估融合效果。

尽管深度神经网络在学习跨模态表征能力上取得了显著进展，并带来了多模态融合的良好结果，但大多数研究主要集中在生成视觉上吸引人的图像，而往往忽略了改进下游高级视觉任务的能力，如增强的目标解析。

最近的研究开始设计联合学习方法，将融合网络与目标检测和图像分割等高级任务结合在一起。

其中，多模态融合检测（MFD）方法中MF与OD的协同已成为一个活跃的研究领域。

这种协同作用使得MF能够生成更丰富、更有信息量的图像，从而提升OD的性能，而OD则为MF提供了有价值的目标语义信息，从而准确地定位和识别场景中的物体。

通常，MFD网络采用一种级联设计，其中联合优化技术使用OD网络来引导MF网络创建便于目标检测的图像。

但是依旧存在以下问题：

1）当前的优化方法依赖于多步骤、渐进的联合方法，影响训练效率；

2）这些方法过于依赖目标检测（OD）信息来增强融合，导致参数平衡困难并易于陷入单个任务的局部最优解。

因此，寻求一个统一的特征集，同时满足每个任务的需求，仍然是一项艰巨的任务。

为此，研究提出了一种名为E2E-MFD的端到端多模态融合检测算法。

（1）这是一种高效同步联合学习的方法，将图像融合和目标检测创新性地整合到一个单阶段、端到端的框架中，这种方法显著提升了这两项任务的成果。

（2）引入了一种新的GMTA技术，用于评估和量化图像融合与目标检测任务的影响，帮助优化训练过程的稳定性，并确保收敛到最佳的融合检测权重配置。

（3）通过对图像融合和目标检测的全面实验验证，展示了所提出方法的有效性和稳健性。在水平目标检测数据集M3FD和有向目标检测数据集DroneVehicle上与最先进的融合检测算法相比，E2E-MFD表现出强大的竞争力。

其整体架构如下：

展开来说，E2E-MFD通过同步联合优化，促进来自两个领域的内在特征的交互，从而实现简化的单阶段处理。为了协调细粒度的细节与语义信息，又提出了一种全新的对象-区域-像素系统发育树（ORPPT）概念，并结合粗到细扩散处理（CFDP）机制。

该方法受视觉感知自然过程的启发，专为满足多模态融合（MF）和目标检测（OD）的具体需求而设计。

此外，研究引入了梯度矩阵任务对齐（GMTA）技术，以微调共享组件的优化，减少传统优化过程中固有的挑战。

这确保了融合检测权重的最优收敛，增强了多模态融合检测任务的准确性和有效性。

实验实验细节

实验结果

研究提供了不同融合方法在TNO、RoadScene和M3FD数据集上的定量结果。

模型的训练（Tr.）和测试（Te.）时间均在NVIDIA GeForce RTX 3090上统计。

可以看出，E2E-MFD在MI指标上普遍获得了最佳度量值，表明其在信息传递方面比其他方法从两个源图像中提取了更多有用的信息。

EN值进一步显示，E2E-MFD能够生成包含清晰边缘细节且对象与背景对比度最高的图像。

较高的VIF值则表明，E2E-MFD的融合结果不仅具有高质量的视觉效果，同时在失真度方面较低。

此外，该方法的训练时间最快，表明在新的数据集上能够实现更快速的迭代更新。

生成融合图像的测试时间在所有方法中排名第三。

定性结果如下图所示，所有融合方法均在一定程度上融合了红外和可见光图像的主要特征，但E2E-MFD具备两个显著优势。

首先，它能够有效突出红外图像的显著特征，例如在M3FD数据集中，E2E-MFD捕捉到了骑摩托车的人员。

与其他方法相比，E2E-MFD展示了更高的物体对比度和识别能力。

其次，它保留了可见图像中的丰富细节，包括颜色和纹理。

在M3FD数据集中，E2E-MFD的优势尤为明显，比如能够清晰显示白色汽车的后部以及骑摩托车的人。

E2E-MFD在保留大量细节的同时，保持了图像的高分辨率，并且没有引入模糊现象。而其他方法则未能同时实现这些优势。

为了更有效地评估融合图像对下游检测任务的影响，研究在M3FD数据集上使用了YOLOv5s检测器对所有SOTA方法进行了测试，结果如表所示。

与单模态检测相比，SOTA方法在融合图像上的表现明显提升，表明良好融合的图像能够有效地支持下游检测任务。

E2E-MFD生成的融合图像在YOLOv5s检测器上表现最佳，同时在DiffusionDet检测器上也取得了出色的成绩。

即使与端到端目标检测方法（E2E-OD）相比，E2E-MFD的方法仍显示出了显著的性能提升，充分证明了其训练范式和方法的有效性。

检测结果的可视化如下图所示。

当仅使用单模态图像作为输入时，检测结果较差，常常漏检诸如摩托车和骑手等目标，尤其是在图像右侧靠近汽车和行人的区域。

几乎所有的融合方法都通过融合两种模态的信息，减少了漏检现象并提升了检测的置信度。

通过设计端到端的融合检测同步优化策略，E2E-MFD生成了在视觉上和检测上都非常友好的融合图像，尤其在处理遮挡和重叠的目标时表现出色，比如图像右侧蓝色椭圆中的摩托车和重叠的行人。

在DroneVehicle数据集上的目标检测定量结果多模态如表所示，E2E-MFD达到了最高的精度。

此外，使用生成的融合图像在YOLOv5s-OBB和LSKNet上进行检测时，较单一模态至少提高了5.7%和3.1%的AP值，验证了方法的鲁棒性。

这证明了融合图像的优异质量，表明它们不仅在视觉上令人满意，还为检测任务提供了丰富的信息。

小结

研究提出了多模态融合检测算法E2E-MFD，仅以单步训练过程同时完成融合和检测任务。

引入了一个系统发育树结构和粗到细扩散处理机制，来模拟在不同任务需求下，不同视觉感知中需要完成的这两项任务。

此外，研究对融合检测联合优化系统中的任务梯度进行了对齐，消除联合优化过程中两个任务的梯度优化冲突。

通过将模型展开到一个设计良好的融合网络和检测网络，可以以高效的方式生成融合与目标检测的视觉友好结果，而无需繁琐的训练步骤和固有的优化障碍。

更多细节欢迎查阅原论文。

作者主页：
https://icey-zhang.github.io/

https://yangxue0827.github.io/

#从视觉表征到多模态大模型

多模态以及多模态大模型的系统梳理以及技术发展思路探讨。

转眼2024，距离上次知乎写作就快过去一年，上一次的计划主题还是“开源大模型”（参见《ChatGPT的朋友们：大语言模型经典论文一次读到吐》(https://zhuanlan.zhihu.com/p/620360553)），无奈这个方向变化太快，而且也不乏优质总结文章，也就一直没有动笔。正好最近做图文多模态大模型相关的工作，在查阅资料的过程中没遇到比较完整的脉络梳理文章，往往需要综合参考；反观这个方向的综述型论文又过于追求“完美”，个人感觉详略把控不尽人意。

一、总览

由于是讲“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。对于文本模态的表征发展，我们在《闲话NLP：文本表征的半世今生》(https://zhuanlan.zhihu.com/p/473195206)一文中有过一轮的梳理，因此本文只要讲两件事情：

视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；
视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。

图1

二、CNN：视觉理解的一代先驱

2.1 卷积视觉表征模型和预训练

图2

2.1.1 卷积视觉表征：从LeNet到ResNet

LeNet-5早期在数字识别中取得了成功的应用，网络结构是 [CONV-POOL-CONV-POOL-FC-FC]。卷积层使用 5*5的卷积核，步长为1；池化层使用 2*2 的区域，步长为2；后面是全连接层；AlexNet相比LeNet-5做了更多层数的堆叠，网络参数进行了相应的调整，并在ImageNet大赛2012夺得冠军；相应VGG网络使用更小的卷积核，同时相比AlexNet进一步提升了网络层数。

图3

2.1.2 卷积视觉预训练

2.2 早期多模态融合与预训练

图4

Region Feature Base：先通过基于CNN的目标检测模型（Fast R-CNN等），识别图像中的关键物体区域集合（ROI，Region Of Interest），并提取区域的表征向量，作为Transformer模型的视觉输入Embedding序列。这么做的动机是，每个ROI区域，都有明确的语义表达（人、建筑、物品等），方便后续和文本特征的对齐。比较有代表性的工作如LXMERT、VL-BERT和UNITER等；
Grid Feature Base：区域特征方法虽然看上去合理，但是依赖前置的目标检测模型，整体链路较重。因此也有工作探索，不经过区域检测，直接使用CNN网络提取深层的像素特征作为交互模型输入，同样取得了一些成果。比较有代表性的工作如Pixel-Bert等。

图5

下面我们分别介绍这一时期的经典工作，了解其中基本思路和方法。

2.2.1 LXMERT

LXMERT是早期进行多模态特征融合的工作之一，如图6，模型采用经典的两路深层表征输入结构。在视觉侧关注单图，图像经过目标检测模型得到区域块的特征序列，又经过Transformer做进一步编码区域块之间的关系（Object-Relationship Encoder）；文本侧通过BERT结构得到文本的特征序列（Language Encoder），最后两者使用深层Transformer结构做交叉Attention，最后进行多任务的预训练。LXMERT的预训练任务相比BERT较多，包括Masked图像特征的预测、图像Label的预测（猫、狗等）、VQA、图文是否匹配以及纯文本侧的Masked语言模型（MLM）。

图6

2.2.2 VL-BERT

另一个Region Feature Base的经典工作是VL-BERT。如图7，与LXMERT不同的是，VL-BERT属于单路输入模式，视觉特征在经过目标检测模型进行Region特征提取后，直接和文本Embedding一起拼接输入到Transformer网络中进行多模态的交叉Attention。

图7

2.2.3 UNITER

如图8，UNITER使用和VL-BERT类似的架构，同样的单路架构，同样是目标检测模型做视觉的语义特征抽取，并进一步使用更多的训练数据、更多的预训练任务，希望得到一个更加通用的图文多模态表征模型。UNITER通过在四个图像和文本数据集（COCO, Visual Genome, Conceptual Captions, and SBU Captions）上进行大规模的预训练，可以支持多种视觉和语言任务的联合多模态表征。同时设计了四种预训练任务：遮蔽语言建模（MLM），遮蔽区域建模（MRM，有三种变体），图像-文本匹配（ITM），和词-区域对齐（WRA）。

图8

2.2.4 Pixel-BERT

图9

Pixel-BERT的思路是直接学习像素级别的表征来代替物体框为主的区域特征，具体的，像素特征通过ResNet之类的卷积神经网络提取得到。对于给定的图片I，先使用CNN backbone提取特征 (如从经过多层卷积网络到 channel_dim) 。然后按空间顺序，铺平网格特征序列，计作，为像素的数量。最终的视觉语义embedding特征记作，其中是可学习的语义表征向量，用于区分文本表征向量。由于所有的像素共用s_v，索引s_v也可以看作是CNN backbone的一个bias项。

此外，Pixel-BERT使用随机像素采样机制来增强视觉表示的鲁棒性，并使用MLM和ITM作为预训练任务进行预训练。最后通过对下游任务进行广泛的实验，在包括视觉问答 (VQA)、图像文本检索和视觉推理等下游任务中取得了SOTA效果。

三、VIT：拥抱Transformer

局部感知性：卷积层通过卷积操作和参数共享，能够高效地提取输入图像的局部特征。这种局部感知性使得CNN能够捕捉图像中的局部结构，例如边缘、纹理等，从而更好地表征图像。
层级结构：CNN的层级结构包括卷积层、激活函数、池化层和全连接层。这种层级结构使得CNN能够逐层提取和组合特征，从低级到高级，形成更复杂的视觉表征。
参数共享：卷积层中的参数共享使得CNN的训练更加高效。相同的卷积核在不同位置对图像进行卷积操作，共享参数减少了模型的复杂度，同时也增强了模型的泛化能力。
空间不变性：卷积操作具有平移不变性，即无论图像中的物体在图像中的位置如何变化，卷积核都能检测到相应的特征，这对于图像分类、目标检测和图像分割等计算机视觉任务非常重要。

3.1 VIT范式视觉表征和预训练

3.1.1 VIT：Transformer视觉表征

图10

3.1.2 MAE：激进的Mask自监督预训练

图11

3.1.3 BEIT：视觉“分词”表征预训练

图12

BEIT需要单独的dVAE网络辅助，相对MAE更为复杂，效果也相对不足，但为视觉预训练提供了一个不错的范式，同样是一次十分有价值的探索。

3.2 VIT为基础的多模态对齐与预训练

图13

3.2.2 CLIP

图14

CLIP凭借其简洁的架构和出众的效果，被后来很多工作引用，并使用CLIP预训练的Backbone作为视觉表征模块的初始化参数。

3.2.3 VILT

图15

通过深层的Transformer编码，文本与视觉的模态得到了充分的融合。ViLT使用常用的ITM（Image Text Matching）和MLM（Masked Language Modeling)作为预训练目标。

ITM（Image Text Matching）：图文是否匹配的二分类目标，正样本为常用数据集中提供的语义一致的图文Pair对，负样本对以0.5的概率随机地用替换正图文对中的图片为其他图片；此外借鉴前人工作，匹配目标还增加了图文子区域的匹配目标Word Patch Alignment (WPA)，该目标并不常用，我们也不作过多展开。
MLM（Masked Language Modeling)：以0.15的概率对文本的Token进行掩码，并通过图文的整体上下文信息对预测被掩码的Token。

如图16，可以对比以CNN为基础的多模态预训练和以VIT为基础的预训练，在模型架构上的区别。

图16

3.2.5 ALBEF与BLIP

图17

ITC：在图文模态深层融合之前，在对图文的表征序列Pooling后，通过对比学习Loss对图文单模态表征进行对齐。这部分和CLIP模型的训练设置类似，不同的是文本的Encoder相对视觉Encoder层数更浅。
ITM：图文Encoder输出的表征序列深层交互后，判断输入图文对是否匹配，与VILT一样是二分类任务。不同的是负样本对的构造，使用对比学习模块进行了Batch内的难负样本挖掘。主要思路是，对比学习模块中一个Batch中，模型认为最为相似的负样本对可以作为难负样本。
MLM：与VILT类似，随机对输入文本token进行掩码，通过图文上下文的输入信息预测被掩码的Token。

图18

经过大规模多模态数据的预训练，ALBEF和BLIP在下游任务微调中均取得了十分亮眼的效果，在工业界也被广泛应用。

3.2.8 VL-BEIT、VLMO与BEIT-3

图19

VLMO是VL-BEIT的同期工作，如图20。VLMO相较于VL-BEIT的不同之处在于：1、舍弃了视觉侧的Visual Token ID预测，简化了整体的网络结构；2、增加了类似CLIP的图文对比学习任务，以及交互型的图文匹配任务；3、使用MoME Transformer结构，对不同的模态使用不同的Expert头。虽然VLMO相对于VL-BEIT在效果上并不出彩，但为后续BEIT-3的工作奠定了基础。

图20

图21

如图22

四、多模态与大模型

图23

图24

4.1 Flamingo

图25

做到这种功能，在模型侧和GPT-3类似，不同的是Flamingo在文本Transfomer网络中增加视觉输入特征，模型结构如图26，包括三个部分。

视觉侧特征抽取使用预训练的ResNet和采样模块（Perceiver Resampler，将变长的视觉特征输入转成少量的视觉特征）模型；
文本侧模型使用LLM（基座使用Chinchilla，同样是谷歌发布的对标GPT-3的大语言模型，并提供了1.4B、7B、和70B等版本，分别对应Flamingo-3B、Flamingo-9B和Flamingo-80B）；
GATED XATTN-DENSE层，用于连接LLM 层与视觉特征，允许 LM 在处理文本时考虑视觉信息。通过交叉注意力，LM 可以关注与视觉特征相关的部分。预训练LLM和视觉ResNet参数训练过程中是冻结状态。

图26

相应的，在数据层面Flamingo也是使用了多样形式的训练语聊，包括：

图文穿插形式：MultiModal MassiveWeb (M3W)，43 Million；
图文Pair对形式：LTIP(Long Text & Image Pairs)，312 Million；
带文本描述的短视频：VTP (Video & Text Pairs) ，27 Million 。

最后Flamingo在各种多模态任务上的效果也非常优秀，甚至在有些数据集上通过few-shot方式可以超过经典模型的SOTA。

图27

在众多开源工作中，BLIP-2以及与之一脉相承的InstructBLIP算是早期的探路者之一，我们可以从这两个工作开始讲起。

4.2 BLIP-2和InstructBLIP

BLIP-2的网络结构如图28所示，从架构上来说，和Flamingo十分类似。包括视觉编码层、视觉与文本的Adapter（Q-Former）以及大语言模型层。

视觉编码层：使用ViT模型，权重初始化通过CLIP预训练完成，并剔除最后一次提升输出特征的丰富性；训练过程中冻结权重，不更新；
文本侧的大语言模型层：早期的BLIP-2使用OPT/FlanT5来实验Decoder based和Encoder-Decoder based LLM的效果；这部分同样在训练过程中冻结权重，不更新；
图文Adapter层：Q-Former结构，类似BLIP网络（同样先进行了图文多模态预训练模块），通过Queries向量，提取视觉侧的关键信息输入到LLM；这部分是多模态大模型训练过程中的主要参数。

图28

图29

上面提到，为了避免灾难遗忘，BLIP-2冻结了ViT和LLM的参数，只训练Q-Former模块。为了训练更加稳定，Q-Former模块的训练包括两个阶段。

Stage1: 将Q-Former与冻结的ViT拼接，借鉴BLIP，使用 ITC（图文对比学习）、ITG（图生成文本）和ITM（图文匹配）任务进行学习，对参数进行初始化，学习图文相关性特征。
Stage2：如图30，将Stage1得到的模型再拼接LLM，即Q-Former的输出可通过线性投影输入到LLM（冻结参数），进行视觉到自然语言的生成学习，目标是训练Q-Former使其输出的视觉特征和LLM的输入分布对齐。

图30

图31

对应的，InstructBLIP的另一个不同是训练数据也使用指令形式，将各种类型任务的开源学术数据，使用模板构造成指令多模态数据。数据模板如图31。

图31

4.3 Qwen-VL

图33

如图33，Qwen-VL的训练过程分为三个阶段：

Stage1 为预训练，目标是使用大量的图文Pair对数据对齐视觉模块和LLM的特征，这个阶段冻结LLM模块的参数；
Stage2 为多任务预训练，使用更高质量的图文多任务数据（主要来源自开源VL任务，部分自建数据集），更高的图片像素输入，全参数训练；
Stage3 为指令微调阶段，这个阶段冻结视觉Encoder模块，使用的数据主要来自大模型Self-Instruction方式自动生成，目标是提升模型的指令遵循和多轮对话能力。

图34

4.4 LLaVA1.5

图35

图36

4.5 VILA

LLM参与训练更好：在预训练阶段冻结LLM参数，能做到不错的zero-shot的能力，但会损失in-context学习的能力，而LLM参数参与训练的话可以有效缓解；
预训练数据使用图文交替数据更好：图文Pair对并不是最优的选择，图文交错的数据效果更好；

图37

SFT时纯文本数据图文数据混合更好：在图文指令微调训练数据中混入纯文本的指令数据，不仅可以缓解纯文本能力的遗忘，还能提升VL任务的能力。

图38

VILA是较新的工作，因此有更丰富的模型效果对比，如图38，相对各时期的SoTA，VILA在公开评测指标上有不错的效果。

图39

4.6 Gemini 1.0和Gemini 1.5

图40

总体来说，虽然Gemini没有提供技术细节，但也体现了谷歌对于多模态大模型技术方向的判断，比如我们可以get到网络结构的MoE、一个模型更多模态、超长上下文、文本生成+多模态生成结合等。

4.7 LWM

支持超长上下文，可处理超长的文本、图片序列或视频等；
一些技术难点方案：Masked Sequence Packing方法混合的输入长度；通过loss weighting 平衡视觉和文本模态；模型自动生成长序列问答数据集用于模型训练；
实现了高性能的RingAttention，Masked Sequence Packing等优化项，完成了百万级别长度的多模态序列的训练；
开源7B参数规模的大模型，包括长上下文的文本模态模型（LWM-Text，LWM-Text-Chat），和多模态模型（LWM，LWM-Chat）。

具体方案上，LWM使用Transformer架构，在LLama2 7B基础上扩充上下文理解的长度上限，模型结构如图40：

图41

在模型训练流程上，主要分为两个阶段的训练：

阶段一，使用Books数据集，先扩充文本LLM上下文长度到1M；
阶段二，长上下文的多模态训练，即混合图-文数据、视频-文本数据、以及纯文本的Books数据进行训练。

上面两个过程有两个核心问题需要解决：1、长文档的可扩展训练；2、如何稳定地扩展LLM的上下文。前者关注训练的效率和开销，后者则关注长上下文拓展的有效性。针对问题1，LWM主要实现了高效的RingAttention，同时结合了FlashAttention；针对问题2，一方面，两个训练阶段都是多轮训练方式，逐步提升上下文长度的方式，如图41。另一方面通过简单的调整了RoPE的 \theta\theta 参数，提升模型长文本的位置编码能力。

图42

五、总结

图43

最后，感觉知乎长文确实耗时耗力，如果有收获欢迎关注本账号：菜人卷(https://www.zhihu.com/people/zico-53-18)。另外打算后面开一个小红书的坑，写一些日常学习和实践的短篇经验，提高一下更新频率，系统性内容也会周期性的搬到知乎上来，欢迎扫码关注支持。

图44

六、论文打包下载

图45

PS：引用文章可以细读，论文打包下载链接: https://pan.baidu.com/s/18tkHDkDmGKvzEeGSEc52Jg

提取码: hvkf

#Finedefics

北大彭宇新教授团队开源细粒度多模态大模型

本文是北京大学彭宇新教授团队在细粒度多模态大模型领域的最新研究成果，相关论文已被 ICLR 2025 接收，并已开源。

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。

细粒度视觉识别旨在区分同一粗粒度大类下的不同细粒度子类别，如将鸟类（粗粒度大类）图像区分为西美鸥、灰背鸥、银鸥等（细粒度子类别）；将车区分为宝马、奔驰、奥迪等，奥迪区分为 A4、A6、A8 等；将飞机区分为波音 737、波音 747、波音 777、空客 320、空客 380 等。实现对视觉对象的细粒度识别，在现实生产和生活中具有重要的研究和应用价值。

针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了「视觉对象与细粒度子类别未对齐」是限制多模态大模型的细粒度视觉识别能力的关键问题，并提出了细粒度多模态大模型 Finedefics。

首先，Finedefics 通过提示大语言模型构建视觉对象的细粒度属性知识；然后，通过对比学习将细粒度属性知识分别与视觉对象的图像与文本对齐，实现数据 - 知识协同训练。

Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%，相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

论文标题：Analyzing and Boosting the Power of Fine-Grained Visual Recognition for Multi-modal Large Language Models
论文链接：https://openreview.net/forum?id=p3NKpom1VL
开源代码：https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025
模型地址：https://huggingface.co/StevenHH2000/Finedefics
实验室网址：https://www.wict.pku.edu.cn/mipl

背景与动机

多模态大模型是指提取并融合文本、图像、视频等多模态数据表征，通过大语言模型进行推理，经过微调后适配到多种下游任务的基础模型。

尽管现有多模态大模型在视觉问答、推理等多种任务上表现出色，但存在识别粒度粗的局限性：因为多模态大模型的视觉识别能力依赖大量训练数据，由于训练数据的细粒度子类别的标注成本巨大，实际也是无法细粒度标注的，导致现有多模态大模型缺乏细粒度视觉识别能力。

图 1. 多模态大模型在细粒度视觉识别上所需的 3 项能力

本文系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力，如图 1 所示，包括：

1. 对象信息提取能力：视觉编码器能够从图像中准确并全面地提取区分不同细粒度子类别的辨识性信息；

2. 类别知识储备能力：大语言模型能够储备充分的细粒度子类别知识；

3. 对象 - 类别对齐能力：基于提取的辨识性视觉信息与储备的细粒度子类别知识，在大语言模型的表征空间中对齐视觉对象与细粒度子类别，以建立输入图像到子类别名称的细粒度映射关系。

实验结果表明，「视觉对象与细粒度子类别未对齐」是限制多模态大模型具备细粒度视觉识别能力的关键问题。

技术方案

为解决视觉对象与细粒度子类别未对齐的问题，本文提出了细粒度多模态大模型 Finedefics。

如图 2 所示，Finedefics 构建过程包含 2 个主要步骤：

1. 首先通过属性描述构建，利用辨识属性挖掘获得区分细粒度子类别的关键特征，例如区分猫的品种的辨识性属性「毛色」、「毛型」、「毛皮质地」等，并利用视觉属性提取获得图像对象的辨识性属性对，例如「毛色：棕褐色」、「毛型：带有斑纹」、「毛皮质地：质地柔软」等，再利用属性描述总结将属性对转化为自然语言形式的对象属性描述，例如「图中小猫的毛为棕褐色，带有斑纹，质地柔软」；

2. 然后通过属性增强对齐，将构建的对象属性描述作为视觉对象与细粒度子类别的共同对齐目标，通过对象 - 属性、属性 - 类别、类别 - 类别对比学习充分建立视觉对象与细粒度子类别的细粒度对应关系，再利用以识别为中心的指令微调促进模型遵循细粒度视觉识别的任务指令。具体地，包含如下两个训练阶段：

图 2. 细粒度多模态大模型（Finedefics）框架图

阶段 I：属性增强的对比学习

首先，针对每个「对象 - 属性 - 类别」三元组

，利用视觉编码器

与可学习的模态连接层

将

转化为对象表征序列

。

为更好捕捉全局表示，将标识符 [EOS] 输入大语言模型的嵌入层得到向量表示，并将其与对象特征序列

拼接，得到新构建的对象表征序列

。相似地，得到属性表征序列

与类别表征序列

。

然后，分别将

输入到大语言模型中，将序列末尾的预测标志（token）

分别作为

的全局表示。

为简化表示，定义

训练采用的对比学习损失包含以下 3 种：

对象 - 属性对比：为细粒度视觉识别数据集中的每个视觉对象

挖掘困难负样本。具体地，针对每张样本图像，从三个最相似但错误的细粒度子类别数据中选择负样本，并将其属性描述与细粒度子类别名称作为困难负样本加入对比学习。

因此，引入困难负样本后的对象 - 属性对比（Object-Attribute Contrastive, OAC）损失表示如下：

其中，

表示对象

困难负样本的属性表征集合，Sim (⋅,⋅) 测量特征空间的余弦相似度。

属性 - 类别对比：相似地，引入困难负样本后的属性 - 类别对比（Attribute-Category Contrastive, ACC）损失表示如下：

其中，

表示对象

困难负样本的细粒度子类别表征集合。

类别 - 类别对比：由于难以在大语言模型的表征空间中区分不同细粒度子类别，提出了类别 - 类别对比（Category-Category Contrastive, CCC）损失如下：

此外，为保持模型的生成能力，将属性描述作为生成目标，采用下一个标记预测（Next Token Prediction）任务进行模型训练。因此，阶段 I 的优化目标定义如下：

其中，

表示属性描述生成损失。

阶段 II：以识别为中心的指令微调

将细粒度视觉识别数据集构建为两种形式的指令微调数据：开集问答数据与闭集多选题数据，利用上述指令微调数据更新模型参数。因此，阶段 II 模型的优化目标定义如下：

其中，

表示以识别为中心的指令微调损失。

实验结果

表 1. 细粒度多模态大模型（Finedefics）实验结果

表 1 的实验结果表明，Finedefics 在 6 个权威细粒度图像分类数据集 Stanford Dog-120、Bird-200、FGVC-Aircraft、Flower-102、Oxford-IIIT Pet-37、Stanford Car-196 上的平均准确率达到了 76.84%，相比阿里 2024 年 1 月发布的通义千问大模型（Qwen-VL-Chat）提高了 9.43%，相比 Hugging Face 2024 年 4 月发布的 Idefics2 大模型提高了 10.89%。

图 3. 视觉对象 - 细粒度子类别对齐效果可视化

图 4. 细粒度多模态大模型（Finedefics）案例展示

图 3 的可视化结果表明，（a）仅微调大模型，视觉对象与细粒度子类别表征的分布差异大；（b）仅引入对象 - 类别对比学习时，上述分布差异仍然难以降低；（c）同时引入对象 - 属性、属性 - 类别、类别 - 类别对比学习时，分布差异显著降低，优化了视觉对象与细粒度子类别的对齐效果，提升了多模态大模型的细粒度视觉识别能力。

图 4 的案例展示表明，相较于 Idefics2，本方法 Finedefics 能成功捕捉视觉对象特征的细微区别，并将其与相似的细粒度子类别对象显著区分。

#MM-IQ

腾讯混元提出：多模态大模型推理评估新基准

本篇分享论文MM-IQ: Benchmarking Human-Like Abstraction and Reasoning in Multimodal Models，腾讯混元提出：多模态大模型推理评估新基准。

论文地址：https://arxiv.org/pdf/2502.00698
代码仓库：https://github.com/AceCHQ/MMIQ/tree/main/
🌐主页：https://acechq.github.io/MMIQ-benchmark/
🤗数据集地址：https://huggingface.co/datasets/huanqia/MM-IQ

效果展示

图1.1：多模态模型以及人类在 MM-IQ 基准测试中的表现

图1.2: MM-IQ的8类推理问题示例

1. 导语

随着多模态大模型（Large Multimodal Models, LMMs）的快速发展，其在语言、视觉等多领域展现出强大的理解能力。

然而，近期o1,r1,o3-mini等推理模型的出现不禁使人好奇：最先进的LMMs是否也和r1一样具备类似人类的推理能力？

为了回答这一问题，腾讯 Hunyuan 团队提出了一个新的多模态推理基准测试框架—MM-IQ，旨在系统地评估多模态模型的抽象推理和逻辑思维能力。

论文地址：https://arxiv.org/pdf/2502.00698

2. 研究背景

在人类认知能力的评估中，智商测试（IQ Test）一直被视为衡量抽象推理能力的重要工具。它通过剥离语言背景、语言能力和特定领域知识，专注于评估人类的核心认知能力。然而，目前在人工智能领域，尤其是在多模态系统中，缺乏一个能够系统量化这些关键认知维度的基准。

现有的多模态模型虽然在 OCR、目标定位和医学图像分析等特定任务上表现出色，但这些任务的评估指标无法全面衡量多模态系统的核心推理能力。

为了解决这一问题，腾讯 Hunyuan 团队从人类 IQ 测试中汲取灵感，提出了 MM-IQ 基准，旨在通过语言和知识无关的评估，系统地衡量多模态模型的抽象推理能力。

3. MM-IQ 基准介绍

MM-IQ 基准包含 2,710 个精心策划的测试项目，涵盖了8种不同的推理范式，包括逻辑运算、数学推理、二维几何、三维几何、空间关系、时间运动、视觉指令和具体对象。

这些范式不仅涵盖了多模态模型需要掌握的核心推理能力，还通过多样化的题目配置，全面考察多模态系统的认知水平。

3.1 数据集构建

MM-IQ 的数据收集过程分为三个阶段。

首先，团队从中国国家公务员考试的公开题目中筛选出适合的题目，这些题目原本用于评估考生的抽象和推理能力，因此非常适合用于多模态模型的推理能力测试。

其次，团队对这些题目进行了分类，并对题目较少的推理范式进行针对性补充，以确保每个推理范式都有足够的样本。

最后，通过去重和答案提取等步骤，确保数据集的准确性和有效性。

3.2 推理范式

MM-IQ 的 8 种推理范式如下：

逻辑运算：涉及逻辑运算符（如AND、OR、XOR）的应用，需要模型识别图形中的逻辑规则。
数学推理：评估模型对数量、数字和算术运算的推理能力。
二维几何：涵盖对二维几何图形属性的理解和图形拼接能力。
三维几何：评估模型对三维几何图形的理解，包括多面体的视图识别和立体图形的截面识别。
空间关系：考察物体之间的静态相对位置关系。
时间运动：关注物体的位置变化，包括平移、旋转和翻转。
视觉指令：通过视觉提示（如箭头）引导模型解决问题。
具体对象：涉及对现实世界物体（如花瓶、叶子、动物）的分类。

4. 实验结果

腾讯 Hunyuan 团队对多种开源和闭源的多模态大模型进行了评估，包括Deepseek-vl-7b-chat、Qwen2-VL-72B-Instruct、QVQ-72B-Preview和GPT-4o等。

结果显示，即使是性能最好的模型，其准确率也仅为 27.49%，仅略高于随机猜测的基线水平（25%），而人类的平均准确率则高达 51.27%。

4.1 模型表现

开源模型：LLaVA-1.6-7B 的准确率为 19.45%，Deepseek-vl-7b-chat 为 22.17%，Qwen2-VL-72B-Instruct 为 26.38%，QVQ-72B-Preview为26.94%。
闭源模型：GPT-4o 的准确率为 26.87%，Gemini-1.5-Pro-002 为 26.86%，Claude-3.5-Sonnet 为 27.49%。

4.2 推理范式分析

在不同推理范式中，人类和闭源模型（GPT-4o）在具体对象推理中表现更好，准确率分别为 65.79% 和 50%。这可能是因为具体对象推理需要额外的知识。

而逻辑运算范式则是多模态模型的弱项，平均准确率仅为 23.69%，因为这一范式需要模型识别更复杂的抽象规则。

5. 多模态模型表现不佳的原因分析

为了深入了解多模态模型在 MM-IQ 上的表现不佳的原因，团队对三个有代表性的模型 Claude-3.5-Sonnet、Qwen2-VL-72B-Instruct 和 LLaVA-1.6-7B 的错误答案进行了人工标注分析。结果显示，错误主要集中在以下几个方面：

推理范式出错：模型倾向于依赖简单的规则进行推理，而不是提取更复杂的抽象规则。
视觉理解错误：模型在复杂视觉范式（如逻辑运算和空间关系）上的表现较差，这表明需要提升模型对复杂视觉细节的感知能力。
直接给出最终答案：一些模型直接给出答案时表现更差，而生成详细推理链的模型表现更好。

6. 研究意义

MM-IQ 基准的提出填补了多模态领域缺乏系统推理评估基准的空白。它不仅揭示了当前多模态模型在抽象推理能力上的巨大不足，还为未来的研究方向提供了明确的指引。

通过提升模型的结构化推理能力、抽象模式识别能力和视觉理解能力，有望推动AGI的发展。

7. 总结

MM-IQ 基准为多模态模型的推理能力评估提供了一个全新的视角。它通过多样化的抽象推理范式和高质量的数据集，系统地衡量了多模态模型的抽象推理能力。

实验结果表明，当前的多模态模型在这一任务上表现不佳，与人类水平相去甚远。未来的研究需要在模型架构、训练方法和数据多样性等方面进行更多探索，以缩小这一差距。

#Exploring the Potential of Encoder-free Architectures in 3D LMMs

无编码器架构潜力或被低估，首个无编码器3D多模态LLM大模型来了

本文一作汤轶文本科毕业于上海科技大学，导师是李学龙教授，在上海人工智能实验室实习。他的研究兴趣是 3D 视觉，大模型高效迁移，多模态大模型和具身智能等。主要工作有 Any2Point, Point-PEFT, ViewRefer 等。

论文标题: Exploring the Potential of Encoder-free Architectures in 3D LMMs

作者单位：上海人工智能实验室，西北工业大学，香港中文大学，清华大学

代码链接：https://github.com/Ivan-Tang-3D/ENEL

论文链接：https://arxiv.org/pdf/2502.09620v1

许多近期的研究致力于开发大型多模态模型（LMMs），使 LLMs 能够解读多模态信息，如 2D 图像（LLaVA）和 3D 点云（Point-LLM, PointLLM, ShapeLLM）。主流的 LMM 通常是依赖于强大但计算量大的多模态编码器（例如，2D 的 CLIP 和 3D 的 I2P-MAE）。

虽然这些预训练编码器提供了强大的多模态嵌入，富含预先存在的知识，但它们也带来了挑战，包括无法适应不同的点云分辨率，以及编码器提取的点云特征无法满足大语言模型的语义需求。

因此，作者首次全面研究了无编码器架构在 3D 大型多模态模型中应用的潜力，将 3D 编码器的功能直接整合到 LLM 本身。最终，他们展示了首个无编码器架构的 3D LMM—ENEL，其 7B 模型与当前最先进的 ShapeLLM-13B 相媲美，表明无编码器架构的巨大潜力。

背景和动机

对于 3D LMMs，基于编码器的架构有以下潜在缺点：

点云分辨率限制：3D 编码器通常在固定分辨率的点云数据上进行预训练，例如 PointLLM 的编码器 Point-BERT 使用 1,024 个点。然而，在推理过程中，输入点云的分辨率可能会有所不同（例如，8,192 个点或 512 个点）。训练和推理分辨率之间的差异可能导致在提取 3D 嵌入时丢失空间信息，从而使 LLMs 理解变得困难。如（a）所示，PointLLM 在不同的点云分辨率输入下性能差异过大，而我们提出的 ENEL 显示出了一定的鲁棒性。
嵌入语义差异：3D 编码器通常采用自监督方法（如掩码学习和对比学习）进行预训练，但 3D 编码器和大语言模型的训练分离导致训练目标可能与 LLMs 的特定语义需求不一致，无法捕捉到 LLMs 理解 3D 物体所需的最相关语义。即使使用投影层将 3D 编码器与 LLMs 连接，简单的 MLP 也往往不足以进行完全的语义转换。如图（b）所示，ENEL 架构中 text token 更能关注到点云物体的关键部位，如椅脚和机翼。

具体方案

作者选择 PointLLM 作为基准模型进行探索，并使用 GPT-4 评分标准在 Objaverse 数据集上评估不同策略的表现。在无编码器结构的探索中他们提出以下两个问题：

如何弥补 3D 编码器最初提取的高层次 3D 语义？在 3D LMMs 中，完全跳过编码器会导致难以捕捉 3D 点云的复杂空间结构。
如何将归纳偏置整合到 LLM 中，以便更好地感知 3D 几何结构？传统的 3D 编码器通常将显式的归纳偏置嵌入到其架构中，以逐步捕捉多层次的 3D 几何。例如，像 Point-M2AE 这样的模型使用局部到全局的层次结构，这一概念在 2D 图像处理的卷积层中也很常见。

LLM 嵌入的语义编码

因为缺乏 3D 编码器导致点云语义信息的编码不足，极大地阻碍了 LLM 理解点云的结构细节。现有的大多数 3D 编码器使用自监督损失将点云的高层语义嵌入到 Transformer 中，主要分为四种类型：掩蔽建模损失 (a)、重建损失 (b)、对比损失 (c) 和知识蒸馏损失 (d)。基于 token embedding 模块和 LLM 可学习层，作者在预训练阶段实现并评估了这些损失对无编码器 3D LMM 的影响，并提出混合语义损失。

点云自监督学习损失通常有助于无编码器 3D LMM。自监督学习损失通过特定的任务设计对复杂的点云进行变换，促使 LLM 学习潜在的几何关系和高层次的语义信息。
在这些自监督学习损失中，掩蔽建模损失展示了最强的性能提升。掩蔽比率与训练优化难度直接相关，从 30% 增加到 60% 会导致性能下降。此外，显式重建点云 patch 不如掩蔽建模有效，但有助于 LLM 学习点云中的复杂模式。相比前两种损失，知识蒸馏损失的效果较差。最后，对比损失未能提取详细的语义信息，表现最差。
基于上述实验结果，作者提出混合语义损失 (Hybrid Semantic Loss)，他们对于掩蔽部分采用掩蔽建模，而对于可见部分，他们使用重建策略。这种方法不仅将高层次的语义嵌入 LLM 中，而且确保在整个点云学习过程中保持几何一致性。

层次几何聚合策略

在无编码器架构中，LLM 本身并没有明确的局部建模模块。自注意力机制主要用于建模全局交互。因此，基于提出的混合语义损失，作者在指令调优阶段探索如何使 LLM 主动感知 3D 局部细节，并补充学到的全局语义。为此，他们提出了层次几何聚合策略。

从 LLM 的第二层开始，输入的点云 token 基于它们对应的坐标使用最远点采样进行下采样，将 token 数量从 M 减少到𝑀/2, 作为局部中心。然后，使用 k-NN 算法获得邻近点。针对邻近点他们采用门控自注意力机制进行组内交互，捕捉局部几何结构。最后，他们应用池化操作融合每个邻居的特征，结果特征长度为 M/2。总共进行 l-1 次几何聚合。
为了确保 LLM 充分提取局部信息，作者选择在聚合操作后经过多层 LLM 层进行进一步的语义建模，避免丢失细粒度的几何细节。
随后，他们进行 l 次几何传播。按照 PointNet++ 的方法，他们将聚合后的特征从局部中心点传播到它们周围的 k 个邻近点，经过 l 次后重新得到长度为 M 的点云特征。

定量分析

在 Objaverse 基准测试中，ENEL-7B 在 3D 物体描述任务中取得了 50.92% 的 GPT-4 得分，创下了新的 SOTA 性能。在传统指标中，SentenceBERT 和 SimCSE 分别达到了 48.61% 和 49.31% 的得分，表现与 ShapeLLM-13B 相当。对于 3D 物体分类任务，ENEL-7B 超越了先前基于编码器的 3D LMMs，取得了 55% 的 GPT 得分。
此外，在 3D MM-Vet 数据集的 3D-VQA 任务上，尽管训练集中缺乏空间和具身交互相关的数据，ENEL 仍取得了 42.7% 的 GPT 得分，超过了 PointLLM-7B 1.5%。
考虑到与 PointLLM 相同的训练数据集，这些结果验证了作者提出的 LLM 嵌入式语义编码和层次几何聚合策略在无编码器架构中的有效性。

实现、训练和推理细节

作者使用 7B Vicuna v1.1 的检查点。在嵌入层中，点云首先通过一个线性层处理，将其维度从 6 扩展到 288。输入点云初始包含 8192 个点，随后经过三次最远点采样（FPS），分别将点云数量减少到 512、256 和 128。每次 FPS 操作后，使用 k 近邻进行聚类，聚类大小为 81，并通过三角编码提取几何特征，随后通过线性层逐步将维度增加到 576、1152 和 2304。最后，投影层将特征映射到 LLM 的 4096 维度。

在两阶段训练过程中，每个阶段使用的数据集和预处理方法与 PointLLM 一致。所有训练均在 4 张 80G 的 A100 GPU 上以 BF16 精度进行，使用了 FlashAttention、AdamW 优化器以及余弦学习率调度策略。在预训练阶段，模型训练了 3 个 epoch，批量大小为 128，学习率为 4e-4。在指令微调阶段，训练进行了 3 个 epoch，批量大小为 32，学习率为 2e-5。

用于分类和描述任务评估的 GPT-4 模型为「gpt-4-0613」版本，与 PointLLM 一致；而用于问答性能评估的 GPT-4 模型为「gpt-4-0125」版本，与 ShapeLLM 对齐。

#Mogao

字节跳动提出Mogao模型：开启 AIGC 从“能写会画”到“边写边画”

本篇分享论文Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation，Mogao：让AI同时创作文字和图像的创新模型。

论文链接：https://arxiv.org/pdf/2505.05472
尚未发现有开源代码。

人工智能（AI）近年来在文本生成和图像生成领域取得了显著成就。例如，语言模型可以生成流畅的文章，而图像生成模型可以根据文本描述创建逼真的图片。然而，将文本和图像无缝结合，生成交错的、连贯的多模态内容，仍然是一个技术难题。

几天前字节跳动发布了一篇论文，介绍了一种名为Mogao的创新模型，它通过统一框架实现了交错多模态生成，为AI在创意和内容生成领域的应用开辟了新可能性。

Mogao的名字起的特别好，中文应该是来自“莫高窟”的莫高，这座坐落于河西走廊西部尽头的艺术宝库。

Mogao模型概述

Mogao是一个全能基础模型，专为处理和生成多种模态数据（特别是文本和图像）而设计。与传统的单模态生成模型或基于多模态条件生成模型不同，Mogao能够生成交错的文本和图像序列。例如，它可以生成一段描述森林的文字，随后生成一张森林的插图，然后继续生成下一段文字，形成一个连贯的故事。这种交错生成能力是Mogao的核心创新。

Mogao采用了一种因果生成方法，即逐步生成输出，每一步都依赖于前一步的内容。这种方法类似于语言模型逐词生成文本，但Mogao将其扩展到图像领域，结合了自回归模型（用于文本生成）和扩散模型（用于高质量图像生成）的优势。

技术创新

Mogao的成功得益于多项架构设计上的改进，包括：

深度融合设计（deep-fusion design）：将文本和图像信息在模型的深层进行整合，确保两种模态的协同工作。
双视觉编码器（dual vision encoders）：使用两个视觉编码器（变分自编码器和视觉变换器），分别处理图像的生成和理解任务。
交错旋转位置嵌入（IL-RoPE）：一种新型的位置编码方式，适应交错的文本和图像序列。
多模态无分类器指导（multi-modal classifier-free guidance）：改进了扩散模型的生成过程，使其在多模态场景下更有效。

这些技术细节虽然复杂，但它们共同确保了Mogao能够高效地处理和生成交错的多模态内容。

训练数据

该模型的训练数据包括纯文本、视觉理解、图像生成以及多模态交错数据四种类型。其中，纯文本和视觉理解类数据继承自DouBao的语言模型（LM）和视觉语言模型（VLM）数据集。为了提升图像的质量和多样性，模型采用了SeedDream中用于图像生成的相关数据。

在多模态交错数据方面，研究团队从公开可用的网站和视频中筛选并整理出训练材料。对于原生包含文本与图像的数据，训练时保留其原始的项目顺序。另外还使用了视频帧和相应字幕的数据，研究人员训练了一个视觉-语言模型，用以为视频中抽帧采样的每一帧生成对应的字幕说明，最终将图像帧和生成的字幕交织在一起，构成训练样本。

实验结果与性能

Mogao在多项基准测试中展现了卓越的性能，以下是其主要成果的详细分析。

多模态理解

Mogao-7B（拥有70亿参数的版本）在以下多模态理解基准测试中取得了最先进的表现：

与规模相当的Janus-Pro-7B的比较结果如下：

基准测试	Mogao-7B 分数	对比模型（Janus-Pro-7B）	备注
POPE	88.9	87.4	图像描述准确性
MME-P	1592	1567.1	多模态理解综合能力
SEED	74.6	72.1	视觉问答
MMMU	44.2	41.0	多模态推理
平均分	57.4	57.1	6个基准测试平均

Mogao在这些测试中不仅超越了同等规模的模型（如Janus-Pro-7B），而且在计算效率上也具有优势，其每token计算量相当于3.5亿参数模型。

文本到图像生成

GenEval：Mogao在单对象、双对象、计数、颜色等子任务中得分均高于0.80，整体表现优于SD3-Medium和Janus-Pro-7B。
DPG-Bench：Mogao在全局、实体、属性、关系等指标上均表现出色，整体得分84.33。
GenAI-Bench：在高级提示任务中，Mogao与DALL-E 3表现相当，尤其在计数和比较任务中得分较高。

人类评估结果

在人类评估中（基于Bench-240数据集），Mogao在文本-图像对齐和结构校正方面排名第一。专家评审员根据从1（极不满意）到5（极满意）的评分标准，确认Mogao生成的交错内容在质量和连贯性上优于Emu3-Gen和Janus-Pro。

消融研究

消融研究进一步验证了Mogao架构设计的有效性：

这些结果表明，IL-RoPE、双视觉编码器和深度融合设计显著提升了模型的生成和理解能力。

示例展示

Mogao的生成能力通过以下可视化示例得到了直观展示：

文本到图像生成：Mogao生成的图像在构图、色彩、现实与虚拟的交融以及情感表达方面表现出色，分辨率为512×512。
交错多模态生成：Mogao能够保持对象身份的一致性，并严格遵循指令生成交错的文本和图像序列。
零样本图像编辑：Mogao展示了添加、移除或修改图像元素的能力，体现了其灵活性和泛化能力。

潜在应用

Mogao的交错多模态生成能力为多种应用场景提供了可能性：

教育内容创作：生成带插图的教材或互动式学习材料，增强学生的学习体验。
创意写作与艺术：自动生成带插图的故事书、漫画或混合媒体艺术作品，助力作家和艺术家。
广告与娱乐：创建吸引人的多媒体广告或社交媒体内容，提升用户参与度。
图像编辑：通过零样本编辑功能，用户可以轻松修改图像，例如在照片中添加物体或更改背景。

例如，想象一个儿童故事应用，Mogao可以根据用户输入的故事主题，生成一段文字描述角色的冒险，随后生成一张插图，再继续推进故事。这种无缝的多模态内容生成将极大地丰富用户体验。

研究背景与团队

Mogao由字节跳动 Seed 团队开发，研究团队包括Chao Liao、Liyang Liu、Xun Wang、Zhengxiong Luo、Xinyu Zhang、Wenliang Zhao、Jie Wu、Liang Li、Zhi Tian和Weilin Huang等研究员。他们在论文中提到，Mogao的开发旨在推动统一多模态系统的发展，为未来的模型扩展奠定基础。

未来展望

Mogao的出现标志着多模态AI研究的一个重要里程碑。其交错生成和零样本编辑能力展示了基础模型在处理复杂任务时的潜力。然而，论文也提到了一些局限性，例如模型在处理极端复杂提示时的表现仍有提升空间。未来的研究可能集中在以下方向：

模型扩展：增加参数规模或优化训练策略，进一步提升性能。
多模态扩展：将模型能力扩展到音频、视频等其他模态。
实际部署：优化模型以在实时应用中高效运行，降低计算成本。

结论

Mogao通过创新的架构设计和高效的训练策略，成功实现了交错多模态生成，在多模态理解、文本到图像生成和零样本图像编辑等任务中展现了卓越性能。其潜在应用涵盖教育、创意、广告等多个领域，为AI在内容生成领域的未来发展提供了新的可能性。随着多模态AI技术的不断进步，Mogao可能成为这一领域的重要基石。

#Awesome-Unified-Multimodal-Models

多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型

本文系统梳理了统一多模态理解和生成模型的最新进展，将其分为基于扩散、自回归及混合三大架构范式，并探讨了该领域面临的核心挑战与未来机遇。文章还整理了相关数据集与评测基准，为后续研究提供了重要参考

文章链接：https://arxiv.org/pdf/2505.02567

开源链接：https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models

亮点直击

阐述多模态理解与文生图模型的基础概念与最新进展;
继而梳理现有统一模型，将其归纳为三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构;
整理了适配统一模型的数据集与评测基准，为后续研究提供资源支持;
探讨了这一新兴领域面临的核心挑战，包括分词策略、跨模态注意力机制与数据问题。

近年来，多模态理解模型与图像生成模型均取得了显著进展。尽管二者各自取得了成功，这两个领域却沿着独立的路径发展，形成了截然不同的架构范式：自回归架构主导了多模态理解领域，而扩散模型则成为图像生成的基石。近期，构建统一框架以整合这两类任务的研究兴趣日益增长。GPT-4o展现的新能力正是这一趋势的例证，凸显了统一化发展的潜力。然而，两种架构间的显著差异带来了重大挑战。为清晰梳理当前研究进展，本文系统性地综述了该领域成果，旨在为未来研究提供指引。

近年来，大语言模型（LLM）的快速发展——如LLaMa、PanGu、Qwen和GPT——彻底改变了人工智能领域。这些模型在规模与能力上的持续扩展，推动了跨领域应用的突破性进展。与此同时，LLM已延伸至多模态领域，催生出LLaVa、Qwen-VL、InternVL、Ovis和GPT4等强大的多模态理解模型。这些模型不仅实现了基础图像描述功能，更能基于用户指令执行复杂推理任务。另一方面，图像生成技术也取得显著进步，SD系列和FLUX等模型已能生成高度符合用户需求的高质量图像。

当前LLM与多模态理解模型主要采用自回归生成架构，其基于解码器唯一结构和下一词元预测机制实现序列化文本生成。而文生图领域则沿不同路径发展：早期以生成对抗网络（GAN）为主导，后转向基于扩散的模型。这类模型结合UNet、DiT等架构与CLIP、T5等先进文本编码器。尽管已有研究尝试采用LLM架构进行图像生成，扩散模型目前仍是性能最优的解决方案。

虽然自回归模型在图像生成质量上逊于扩散方法，但其与LLM的结构一致性对构建统一多模态系统极具吸引力。能同时理解与生成多模态内容的统一模型潜力巨大：既可基于复杂指令生成图像，又能推理视觉数据并通过生成输出实现多模态分析可视化。2025年3月GPT-4o增强能力的发布进一步凸显这一潜力，引发了学界对统一化的广泛关注。

然而，设计此类统一框架面临重大挑战：需要整合自回归模型在推理与文本生成上的优势，以及扩散模型在高保真图像合成上的鲁棒性。若干关键问题尚待解决，例如如何为自回归生成实现有效的图像分词。现有方案中，部分研究采用扩散模型中常用的VAE或VQ-GAN及其变体，另一些则使用EVA-CLIP和OpenAI-CLIP等语义编码器。此外，虽然离散词元是自回归模型中文本处理的标配，新近研究表明连续表征可能更适合图像词元。除分词策略外，混合架构通过将并行扩散策略与序列化自回归生成相结合，为纯自回归架构提供了有前景的替代方案。由此可见，统一多模态模型的图像分词技术与架构设计仍处于早期探索阶段。

为全面梳理当前统一多模态模型的研究现状（如下图1所示），助力未来研究发展，本文展开系统性综述。本文首先介绍多模态理解与图像生成的基础概念及最新进展，涵盖自回归与扩散两类范式；继而回顾现有统一模型，将其归类为三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构。针对自回归与混合类别，本文进一步根据图像分词策略进行细分，以反映该领域方法的多样性。

除架构外，本文还整理了适配统一多模态模型训练与评估的数据集和基准测试，覆盖多模态理解、文生图、图像编辑等相关任务，为后续研究提供资源支持。最后，本文探讨该新兴领域面临的核心挑战，包括高效分词策略、数据构建、模型评估等。解决这些挑战对提升统一多模态模型的能力与可扩展性至关重要。

学界已有关于大语言模型、多模态理解和图像生成的优秀综述，而本文聚焦于理解与生成任务的整合研究。建议读者结合这些互补性综述以获取更全面的领域认知。本文期望激发这一快速发展领域的更多研究，并为学界提供有价值的参考。本文涉及的参考文献、数据集和基准测试等材料将很快发布于GitHub，并将持续更新以反映最新进展。

初步

多模态理解模型

多模态理解模型是指基于LLM的架构，能够接收、推理并从多模态输入生成输出。这些模型将LLM的生成与推理能力扩展到文本数据之外，实现了对多种信息模态的丰富语义理解。现有方法的大多数研究集中于视觉-语言理解（VLU），该任务整合了视觉（如图像和视频）与文本输入，以支持对空间关系、对象、场景及抽象概念的更全面理解。图2展示了一个典型的多模态理解模型架构。这些模型在一个混合输入空间中运行，其中文本数据以离散形式表示，而视觉信号则被编码为连续表示。与传统LLM类似，其输出以离散token的形式从内部表示生成，使用基于分类的语言建模和任务特定的解码策略。

早期的VLU模型主要通过双编码器架构对视觉与文本模态进行对齐，在该架构中，图像与文本首先被分别编码，然后通过对齐的潜在表示进行联合推理，这些模型包括CLIP、ViLBERT、VisualBERT 和 UNITER。尽管这些开创性的模型确立了多模态推理的关键原则，但它们严重依赖基于区域的视觉预处理及独立的编码器，限制了模型的可扩展性与通用性。随着强大LLM的出现，VLU模型逐步转向采用仅解码器架构，这类架构通常结合冻结或最小微调的LLM主干。这些方法主要通过结构各异的连接器将图像嵌入转换，如下图2所示。具体而言，MiniGPT-4 使用单个可学习层将CLIP提取的图像嵌入投影到Vicuna的token空间中。BLIP-2 引入了一个查询Transformer，用于连接冻结的视觉编码器与冻结的LLM（如Flan-T5 或 Vicuna），以更少的可训练参数实现高效的视觉-语言对齐。Flamingo采用门控交叉注意力层将预训练的视觉编码器与冻结的Chinchilla解码器连接起来。

VLU的最新进展显示出向通用多模态理解转变的趋势。GPT-4V 将GPT-4框架扩展为支持用户提供的图像输入，尽管其为专有系统，但在视觉推理、图像描述与多模态对话方面展现出强大能力。Gemini构建于仅解码器架构之上，支持图像、视频与音频模态，其Ultra版本在多模态推理任务中设立了新基准。Qwen系列体现了可扩展的多模态设计：Qwen-VL引入视觉接收器与定位模块，而Qwen2-VL 增加了动态分辨率处理与M-RoPE，以实现对多样输入的鲁棒处理。LLaVA-1.5 与 LLaVA-Next使用基于CLIP的视觉编码器与Vicuna风格LLM，在VQA与指令跟随任务中取得了有竞争力的性能。InternVL系列探索了一种统一的多模态预训练策略，同时从文本与视觉数据中学习，以提升在各种视觉-语言任务中的表现。Ovis引入了一种结构性嵌入对齐机制，通过一个可学习的视觉嵌入查找表生成与文本token结构一致的视觉嵌入。近期，一些模型开始探索面向多模态处理的可扩展与统一架构。DeepSeek-VL2采用专家混合（Mixture-of-Experts, MoE）架构以增强跨模态推理。总体而言，这些模型清晰展现了向指令调优与token中心的框架发展的趋势，使其能够以统一且可扩展的方式应对多样的多模态任务。

文本生成图像模型

扩散模型。扩散模型（Diffusion Models，DM）将生成过程表述为一对马尔可夫链：一个前向过程逐步通过在个时间步上添加高斯噪声来扰动数据，生成；以及一个反向过程，通过学习一个参数化分布，逐步去噪回到数据流形上。如下图3所示，在前向过程中，给定数据分布，在每个时间步，数据被添加噪声，具体表示如下：

其中，是噪声的方差超参数。在反向过程中，模型逐步对数据进行去噪，以逼近马尔可夫链的反向过程。反向转移被参数化为：

网络对均值和方差进行参数化。该网络以加噪后的数据和时间步为输入，并输出用于噪声预测的正态分布参数。噪声向量由初始化，然后依次从学习到的转移核中采样：

直到为止。训练目标是最小化负对数似然的变分下界（Variational Lower－Bound）：

其中，是模型对时间步所加噪声的预测值，是该时间步实际加入的噪声。

早期的扩散模型使用 U-Net 架构来逼近 score function。U-Net 基于 Wide ResNet 构建，集成了残差连接和自注意力模块，以维持梯度传播并恢复图像的细节。这些方法大致可分为像素级方法和潜特征级方法：

像素级方法：直接在像素空间执行扩散过程。例如，GLIDE 引入了“无分类器引导”（classifier-free guidance），Imagen 使用预训练的大语言模型 T5-XXL 作为文本编码器。但这些方法计算开销大，训练与推理成本高。
隐空间扩散模型（LDMs）：在预训练的变分自编码器的隐空间中操作扩散过程，如[14] 所提出。LDMs 在保持高质量生成效果的同时显著提升了计算效率，启发了多种扩散生成模型的发展，包括 VQ-Diffusion、SD 2.0、SD XL 和 UPainting。

随着 Transformer 架构的发展，出现了基于 Transformer 的扩散模型。例如：

Diffusion Transformers (DiT) ：将输入图像分割为 patch 序列，并通过一系列 Transformer 块进行处理。DiT 以扩散时间步和条件信号作为附加输入。

DiT 的成功催生了更多先进的生成方法：

REPA：在扩散训练中注入自监督视觉特征以提升大规模性能；
SD 3.0：使用两组独立权重分别建模文本与图像模态；
其他方法。

文本编码器方面，这些方法主要采用对比学习，将图文模态对齐到共享的隐空间中，在大规模图文对 (image-caption pairs) 上共同训练图像和文本编码器。例如：

GLIDE：探索了 CLIP 指导与无分类器指导，展示出 CLIP 条件扩散方法优于早期 GAN 方法，且支持强大的文本编辑；
SD：使用冻结的 CLIP-ViT-L/14 编码器作为条件输入，生成高质量图像并具有良好计算效率；
SD 3.0：使用 CLIP ViT-L/14、OpenCLIP bigG/14 和 T5-v1.1 XXL 将文本转为嵌入以用于生成指导。

近期扩散模型的进展还融合了大语言模型（LLMs），进一步提升了文本到图像生成的对齐能力和生成质量：

RPG：利用多模态 LLM 的视觉语言先验，从文本提示中推理出补充的空间布局，并在文本引导图像生成与编辑中操控对象组合。

不过，这些方法通常需为特定任务设计不同的模型架构、训练策略和参数配置，增加了管理复杂性。更具可扩展性的解决方案是构建统一的生成模型，能够处理多种数据生成任务：

OmniGen：支持文本生成图像、图像编辑、主体驱动生成与视觉条件生成等多种任务；
UniReal：将图像任务视为不连续视频生成，统一支持生成、编辑、定制和合成；
GenArtist：通过多模态大模型协调统一图像生成与编辑；
UniVG：用一套权重处理多模态输入，实现多种下游应用。

随着该领域研究不断深入，预计将出现越来越统一的模型，能够处理更广泛的图像生成与编辑任务。

自回归模型（Autoregressive models）：自回归（AR）模型通过将序列的联合分布因式分解为条件概率的乘积来定义生成过程，其中每个元素都基于先前生成的所有元素进行预测。这一范式最初用于语言建模，如今已成功扩展至视觉领域，通过将图像映射为像素、patch 或潜编码的一维离散序列。形式上，给定一个序列，模型的训练目标是使每个元素在条件化前序元素的情况下生成：

其中，表示模型参数。训练目标是最小化负对数似然（NLL）损失：

如下图4所示，现有方法根据序列表示策略可分为三类：基于像素的模型、基于token的模型和基于多token的模型。

1）基于像素的模型。PixelRNN是首个用于预测下一个像素的前沿方法。它将二维图像转换为一维像素序列，并使用 LSTM 层根据先前生成的值逐个生成像素。尽管在建模空间依赖方面效果显著，但其计算成本较高。PixelCNN 引入膨胀卷积以更高效地捕捉远距离像素依赖关系，而 PixelCNN++采用离散化的逻辑混合似然函数和架构改进来提升图像质量和生成效率。一些进阶方法也提出了并行化策略，以降低计算开销，尤其是在高分辨率图像生成中提升速度。

2）基于token的模型。受自然语言处理范式启发，基于token的自回归（AR）模型将图像转换为离散token的紧凑序列，极大地缩短了序列长度，并支持高分辨率合成。这一过程始于向量量化（VQ）：通过重建损失和承诺损失训练的编码器-解码器学习到一个紧凑的潜在索引码本，之后仅用一个解码器Transformer对这些token建模条件分布。典型的VQ模型包括 VQ-VAE-2、VQGAN、ViT-VQGAN 等。许多工作专注于提升解码器Transformer的能力。LlamaGen将VQGAN的分词器应用于LLaMA骨干网络，在性能上可与DiTs媲美，且随着参数数量增加，生成质量也有所提升。与此同时，数据高效变体如 DeLVM在显著减少数据需求的前提下仍能保持图像质量；而像 AiM、ZigMa 和 DiM 等模型则引入了Mamba中的线性或门控注意力机制，以实现更快推理和更优性能。为了增强上下文建模，研究者提出了随机和混合解码策略。如 SAIM、RandAR 和 RAR 通过随机打乱patch预测顺序来克服固定扫描顺序的偏差，而 SAR 将因果学习泛化到任意顺序与跳跃间隔。混合框架进一步融合不同范式：如 RAL 使用对抗策略梯度缓解暴露偏差，ImageBART 将分层扩散更新与AR解码交替进行，DisCo-Diff则结合了离散潜变量与扩散解码器，获得领先的FID得分。

3）基于多token的模型。为提升生成效率，近来的AR模型由单token生成转向同时预测多个token，从而在不损失质量的前提下实现显著加速。Next Patch Prediction（NPP）将图像token聚合为高信息密度的patch级token，从而大幅减少序列长度。类似地，Next Block Prediction（NBP）将聚合扩展到更大的空间块（如整行或整个帧）。Neighboring AR（NAR）提出基于局部“邻居”机制向外预测，而 Parallel Autoregression（PAR）则将token划分为不重叠子集并发解码。MAR 放弃了离散token化和固定顺序，转而采用用扩散损失训练的连续表示。除空间聚合外，VAR引入粗到细的多尺度预测范式，并激发出一系列进阶方法，包括 FlowAR、M-VAR、FastVAR 和 FlexVAR。一些基于频率的方法则从频域分解生成过程：FAR 和 NFIG 先生成低频结构再细化高频细节。xAR 抽象统一了自回归单元，包括patch、cell、scale或整张图像，在统一框架下处理不同生成粒度。这些多token方法突显出合理定义自回归单元的重要性，在图像质量、生成效率和模型可扩展性之间实现平衡。在自回归解码器中也逐步引入了控制机制，以实现更精细的图像编辑。ControlAR在解码过程中引入边缘图、深度图等空间约束，支持对token级的细粒度编辑。ControlVAR 在此基础上引入了尺度感知的条件机制，从图像整体特征进行调控，提升了图像的一致性与可编辑性。CAR 进一步扩展了上述思路，着重于构建更先进的控制机制，以增强图像细节和适应能力。对于多物体或时序一致性强的复杂场景，Many-to-Many Diffusion（M2M）将自回归框架扩展用于多帧生成，以保证图像间语义与时序的一致性。MSGNet 结合了VQ-VAE和AR建模，维持场景中多实体的空间-语义对齐。在医学领域，MVG 将自回归图像到图像的生成方式扩展到分割、图像合成与去噪等任务，并通过配对的提示图与图像进行条件建模。这些图像生成中的自回归方法提供了基础模型架构和视觉建模策略，有效推动了统一多模态理解与生成研究的发展。

统一的多模态模型：理解与生成

统一多模态模型旨在构建一个能够同时进行多模态数据理解与生成的统一架构。这类模型被设计用于处理多种形式的输入（如文本、图像、视频、音频），并以统一的方式生成一个或多个模态的输出。一个典型的统一多模态框架通常包含三个核心组件：模态特定编码器，用于将不同输入模态投影到同一表示空间；模态融合骨干网络，用于整合多模态信息并实现跨模态推理；以及模态特定解码器，用于在期望的模态中生成输出（如文本生成或图像合成）。

本节重点关注支持视觉-语言理解与生成的统一多模态模型，即以图像和文本为输入，并输出文本或图像的模型。如下图5所示，现有统一模型大致可分为三类：扩散模型（diffusion models）、自回归模型（autoregressive models），以及融合的AR+扩散模型（fused AR + diffusion models）。其中，自回归模型根据其模态编码方法进一步划分为四个子类：基于像素的编码（pixel-based encoding）、基于语义的编码（semantic-based encoding）、基于可学习查询的编码（learnable query-based encoding） 以及混合编码（hybrid encoding）。每种编码策略代表了处理视觉和文本数据的不同方式，导致其多模态表示在集成度和灵活性方面各有差异。而融合的AR+扩散模型根据模态编码方式分为两类：基于像素编码和混合编码。这类模型结合了自回归与扩散技术的优势，为实现更统一、高效的多模态生成提供了有前景的路径。

接下来的各节将深入探讨每一类模型：

第3.1节探讨基于扩散的模型，分析其在从噪声表示中生成高质量图像和文本方面的独特优势。
第3.2节聚焦自回归模型，细致解析不同编码方法如何影响其在视觉-语言任务中的表现。
第3.3节介绍融合AR+扩散模型，探讨两种范式结合如何增强多模态生成能力。最后，本文将讨论任意对任意（any-to-any）多模态模型，它们将该框架扩展至图像与语言之外，支持音频、视频、语音等更多模态，目标是构建通用的生成模型。

3.1 扩散模型

扩散模型因具备多项关键优势，在图像生成领域取得了显著成功。首先，与生成对抗网络（GAN）相比，它们在样本质量方面表现更优，拥有更好的模式覆盖能力，并能缓解常见问题如模式崩溃和训练不稳定性。其次，扩散模型的训练目标是预测添加噪声后的数据中的噪声部分，这是一项简单的监督学习任务，避免了对抗式训练的复杂性。第三，扩散模型具有高度灵活性，可在采样过程中加入各种条件控制信号，如分类器引导和无分类器引导，从而提升可控性和生成质量。此外，随着噪声调度机制和加速采样技术的改进，扩散模型的计算开销大幅降低，变得更加高效和可扩展。

基于这些优势，研究人员将扩散模型从单一模态任务扩展至多模态生成，目标是在统一框架下同时支持文本和图像的输出。如图5(a)所示，在多模态扩散模型中，去噪过程不仅依赖于时间步和噪声，还依赖于多模态上下文，如文本描述、图像或联合嵌入。这一扩展使得不同模态的同步生成成为可能，并促成了生成结果之间丰富的语义对齐。

一个具有代表性的例子是 Dual Diffusion，其提出了一个双分支扩散过程，用于联合文本和图像生成。具体来说，给定一个文本-图像对，Dual Diffusion 首先使用预训练的 T5 编码器对文本进行 softmax 概率建模，从而获得离散的文本表示；同时使用 Stable Diffusion中的 VAE 编码器对图像进行编码，以获得连续的图像潜表示。这两个模态的潜表示会分别通过各自的正向扩散过程添加噪声，得到每个时间步上的噪声潜变量。

在反向去噪过程中，模型使用两个模态特定的去噪器联合去噪文本和图像潜表示：一个基于 Transformer 的文本去噪器和一个基于 UNet 的图像去噪器。关键在于，在每个时间步，两个去噪器都引入了跨模态的条件控制：文本潜表示关注图像潜表示，反之亦然，这使得在整个去噪轨迹中实现了模态间的语义对齐。

去噪完成后，文本潜表示通过 T5 解码器解码为自然语言，而图像潜表示则通过 VAE 解码器解码为高保真图像。训练过程中采用两个独立的损失项进行监督：图像分支最小化标准的噪声预测损失，文本分支则最小化对比式对数损失（contrastive log-loss）。通过耦合两个扩散链，并引入明确的跨模态交互，Dual Diffusion 实现了从纯噪声出发的连贯、可控的多模态生成。

尽管 Dual Diffusion 在联合文本与图像生成方面展现了潜力，但仍面临若干局限。其计算效率受限于多次扩散迭代的需求，速度慢于 GAN 或自回归模型。双分支架构增加了模型复杂性与训练不稳定性。此外，虽然跨模态条件有助于模态对齐，但对噪声水平仍较为敏感，可能导致输出质量不佳。最后，对于生成细节的精细控制仍具挑战，模型在处理分布外数据时的泛化能力也有待提升。

3.2 自回归模型（Auto-Regressive Models）

在统一多模态理解与生成模型中，一个主要方向是采用自回归（AR）架构，其中视觉和语言标记（tokens）通常被串行化并按顺序建模。在这些模型中，主干 Transformer 模型（通常是从大语言模型 LLMs，如 LLaMA 系列，Vicuna，Gemma 系列以及 Qwen 系列中适配而来）作为统一的模态融合模块，用于自回归地预测多模态输出。

如图 5 所示，为了将视觉信息整合进 AR 框架，现有方法提出了多种图像标记化策略。这些策略大致可分为四类：基于像素的编码、基于语义的编码、基于可学习查询的编码，以及混合式编码方法。

1）基于像素的编码（Pixel-based Encoding）

如图 5 (b-1) 所示，基于像素的编码通常是指将图像表示为从预训练自动编码器中获得的连续或离散标记，这些编码器通常仅在图像重建任务上进行监督训练，例如 VQGAN 类模型。这些编码器将高维像素空间压缩为紧凑的潜在空间，其中每个空间补丁对应一个图像标记。在统一的多模态自回归模型中，从这类编码器序列化得到的图像标记可类比于文本标记进行处理，从而实现单序列内的两种模态建模。

近期工作中，不同模型采用并增强了像素标记化的编码设计。LWM 使用 VQGAN 标记器将图像编码为离散潜在代码，而无需语义监督，并提出了多模态世界建模框架，在该框架中图像和文本标记被串联处理，实现统一的自回归建模。通过仅使用重建驱动的图像标记与文本描述进行世界动态建模，LWM 展示了即使不使用语义标记化，也能实现大规模的多模态生成。

Chameleon和 ANOLE均采用了 VQ-IMG，这是一种改进型 VQ-VAE 变体，适用于内容丰富的图像生成。VQ-IMG 拥有更深的编码器、更大的感受野，并加入了残差预测机制，以更好地保留复杂的视觉细节。通过这些增强，Chameleon 和 ANOLE 能够更忠实地序列化图像内容，支持高质量的多模态生成。此外，这些模型还支持交错生成（interleaved generation），即在统一的自回归框架中交替生成文本和图像标记。

Emu3、SynerGen-VL 和 UGen 采用了 SBER-MoVQGAN，这是一种多尺度的 VQGAN 变体，能编码包含全局结构和细粒度细节的潜在图像表示。通过多尺度标记化，这些模型增强了视觉表示的表达力，同时保持了训练的效率。

与 LWM类似，Liquid 也使用 VQGAN 式的标记器，并揭示了一个新发现：在统一的自回归目标和共享的视觉标记表示下，视觉理解与生成可以互相促进。此外，MMAR、Orthus 和 Harmon 引入了使用连续值图像标记的框架，通过提取连续潜在表示来避免离散化所带来的信息损失。这些方法还通过在每个自动回归图像块嵌入上添加轻量级扩散头，将扩散过程从 AR 主干中解耦，从而避免主干表示局限于最终的去噪步骤，有助于更好的图像理解。

除 MMAR 和 Harmon外，这类模型在预训练和生成阶段均使用因果注意力掩码，确保每个标记只能关注其序列中之前的标记。它们采用“下一个标记预测”损失函数进行训练，图像与文本标记均以自回归方式进行预测，从而实现了跨模态统一的训练目标。

在基于像素的编码方法中，图像重建通常采用 VQGAN 类模型中提出的配对解码器结构。这些解码器是轻量级卷积架构，主要用于将离散潜在网格准确还原为像素空间，专注于低级别的重建，而非高级语义推理。

此外，部分方法如 MMAR、Orthus 和 Harmon 采用连续潜变量进行图像标记化，因此它们使用轻量扩散 MLP 解码器将连续潜变量映射回像素空间。

尽管有效，基于像素的编码方法仍面临一些固有局限：

首先，视觉标记仅为像素重建而优化，通常缺乏高级语义抽象能力，使图文之间的对齐更加困难；
其次，该方法倾向于生成密集的标记网格，尤其是在高分辨率图像下，造成相比文本模型更长的序列长度，从而显著增加自回归训练和推理的计算与内存开销，限制了可扩展性；
最后，由于视觉编码器以重建为主的目标进行训练，生成的视觉标记可能保留过多模态特定的偏差，如对纹理或低级图案的过度敏感，这不利于语义理解或细粒度跨模态推理。

2）语义编码（Semantic Encoding）

为克服像素编码中缺乏语义的问题，越来越多的工作采用语义编码，即使用预训练的、与文本对齐的视觉编码器（如 OpenAI-CLIP、SigLIP、EVA-CLIP 或更新的统一标记器 UNIT）来处理图像输入，如图 5 (b-2) 所示。这类模型通常在大规模图文对数据集上，以对比学习或回归目标进行训练，生成的视觉嵌入能够与语言特征在共享语义空间中对齐，从而更有效地实现跨模态对齐，有利于多模态理解与生成任务。

多种代表性模型基于不同语义编码器和架构设计，支持统一的多模态任务。Emu、Emu2和 LaViT均采用 EVA-CLIP作为视觉编码器。Emu 首次提出了将冻结的 EVA-CLIP 编码器、大语言模型和扩散解码器结合的架构，统一支持 VQA、图像描述和图像生成。Emu2 在此基础上，提出了更简洁、可扩展的预训练框架，将模型参数规模扩大到 37B，显著提升理解与生成能力。LaViT在 EVA-CLIP 基础上引入了动态视觉标记机制，利用选择器与合并模块，根据图像内容复杂度自适应选择视觉标记序列长度，从而减少冗余信息并保留关键视觉特征，提升了训练效率和生成质量，适用于图像描述、问答和生成等任务。

DreamLLM、VL-GPT、MM-Interleaved 和 PUMA 采用 OpenAI-CLIP 编码器。DreamLLM 使用轻量线性投影对 CLIP 嵌入与语言标记对齐；VL-GPT在 CLIP 视觉编码器后接强大的因果 Transformer，有效保留语义信息与图像细节。MM-Interleaved和 PUMA 利用简单的 ViT-Adapter 或池化操作从 CLIP 编码器中提取多粒度图像特征，支持丰富的多模态生成。

Mini-Gemini 引入了视觉标记增强机制，采用双语义编码器：一个 CLIP 预训练的 ViT 编码器提取全局视觉标记，另一个 LAION 预训练的 ConvNeXt 编码器提供密集的局部信息。通过交叉注意模块将局部视觉信息注入到全局标记中，再与文本标记融合输入至 LLM 进行联合建模，有效融合语义抽象与像素细节。

MetaMorph使用 SigLIP提取视觉嵌入，并在语言模型多个 Transformer 层中插入模态特定适配器，支持更深层的视觉语言交互，相较浅层投影方法效果更好。ILLUME采用 UNIT作为视觉编码器，提供语义对齐与像素保真之间平衡的统一表示。不同于仅使用对比损失的 CLIP 类模型，UNIT 同时以图像重建和对比对齐目标进行训练，生成兼顾理解与生成任务的图像标记。ILLUME 基于 UNIT 的强大标记器，在图像描述、问答、文本生成图像与交错生成等任务上表现优异。

类似地，VILA-U和 Unitok 模仿 UNIT，引入图文对比学习，提出一种新型的文本对齐视觉标记器，在语义对齐与像素保真之间实现有效平衡。

在大多数此类模型中，在MLLM（多模态大语言模型）训练期间会应用因果注意力掩码，并采用下一标记预测损失来同时优化文本和视觉标记的生成。在图像生成方面，大多数模型通常采用基于扩散的解码器，如SD-v1.5、SD-v2.1、SDXL 或 IP-adapter，这些解码器与MLLM是独立训练的。在推理阶段，MLLM生成语义级视觉标记，然后将其传递给扩散解码器以进行最终图像合成。这种将语义编码器与扩散解码器配对的设计选择，是基于以下事实：语义嵌入编码了高层次的概念信息，但缺乏直接进行像素重建所需的空间密度和低层次细节。扩散模型通过其迭代去噪机制，特别适合此场景：即使输入标记稀疏或抽象，它们也能逐步将语义表示细化为高分辨率、逼真的图像。相比之下，尽管一些方法（如 VILA-U 和 Unitok）采用像素级解码器，但其生成的图像质量通常不如扩散解码器。因此，扩散解码器为语义压缩的视觉标记提供了更强大、更具表现力的解码路径，显著提升了文本-图像对齐、整体连贯性和视觉保真度。

尽管语义编码具有上述优势，但也存在一些局限性。首先，由于缺乏低层次细节，生成的视觉标记在像素级控制上较弱，难以进行精细图像编辑、局部修复或结构保持的变换。其次，语义编码器通常仅提供全局或中层表示，对于需要空间对应关系的任务（如指代表达分割或姿态精确合成）来说可能不够充分。最后，由于语义编码器与扩散解码器通常是分开训练的，缺乏端到端的优化，这可能导致MLLM输出与解码器预期之间的不匹配，进而偶发语义漂移或生成伪影。

3）可学习查询编码（Learnable Query Encoding）

可学习查询编码作为一种生成自适应、任务相关图像表示的有效策略逐渐兴起。如图5(b-3)所示，该方法不再完全依赖固定的视觉标记器或密集图像块，而是引入一组可学习的查询标记，这些标记从图像特征中动态提取信息。这些查询标记充当感知内容的探针，与视觉编码器交互，以生成紧凑且语义对齐的嵌入，适用于多模态理解与生成。

当前的可学习查询编码实现可大致分为两类代表性范式。第一类由SEED代表，提出一种种子标记器（seed tokenizer）以学习因果视觉嵌入。具体来说，输入图像首先通过BLIP-2的ViT编码器被编码为密集标记特征，然后将其与一组可学习查询标记拼接，并通过因果Q-Former处理以生成因果视觉嵌入。该设计在图像-文本对比学习与图像重建监督下训练，使得所学嵌入同时保留低层视觉细节与高层语义对齐信息。基于这一基础，SEED-LLAMA 与 SEED-X 通过将OPT主干替换为更强的LLaMA2模型并将解码器升级为UnCLIP-SD或 SDXL ，从而提升了模型在理解与生成任务中的性能。

第二种方法由MetaQueries提出，提供了一个简化版本的可学习查询编码方案。在此方法中，图像特征通过一个冻结的SigLIP编码器提取，然后与可学习查询标记拼接，并直接输入到如LLaVA 或 Qwen2.5-VL等冻结的视觉-语言主干模型中。输出的因果嵌入用于扩散解码器的条件输入，从而实现高质量图像生成。由于主干模型保持冻结，该方案在保留预训练模型视觉语言理解能力的同时，提供了一种轻量且高效的多模态生成解决方案。

这些基于可学习查询的设计具有一个共同优势：它们提供了自适应、紧凑且语义丰富的表示，既支持高效图像理解，也可实现高质量图像生成。通过聚焦于任务驱动的标记提取，这类模型为传统视觉标记器提供了一个灵活且可扩展的替代方案，尤其适用于统一多模态框架。

尽管具有灵活性与良好效果，可学习查询编码也存在一些限制，可能会影响其广泛应用。首先，一个关键挑战是可学习查询标记带来的计算开销增加。随着查询标记数量增长，模型的内存消耗与计算复杂度可能显著上升，尤其是在扩展至大型数据集或更复杂多模态任务时。其次，如SEED 和 MetaQueries所示，依赖冻结或预训练的主干网络可能限制视觉特征对下游任务的适应能力。虽然冻结可降低训练成本并保留预学习知识，但也限制了模型在动态对齐图像特征与不断变化的查询语义方面的能力，尤其在更复杂或组合性任务中更为明显。最后，虽然可学习查询能够有效捕捉任务相关内容，但其在处理多样化视觉内容方面未必均衡。例如，对于包含多个对象、细粒度细节或模糊视觉线索的复杂场景来说，相对少量的查询标记可能无法充分捕捉图像中的丰富性与变异性。这一局限在模型需生成高度精细输出时尤为明显，因为固定或较少的查询集合可能不足以涵盖某些上下文中的全部视觉信息。

4）混合编码（Hybrid Encoding）

为了解决单一模态视觉表示的固有限制，统一多模态模型中引入了混合编码策略。基于像素的编码方法（如 VQ-VAE 或 VQGAN）擅长保留细粒度的视觉细节，但在与文本的语义对齐方面表现欠佳。相比之下，基于语义的编码器（如 SigLIP 或 CLIP 变体）生成的表示具有丰富的语义信息，但不擅长保留图像的低层次细节。混合编码旨在通过将像素级和语义级特征整合为统一表示，结合两者的优点。根据像素标记和语义标记的整合方式不同，混合编码方法可大致分为两类：伪混合编码（pseudo hybrid encoding）与联合混合编码（joint hybrid encoding）。

伪混合编码（Pseudo Hybrid Encoding）这一类别的代表性工作包括 Janus、Janus-Pro、OmniMamba 和 Unifluid。如图 5(b-4) 所示，这些模型采用双编码器架构——通常包括语义编码器（例如 SigLIP）和像素编码器（例如 VQGAN 或 VAE）——但以任务为导向的方式使用它们。在训练过程中，语义编码器被用于视觉-语言理解任务，而像素编码器则用于图像生成任务。尽管两种编码器通过混合的理解与生成数据进行联合训练，但在推理阶段不会启用像素编码器。

这种设计的动机在于：通过同时训练理解和生成任务，可以提升两个方向的性能。然而，由于任一时刻仅激活一个编码器，这些模型并未充分发挥混合编码的潜力。具体而言，它们在图像生成任务中错失了利用语义信息进行语义对齐的机会，同时在理解任务中也无法充分利用图像的高保真细节。因此，这些模型通常使用像素解码器从潜在编码中重构图像。

联合混合编码（Joint Hybrid Encoding）如图 5(b-5) 所示，联合混合编码方法将语义与像素令牌整合为统一输入，供语言模型或解码器使用，从而实现两种表示的同时利用。代表性工作包括 MUSE-VL、VARGPT、VARGPT-1.1 和 ILLUME+。这些模型在融合策略上存在差异：MUSE-VL 在通道维度上拼接 SigLIP 与 VQGAN 的特征后输入 LLM；而 VARGPT、VARGPT-1.1 和 ILLUME+ 则在序列维度上拼接语义与像素令牌，并同时输入给 LLM。

通过结合语义信息与高保真视觉细节，联合混合编码可提升多模态理解与生成的鲁棒性与表达力。这些模型支持使用像素解码器（如 VQGAN、Infinity、VAR-D30）以及基于扩散的解码器（如 SDXL），从而生成在语义对齐与视觉逼真度方面更优秀的图像。

尽管混合编码通过整合像素级与语义级的互补优势展现出巨大潜力，但仍面临诸多限制。许多伪混合方法在推理时并不同时启用两个编码器，从而未能利用二者的协同效果。即便是联合混合方法，在处理异质令牌融合时也可能引入模态不平衡或冗余，若未加以妥善管理，可能影响下游任务表现。此外，双编码器架构显著增加了计算与内存开销，尤其在高分辨率或长序列任务中，存在扩展性挑战。像素与语义令牌之间的对齐仍然是一项非平凡的问题，隐式的不匹配可能导致表征混乱或监督信号冲突。在训练数据稀缺或数据噪声较大时，这类错配尤为明显。

3.3 融合自回归与扩散模型（Fused Autoregressive and Diffusion Models）

融合自回归（AR）与扩散建模近期作为一种强大的视觉-语言统一生成框架快速兴起。在该范式中，文本令牌采用自回归方式生成，保留大语言模型的组合推理能力；而图像令牌则通过多步去噪扩散过程生成，遵循扩散模型原理。该混合策略使图像生成过程不再依赖严格的序列顺序，从而提升视觉质量与全局一致性。

代表性模型包括 Transfusion、Show-o、MonoFormer 和 LMFusion。在生成过程中，这些模型将噪声添加至视觉潜表示，并通过条件化在已生成文本或跨模态上下文基础上进行多步去噪。尽管这种设计会因多轮采样带来更高的推理开销，但在符号控制与图像质量之间实现了有效权衡，特别适用于高质量的视觉-语言生成任务。

现有融合 AR + 扩散模型通常采用以下两种图像编码策略：基于像素的编码与混合编码。

1）基于像素的编码（Pixel-based Encoding）

如图 5(c-1) 所示，该策略将图像转化为离散令牌或连续潜向量，随后将其作为扩散过程的目标，并由自回归生成的文本令牌进行条件引导。在近期工作中，Transfusion、MonoFormer 和 LMFusion 均采用由 SD-VAE 提取的连续潜表示。它们共享一个训练目标，即结合语言建模的自回归损失与图像重构的扩散损失，同时利用双向注意机制保证空间一致性。

尽管整体框架相似，但各模型在架构上各具特色：

Transfusion 提出了一个统一 Transformer 主干网络，使用模态专属的子层同时处理离散与连续输入；
MonoFormer 则采用紧凑架构，通过共享模块与任务相关的注意力屏蔽机制在 AR 与扩散任务间取得平衡；
LMFusion 允许冻结的 LLM 执行高质量图像生成，其轻量视觉注入模块在不影响语言能力的前提下，仅训练视觉分支。

相较而言，Show-o 使用基于 MAGVIT-v2 的离散像素编码器，以符号化图像令牌的方式适配 Transformer 解码流程。它支持自回归文本生成与扩散图像合成，同时使用自回归与扩散损失联合监督。

这些模型共同验证了像素编码在实现语言模型语义控制与扩散模型高保真图像生成之间的有效平衡。

然而，这类像素编码方法也面临一系列问题：

使用 SD-VAE 提取连续潜表示会带来训练与推理过程中的大量计算开销，尤其是在高分辨率图像或多轮交互任务中更为明显；
文本与图像模态的对齐仍是挑战。尽管使用双向注意机制促进模态融合，但 SD-VAE 中的隐空间通常由无监督重建目标学习而来，可能与语言语义信息对齐不足，导致细粒度控制能力减弱或生成可解释性降低；
离散编码方案（如 Show-o）存在 VQ 模型常见的问题，例如代码本坍塌与细节能力受限，使其在视觉多样性与重建质量方面略逊于连续表示方法。

2）混合编码（Hybrid Encoding）：

如前面图 5(c-2) 所示，混合编码结合语义特征（如来自 CLIP 或 ViT 的编码器）与像素级潜表示（如来自 SD-VAE），从而构建更具表现力的图像表示方式。该方法允许模型在保留语义抽象能力的同时，也捕捉视觉细节。

代表性方法是 Janus-Flow，其采用双编码器架构，并提出一个精简的架构用于将自回归语言模型与整流流模型（rectified flow）整合。它解耦了理解与生成编码器，使用 SigLIP 作为视觉编码器进行多模态理解，使用 SDXL-VAE 执行图像生成。然而，由于其伪混合编码设计，在图像合成过程中仅激活像素编码器，限制了模型在生成时利用语义信息的能力，从而可能影响细粒度对齐与生成任务中的多模态组合能力。

尽管取得了一定进展，混合编码方法仍面临多个挑战：

双编码器架构与 AR+扩散流程的结合提高了模型复杂度，带来更高的计算成本与训练时间，整体效率低于简单模型；
实现语义特征与像素特征的有效对齐需要精心设计与优化，而这一过程往往非常复杂，制约了模型在两种模态间的协同能力；
在统一模型中同时优化视觉-语言理解与图像生成任务，可能导致权衡问题，即提升一个任务可能以牺牲另一个任务为代价。

这些限制凸显出对更高效混合设计的迫切需求，即能在降低开销的同时，充分利用视觉与语义特征的优势，并在多任务中保持高性能。

3.4 任意对任意多模态模型

早期的统一多模态模型主要集中在文本-图像对上，而最近的研究则扩展到了任意对任意的多模态建模。这种雄心勃勃的方法旨在创建能够处理和生成各种模态的模型，包括音频、视频、语音、音乐等。这些模型的目标是将特定模态的编码器和解码器统一到单一架构中，从而实现文本到音频、视频到文本、语音到音乐甚至图像到视频的生成任务。本节回顾了该新兴领域的代表性作品，重点介绍了它们的设计原则、模块化结构和当前的局限性。

大多数任意对任意模型采用模块化设计，每种模态配备专门的编码器和解码器，而共享的主干网络则促进跨模态表示学习和序列建模。例如，OmniFlow 集成了用于音频和音乐生成的 HiFiGen，用于图像处理的 SD-VAE，并使用类似 DiT 的扩散模型（MMDiT）作为主干。该模块化设计使得模型能够高效地结合不同模态进行复杂的生成任务。

一些模型依赖于共享嵌入空间，通过特征层次上统一不同模态。例如，Spider、X-VILA 和 Next-GPT利用 ImageBind —— 一种对比训练的模型，将六种模态（文本、图像、视频、音频、深度和热成像）映射到单一的嵌入空间中。这种统一表示使得通过特定模态的解码器进行灵活的条件生成成为可能，如 Stable Diffusion、Zeroscope 或基于 LLM 的文本解码器。虽然这一方法理论上优雅，但其生成能力常常受到解码器质量和共享嵌入粒度的限制。

其他模型，如 AnyGPT 和 Unified-IO 2，将序列到序列范式扩展到处理多模态。AnyGPT 使用 EnCodec进行音频标记化，SpeechTokenizer进行语音处理，并训练了一个统一的 Transformer 模型，通过模态特定的前缀进行训练。另一方面，Unified-IO 2采用了更加结构化的编码器-解码器设计，包含视觉、音频和语言模态，支持像 AST 到文本、语音到图像或视频字幕生成等任务。

尽管取得了令人鼓舞的进展，当前的任意对任意模型仍面临一些挑战。其中一个关键问题是模态不平衡，文本和图像模态往往占主导地位，而音频、视频和音乐等模态则被代表不足，这限制了这些模型所能处理的任务多样性。另一个挑战是可扩展性，支持广泛的模态增加了模型的复杂性，导致更高的推理延迟和更大的资源需求。此外，确保跨模态的语义一致性仍然是一个非平凡的任务，模型通常难以保持输出的实用性和一致性。这些挑战仍然是任意对任意多模态模型发展的研究方向。

尽管如此，这些模型代表了朝着开发能够跨越整个感知和交流领域理解和生成的通用基础模型迈出的重要一步。随着数据、架构和训练范式的不断发展，未来的任意对任意模型预计将变得更加组合化、高效，并能够实现真正的跨模态生成。

多模态统一模型的数据集

大规模、高质量且多样的训练数据是构建强大统一多模态理解和生成模型的基础。这些模型通常需要在大量的图像-文本对上进行预训练，以学习跨模态的相关性和表示。需要注意的是，在对大规模多模态数据进行训练之前，这些模型通常会使用来自大规模自然语言语料库（如Common Crawl 1、RedPajama、WebText等）的训练参数进行初始化。由于本综述主要集中在多模态模型上，因此本节讨论将排除纯文本数据。根据主要用途和模态特征，常见的预训练多模态数据集可以大致分为以下几类：多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交替图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细介绍下表3中列出的每个类别的代表性数据集，重点关注2020年以后发布的数据集。

多模态理解数据集

这些数据集主要用于训练模型的跨模态理解能力，支持图像字幕生成、视觉问答（VQA）、图像-文本检索和视觉定位等任务。它们通常包含大量与相应文本描述配对的图像。

RedCaps：该数据集包含来自 Reddit 的1200万个图像-文本对，专门捕捉日常物品和时刻（如宠物、爱好、食物、休闲等），这些内容经常出现在社交媒体平台上。
Wukong：Wukong 数据集是一个大规模的中文多模态预训练数据集，包含1亿个来自网络的中文图像-文本对。该数据集的创建解决了大规模高质量中文多模态预训练数据的不足，对于针对中文场景的多模态模型发展起到了重要作用。
LAION：LAION（大规模人工智能开放网络）项目提供了最大规模的公开图像-文本对数据集之一。例如，LAION-5B 包含近60亿个图像-文本对，这些数据来自网络爬虫。使用 CLIP 模型对数据进行过滤，确保图像和文本之间具有一定的相关性。由于其庞大的规模和多样性，LAION 数据集已经成为许多大型多模态模型预训练的基础。其子集 Laion-COCO 包含6亿个样本，提供高质量的字幕，旨在提供与 MS COCO 在风格上更加接近的大规模数据集。
COYO：COYO 是另一个大规模图像-文本对数据集，包含约7.47亿个样本。与 LAION 类似，它是通过网络爬虫获得的，并经过过滤过程。它为社区提供了 LAION 以外的另一种大规模预训练资源。
DataComp：DataComp 包含14亿个样本，来源于 Common Crawl，通过精心设计的过滤策略（CLIP评分和基于图像的过滤）获得，旨在提供比原始爬取数据更高质量的图像-文本对。
ShareGPT4V：该数据集提供约10万个高质量的图像-文本对话数据点，专门用于增强大型多模态模型的指令跟随和对话能力，使其成为更好的对话代理。
CapsFusion-120M：这是一个大规模的数据集，包含来自 Laion-COCO的1.2亿个图像-文本对。其字幕通过将 Laion-COCO 中的字幕与 CapsFusion-LLaMA结合获得。
其他数据集：最近开发的其他理解数据集包括 GRIT（基于网格的图像-文本表示）（20M 样本，强调细粒度的图像区域-文本短语对齐）。此外，虽然 SAM 数据集最初并不包含图像-文本对，但它收录了1100万张高分辨率图像和详细的分割掩模，提供了有价值的空间和语义信息，可以增强多模态模型的细粒度理解能力，比如理解物体的位置、边界或执行区域特定操作。

文本到图像数据集

这些数据集主要用于训练生成与文本描述相对应的图像的模型。它们通常由图像-文本对组成，通常更强调图像的审美质量、内容的丰富性或特定的风格属性。

CC-12M (Conceptual Captions 12M)：CC-12M包含约1200万个从网络Alt-text中提取并过滤的图像-文本对。与原始的网页抓取数据相比，其文本描述通常更加简洁和描述性，使其成为训练文本到图像模型的广泛使用的数据集。
LAION-Aesthetics：这是LAION数据集的一个子集，通过使用审美评分模型进行过滤，选择大约1.2亿张被认为具有较高“审美价值”的图像（及其文本）。
Mario-10M 和 AnyWord-3M ：这两个数据集关注图像中文字的准确渲染。Mario-10M（1000万个样本）用于训练TextDiffuser模型，AnyWord-3M（300万个样本）用于训练AnyText，提供专门设计的数据，用于提高生成图像中文本的可读性和位置。
JourneyDB：JourneyDB包含400万个由Midjourney平台生成的高质量图像-提示对。由于Midjourney以生成创意和艺术性图像而闻名，这个数据集为训练模型学习复杂、详细和艺术风格的文本到图像映射提供了宝贵的资源。
CosmicMan-HQ 1.0：该数据集包含600万个高质量的真实世界人像图像，平均分辨率为1488 × 1255像素。这个数据集的特色在于其精确的文本注释，来自1.15亿个不同粒度的属性。它可以用于提高生成人体图像的能力。
PixelProse：PixelProse从DataComp、CC-12M和RedCaps中提取，包含丰富注释的图像及其对应的文本描述。这个数据集提供了如水印存在与否、审美分数等有价值的元数据，可以用于过滤出符合期望的图像。
Megalith：Megalith是一个数据集，包含约1000万个Flickr图像链接，分类为“照片”，并具有不受版权限制的许可。社区使用如ShareCaptioner、Florence2和InternVL2等模型生成的字幕公开提供。
PD12M：PD12M包含1240万张高质量的公共领域和CC0许可图像，这些图像与使用Florence-2-large生成的合成标题配对。该数据集专为训练文本到图像模型设计，提供了大量的资源，并最大限度地减少了版权问题。
其他数据集：SAM数据集（约1100万张高分辨率图像）和DenseFusion（100万个样本）是其他可能的数据源，用于训练文本到图像生成模型。需要注意的是，多模态理解数据集可以通过审美分数过滤、NSFW过滤、分辨率过滤、水印过滤、重新标题等方式，用于合成文本到图像生成数据，但此处未作介绍。

图像编辑数据集

随着模型能力的提升，基于指令的图像编辑已成为一个重要的研究方向。此类数据集通常包含（源图像、编辑指令、目标图像）的三元组。这些数据集用于训练模型根据文本指令修改输入图像，从而增强统一模型的理解和生成能力。

InstructPix2Pix：该数据集采用创新的合成方法生成：首先，使用大语言模型（如GPT-3）生成编辑指令和目标图像的标题；然后，使用文本到图像模型（如Stable Diffusion）根据原始和目标标题生成“前后”图像。此方法自动创建了约313K（指令、输入图像、输出图像）训练样本。
MagicBrush：MagicBrush是一个高质量的、人工注释的数据集，用于基于指令的图像编辑。它包含约10K样本，涵盖各种现实且精细的编辑操作（如物体添加/移除/替换、属性修改、风格转换），并提供了编辑区域的掩码。其人工注释使得指令更加自然和多样。
HQ-Edit，SEED-Data-Edit，UltraEdit，OmniEdit，AnyEdit：这些是近年来更大规模的图像编辑数据集。例如，SEED-Data-Edit包含370万个样本，UltraEdit有400万个样本，AnyEdit提供250万个样本，OmniEdit包含120万个样本，HQ-Edit包含19.7万个样本。它们通常结合了自动生成与人工过滤/注释，旨在提供更大规模、更高质量和更多样化的编辑指令和图像对，用于训练更强大的指令跟随编辑模型。

图像-文本交织数据集

除了由配对图像和标题组成的数据集之外，另一个重要的类别是图像-文本交织数据集。这些数据集包含文档或序列，其中文本和图像自然地交替出现，类似于网页或文档中的内容。对这些交织数据进行训练，可以增强模型理解和生成多模态内容的能力，这是统一模型的一个重要目标。

Multimodal C4 (MMC4)：MMC4通过算法将图像交织到来源于Common Crawl的文本文档中，从而增强了大规模文本-only C4语料库。该公共数据集包含超过1.01亿个文档和5.71亿张图像，旨在为旨在处理图像和文本混合序列的模型提供必要的交织预训练数据。
OBELICS：OBELICS是一个开放的、Web规模的数据集，包含从Common Crawl中提取的1.41亿个多模态Web文档，特征包括3.53亿张图像和1150亿个文本标记。该数据集侧重于捕获完整的文档结构，而非孤立的图像-文本对，旨在提高模型在各种基准测试中的表现。
CoMM：CoMM是一个高质量的、精心策划的数据集，专门关注图像-文本交织序列的一致性和连贯性，包含约227K个样本。它通过多角度过滤策略，主要来源于教程和视觉故事网站（如WikiHow），解决了在更大数据集中观察到的叙事流程和视觉一致性问题。CoMM旨在提升MLLM生成逻辑结构和视觉一致的多模态内容的能力，并引入了新型的基准任务，专门评估这些能力。

其他文本+图像到图像的数据集

除了前面提到的类别，为了进一步增强统一模型的能力—例如根据提供的主题图像生成图像，或利用控制信号（如深度图、Canny 边缘图）—本文在本节中介绍相关的数据集。

LAION-Face：上面讨论的数据集侧重于一般的主题驱动生成，而 ID 保持图像生成代表了这一类别的一个特殊子集。利用 LAION-Face 数据集，其中包含 5000 万个图像-文本对，最近的进展如 InstantID成功地在保持角色身份的同时生成图像。
MultiGen-20M：该数据集包含 2000 万个样本，旨在训练能够基于多个控制信号（例如文本描述、边缘图、深度图、分割掩码、草图）进行统一图像生成的模型，如 UniControl 。它整合了来自多个来源的数据，并将它们转换为统一格式，使模型能够学习多任务、多条件的图像生成。数据集可以结构化为三元组，例如“深度图、带有提示的指令、目标图像”（例如提示可能为：“根据深度图生成一幅令人印象深刻的场景。”），以有效地训练统一模型。
Subjects200K：包含 20 万个样本，Subjects200K 集中于主题驱动的图像生成，对于个性化内容创作至关重要。该数据集通过多阶段pipeline合成生成：首先，由一个大语言模型（如 ChatGPT-4o）创建涉及物体类别和场景的结构化描述；随后，由一个图像合成模型（如 FLUX ）根据这些描述生成多样化且一致的配对图像；最后，LLM 对生成的配对进行质量评估，以确保主题一致性、正确的构图和高分辨率。
SynCD：SynCD（Synthetic Customization Dataset）提供了大约 9.5 万组专门为文本+图像到图像定制任务设计的图像集，解决了缺乏多种条件下同一对象的公开数据集的问题。它通过利用现有的文本到图像模型和 3D 资产数据集（如 Objaverse）来生成对象的多种一致视图，具有不同的光照、背景和姿势，并结合了共享注意力和深度引导等技术。主题驱动的生成，涉及单一和多个主题，是一种日益受到社区关注的图像生成能力。这也是统一模型中一个重要的特性。然而，从公开数据集中获取这种专业化的数据较为困难，因此经常使用数据合成方法，如 Subjects200K 和 SynCD 数据集所示。这些数据集展示了利用合成数据来解决公开可用训练样本短缺问题的日益增长的依赖。

为了创建大规模数据集，已开发出多种pipeline，用于程序化生成合适的训练数据，通常利用现成的图像或视频来源。以下是这些pipeline的简要概述，供参考。

从图像合成数据：这些pipeline通常从单张图像开始，使用像 BLIP-2 或 Kosmos2 这样的模型进行初步标注（包括使用边界框进行的定位标注），然后通过物体检测（例如 Grounding DINO）和分割（例如 SAM）来提取物体的掩码和区域标注。这些pipeline可以生成单一物体定制和多个物体定制的数据。
从视频合成数据：从图像构建的数据通常会导致模型学习中的复制粘贴问题。通过从不同帧中提取物体，使用视频分割模型（如 SAM2）的视频合成数据pipeline可以缓解这一问题。此外，这一pipeline还可以支持图像编辑任务的训练数据生成。

强大的统一多模态模型在很大程度上依赖于最近开发的大规模、高质量和多样化的训练数据集，这些数据集包括图像-文本对、交织的图像-文本文档和特定任务格式。虽然大规模的网络规模配对数据（如 LAION、COYO）和交织的文档语料库（如 MMC4、OBELICS）为预训练提供了广泛的语义覆盖和上下文理解，但显著的努力集中在提高数据质量和为特定属性或高级能力定制资源上。专门化的数据集对于提升基于指令的编辑、精确文本渲染、一致的多模态生成和复杂的条件控制变得越来越重要。此外，认识到高质量公开数据的稀缺性，特别是在图像编辑和主题定制任务等方面，开发和利用数据合成管道变得至关重要，这使得能够创建针对性数据集以训练这些高度专业化的模型功能。最终，数据资源的持续演变、规模扩大、针对性专门化和创新的合成是推动统一多模态模型越来越复杂的理解和生成能力的根本动力。

基准测试

现代的大规模统一多模态模型不仅需要在像素级对视觉和语言信息进行对齐，还要能够进行复杂的推理，支持连贯的多轮对话，并整合外部知识。同时，这些模型还需要生成高保真度的视觉输出，忠实地遵循文本提示，并为用户提供对风格和组成元素的精细控制。本节系统地总结了相关的评估基准。请参阅下表 4 以获取统计摘要。

理解评估

感知。现代的视觉-语言大规模模型必须准确地将视觉输入与语言描述进行对接，通过定位、识别和检索。早期的图像-文本检索和标题生成基准（如Flickr30k，MS COCO Captions）评估模型是否能够检索相关标题并将文本短语定位到图像区域。视觉问答基准（如VQA，VQA v2，VisDial，TextVQA）进一步要求模型解释复杂的场景并回答关于物体、属性和关系的自由形式问题。领域特定的挑战（如ChartQA）评估对结构化图表和图形的理解，而VSR则探讨现实世界图像中的空间关系推理。

为了统一评估，大规模的元基准套件测试低级别的感知和专家推理。MMBench 提供了3K个双语多项选择问题，涵盖了定位、识别和检索，支持跨语言对比。MMMU 添加了大约11.5K个大学级别的多模态问题，涵盖六个学科，测试领域知识和逻辑推理。HaluEval 诊断模型生成的陈述中的幻觉识别。MM-Vet涵盖了识别、OCR、空间推理、数学和开放式问答，其v2进一步评估交错的图像-文本序列。SEED-Bench设计了一个生成多项选择问题的管道，针对特定的评估维度，最终提供了19K个多项选择项，涵盖12个维度。LLaVa-Bench 提供了COCO和真实图像集，并配有密集查询，用于通用化检查。LAMM提供了涵盖2D和3D模式的指令调优示例，用于代理开发。Open-VQA设计了分层的后续问题，以完善粗略的VQA答案。OwlEval提供了人工评定的开放式视觉问题，评估其相关性和信息量。MMStar精心策划了涵盖六个核心技能和18个评估轴的挑战样本，用于高精度评估。

推理。在感知级别评估的基础上，推理基准探讨更丰富的认知技能。CLEVR系统地改变物体属性和空间关系，迫使模型执行多跳程序，测试计数、比较和关系逻辑。转向自然图像，GQA利用密集场景图生成组合问题，其功能程序用于测试一致性、定位和可信性。

常识推理扩展（如OK-VQA及其较大的后续版本A-OKVQA）选择问题，其答案超出了图像，需要在世界知识库上进行检索或推理。VCR进一步要求模型不仅选择正确的答案，还要选择一个连贯的理由，从而将识别与解释结合起来，测试多步常识链条。

领域特定的推理数据集将这一进展扩展到超越日常场景的范围。ChartQA引入了将视觉感知与对条形图、折线图和饼图的定量推理相结合的问题，整合数据提取、逻辑比较和算术计算。MathVista将范围扩展到数学问题求解，在视觉上下文中结合了细粒度的视觉理解和符号操作，涵盖了多样化的示例。这些基准测试形成了一个分层的光谱，涵盖了结构化逻辑推理、开放领域常识、视觉解释和数字密集型任务，为多模态推理系统提供了全面的压力测试。

图像生成评估

文本到图像生成。早期的自动化评估指标（如FID 和 CLIPScore）为图像质量评估奠定了基础。然而，最近的基准将重点转向了组合性、对齐性和现实世界的适用性。GenEval 评估六个细化任务，包括单物体生成、物体共现、计数、颜色控制、相对定位和属性绑定，通过将预训练的检测器输出与真实注释进行比较来进行评估。

在此基础上，GenAI-Bench 提出了1600个精心设计的人类提示，涵盖了关系、逻辑和属性等类别。其评估框架结合了人类偏好判断与自动对齐评分，提供了全面的评估。此外，HRS-Bench 评估了准确性、鲁棒性、泛化能力、公平性和偏差等13个不同的技能，将其分为五大类，从而确保了可扩展性和可靠的性能测量。此外，DPG-Bench专注于密集提示，描述了多个物体，每个物体具有多种属性和关系。

T2I-CompBench及其后续版本T2I-CompBench++ 专门针对组合生成的泛化能力，测试生成新的属性和关系组合，使用基于检测器的评分。VISOR提出了一个自动化方法来评估生成模型的空间理解能力。与此互补，Commonsense-T2I 挑战模型描绘需要常识基础的日常概念。

为了支持大规模的概念多样性，EvalMuse-40K提供了40K个众包提示，专注于细致的概念表示，HEIM确定了12个方面，包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏差、毒性、公平性、鲁棒性、跨语言能力和效率。考虑到实际需求，FlashEval通过迭代搜索将大规模评估集缩小为多样化的小型评估集，以加速基准测试。MEMO-Bench 引入了一个全面的基准，评估T2I模型和多模态大语言模型的情感理解与表达能力。

图像编辑。指导性图像编辑的基准在规模和范围上不断扩大。MagicBrush 是第一个大规模、手动注释的数据集，用于指导性的真实图像编辑，涵盖了多种场景：单轮、多轮、掩码提供和无掩码编辑。HQ-Edit包含约20万个高分辨率编辑，计算了对齐性和一致性评分，允许通过GPT-4V定量评估图像编辑对。

在此基础上，I2EBench 整合了2000多张图像和超过4000条跨16个编辑维度的多步骤指令。EditVAl提供了一个标准化的基准，使用预训练的视觉-语言模型自动评估编辑类型，并且其评分与人类评估高度相关。Emu-Edit 包括七个基于指令的编辑任务，涵盖背景更改、综合修改、风格变换、物体移除、物体添加、局部编辑和纹理修改，提供了带有输入/输出描述的人类指令/图像对。HumanEdit提供了5751张高分辨率图像，配有跨六个编辑类别的开放式语言指令：动作、添加、计数、关系、移除和替换，并配有掩码和多阶段的人工反馈，以严格评估指导性图像编辑模型。

最近，提出了GEdit-Bench，这是一个现实世界的图像编辑基准，包含606个图像-指令对，来自1000多个用户编辑示例，旨在全面评估实际图像编辑模型的表现。

其他类型的图像生成除了文本到图像生成和图像编辑，其他基准测试则探讨了大规模条件化和个性化合成。MultiGen-20M 包含来自LAION-Aesthetics-V2的2000万对图像-提示-条件三元组，用于在不同视觉条件下评估对齐性，并提供每个任务100-300个图像-条件-提示三元组的评估集。

DreamBench引入了一个个性化生成测试，涵盖30个参考对象，配有精心策划的提示和人工注释的保真度评判。DreamBench++ 扩展了这个框架，包含150个多样的参考图像和1350个提示，采用先进的多模态语言模型进行自动化、人类对齐的评分，评估概念保留、组成忠实性和风格一致性。总的来说，这些数据集提供了从大规模自动化基准到聚焦于人类中心的条件和主题驱动图像生成评估的统一谱系。

交替生成的评估

交替评估基准挑战模型无缝地在文本和图像模态之间交替生成，反映了现实世界中的对话和讲故事场景。InterleavedBench 是第一个专门为交替文本和图像生成评估而精心策划的基准，涵盖了多样的任务，评估模型在文本质量、感知保真度、多模态一致性和有用性方面的表现。基于此，ISG 引入了场景图注释和四级评估（整体、结构、区块级别和图像特定）来对1000个样本的八个场景和21个子任务进行细粒度评估，提供了对交替文本-图像输出的深入考核。

其他基准强调开放领域指令和端到端的交替生成。OpenING收集了5000个人工注释的实例，涵盖56个现实世界任务（例如旅游指南、设计构思），并使用IntJudge测试开放式多模态生成方法在任意指令驱动的交替生成中的表现。相对地，OpenLEAF收集了30个开放领域的查询，每个查询都经过注释员的撰写和审阅，旨在探讨基础的交替文本-图像生成，通过LMM评估器和人工验证来衡量实体和风格的一致性。最后，MMIE提出了一个统一的交替生成基准，采样自12个领域和102个子领域，提供了多项选择题和开放式问题格式，评估模型在多样化方式中的表现。

统一模型的挑战与机会

目前，统一的多模态模型仍处于初级阶段，面临一些显著挑战，必须解决这些问题才能实现强大且可扩展的理解与生成能力。首先，视觉和文本数据的高维度导致极长的标记序列。有效的标记化和压缩策略对于减少内存和计算成本同时保持表示的忠实度至关重要。其次，随着图像分辨率和上下文长度的增加，跨模态注意力成为性能瓶颈。稀疏或层次化注意力机制等可扩展的替代方法可能有助于缓解这一问题。第三，预训练数据集往往包含噪声或偏见的图像-文本对，特别是在复杂的图像构图和交替图像-文本数据中。可靠的数据过滤、去偏和合成对于确保公平性和鲁棒性至关重要。第四，评估协议通常为单一任务设计，存在对理解和生成综合评估的需求，尤其是在图像编辑和交替图像-文本生成等复杂任务中。

据本文所知，目前大多数统一的多模态模型主要强调图像理解和文本到图像生成，而图像编辑等能力仅通过后期微调实现。此外，像空间控制图像生成、基于主题的图像生成和交替图像-文本生成等高级功能，在统一框架中仍未得到充分探索。因此，本文认为，通过解决关键领域如架构设计、训练效率、数据集策划和评估方法，有丰富的机会推动该领域的进步。

结论

本文提供了一个全面的视角，探讨了将视觉-语言理解与图像生成集成在单一框架中的统一多模态模型。首先，本文简要概述了多模态理解和文本到图像生成模型的基础知识和近期进展。接下来，本文通过将统一多模态模型分为三大范式：基于扩散的、基于自回归的和混合型方法，对相关工作进行系统的调查。对于每个范式，本文介绍了相关的工作，并进一步细分成不同的子类别，帮助读者更好地掌握该领域的全貌。此外，本文策划了相关的数据集和基准，以促进实践中的实现和评估。最后，本文讨论了该领域的关键挑战和机遇，强调了统一多模态模型的研究仍处于起步阶段。本文希望本文的综述能为推动统一多模态模型研究与创新提供宝贵的资源。

参考文献

[1] Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities