高效多模态大型语言模型:综述

24年5月来自腾讯的论文“Efficient Multimodal Large Language Models: A Survey”。

多模态大型语言模型 (MLLM) 在视觉问答、视觉理解和推理等任务中表现出色。然而,庞大的模型规模以及高昂的训练和推理成本阻碍了 MLLM 在学术界和工业界的广泛应用。因此,研究高效、轻量级的 MLLM 具有巨大的潜力,特别是在边缘计算场景中。该综述对高效 MLLM 的现状进行了全面而系统的回顾。具体来说,总结了具有代表性的高效 MLLM 的时间线、高效结构和策略的研究现状以及应用。最后,讨论了当前高效 MLLM 研究的局限性和未来有希望的方向。

如图是高效多模态语言模型的方法发展组织图:涵盖高效 MLLM 的各个方面,包括架构、高效视觉、高效 LLM、训练、数据和基准以及应用。

添加图片注释,不超过 140 字(可选)

• 架构专注于通过高效技术开发的 MLLM 框架来降低计算成本。该架构由多种基于模态的基本模型组成,表现出与单模态模型不同的特征,从而促进了新技术的发展。
• 高效视觉探索优化高效的视觉特征提取策略,强调提高效率同时保持准确性的方法。它致力于整合高质量的视觉数据以实现有效的跨模态理解。
• 高效 LLM 探索这些提高语言模型计算效率和可扩展性的策略。它研究了模型复杂性和性能之间的权衡,同时提出了平衡这些竞争因素的有希望的途径。
• 训练调查高效 MLLM 开发中至关重要的训练方法的概况。它解决了与预训练阶段、指令微调阶段以及获得最佳结果的整体训练策略相关的挑战。
• 数据和基准评估用于评估多模态语言模型的数据集和基准的效率。它评估数据集大小、复杂性和计算成本之间的权衡,同时提倡开发优先考虑效率和与实际应用相关性的基准。
• 应用研究高效 MLLM 在各个领域的实际意义,强调性能和计算成本之间的平衡。通过解决高分辨率图像理解和医学问答等资源密集型任务。

架构

按照标准 MLLM 框架,高效的 MLLM 可以分为三个主要模块:负责接收和处理视觉输入的视觉编码器 g、管理接收的多模态信号并执行推理的预训练语言模型,以及充当协调两种模态桥梁的视觉语言投影器 P。为了提高通用 MLLM 的效率,主要的优化在于处理高分辨率图像、压缩视觉tokens、实现高效结构和利用紧凑语言模型等策略。如图显示了该架构的示意图。

添加图片注释,不超过 140 字(可选)

如表概述了高效的 MLLM,其中概述了基本 LLM、视觉编码器、图像分辨率以及用于连接视觉和语言的投影器。这些高效的 MLLM 包括:MobileVLM [20]、LLaVA-Phi [21]、Imp-v1 [22]、TinyLLaVA [23]、Bunny [24]、Gemini Nano-2 [2]、MobileVLM- v2 [17]、MoE-LLaVA-3.6B [25]、Cobra [13]、Mini-Gemini [26]、Vary-toy [27]、TinyGPT-V [28]、SPHINX-Tiny [14]、ALLaVA [29]、MM1-3B [30]、LLaVA-Gemma [31]、Mipha-3B [32]、VL-Mamba[18]、MiniCPM-V2.0 [70]、DeepSeek-VL [34]、KarmaVLM [71]、moondream2 [72]。

添加图片注释,不超过 140 字(可选)

预训练的小语言模型 (SLM) 是 MLLM 的核心组件,赋予其许多出色的功能,例如零样本泛化、指令跟踪和上下文学习。SLM 接受包含多种模态的输入序列并输出相应的文本序列。

提高图像分辨率,实际上就是增加视觉tokens的数量。然而,这种策略给 MLLM 带来了巨大的计算负担,主要是因为在 Transformer 架构中,计算成本随着输入towns数量的二次方增加。受此挑战的推动,视觉tokens压缩已成为高效 MLLM 的一个重要方面,旨在减少由大量tokens造成的过高计算预算。几种关键技术有多视图输入、token处理、多尺度信息融合、视觉专家智体和特定于视频的方法。

高效的MLLM结构主要探索三个方向:混合专家、Mamba 和推理加速。

高效视觉

Vision Transformer (ViT) [94] 架构已获得广泛认可,并广泛应用于计算机视觉应用。然而,随着 ViT 模型规模的扩大,可训练参数和操作的数量也随之增加,影响了它们的部署和性能。此外,自注意的计算和内存成本随图像分辨率的增加而呈二次增长。
如图是高效视觉发展的组织:

添加图片注释,不超过 140 字(可选)

紧凑架构是指在设计轻量级高效模型的同时,保持下游任务的高性能。它包含各种策略和方法,在不影响性能的情况下减少模型大小、计算复杂度和内存占用。这些策略大致可分为三类:1) 架构设计方法、2) 架构搜索方法和 3) 注意力机制优化方法。

模型修剪涉及从视觉Transformer模型中删除不太重要的权重,通常分为非结构化修剪、结构化修剪和混合修剪技术。

知识蒸馏(KD)是一种技术,其中较小的模型从较大、更复杂的模型中学习以复制其性能,从而实现高效部署,同时保持预测准确性 [139]。 Vision Transformers (ViT) 的KD技术可分为两大类:1) 同态 KD 和 2) 异态 KD。

ViT 量化是降低 ViT 模型中数值精度的过程,通常从浮点算法过渡到定点算法 [140]。降低精度的目的是减少内存量、计算复杂度和能耗,同时将模型精度保持在可接受的水平。当前的研究主要可分为训练后量化、量化-觉察训练和硬件-觉察量化。

高效LLM

如图是高效LLM发展的组织图:

添加图片注释,不超过 140 字(可选)

注意机制:

在标准自注意机制中,时间复杂度为 O(n^2),其中 n 是序列长度。这种二次复杂度是由于所有输入 token 之间的成对交互而产生的,这可能导致可扩展性问题,尤其是在处理 LLM 中的长序列时。为了解决这个问题,研究人员开发了一些技术来加速注意机制并降低时间复杂度,例如基于共享的注意、特征信息减少、核化或低秩、固定和可学习的模式策略以及硬件辅助注意。

框架:

MoE [89] 的核心思想是将大模型分解为几个较小的模型,每个模型专注于学习输入数据的特定部分。在训练过程中,每个专家都会被分配一个权重,该权重决定了其在整个模型中的重要性。在推理阶段,给定一个输入,所有专家都会被排序,并选择最相关的专家进行计算。这种方法大大减少了计算量,因为只有一部分专家参与计算。通过将计算任务分配给不同的专家,MoE 在训练和推理阶段实现了更高效的计算资源利用率。在 MoE 中,每个专家都有自己的一组参数;但是,这些参数在训练过程中是共享的。这种参数共享策略减少了模型中的总体参数数量,从而降低了存储和计算成本。

尽管 Transformer 是当前大规模语言模型中的主导架构,但 RWKV [151] 和 Mamba [77] 等模型已成为提高效率和处理长文本的流行解决方案。这些创新模型已展示出与 Transformer 类似的属性,包括处理长距离依赖关系和并行处理的能力。RWKV 模型利用线性注意机制,使我们能够将模型表述为 Transformer 或循环神经网络 (RNN)。这种方法在训练期间并行化计算,并在推理期间保持恒定的计算和内存复杂度。
状态空间模型 (SSM) [152] 可以表述为一种 RNN,用于高效的自回归推理,并已成为注意机制有前途的替代方案,与注意的二次复杂度相比,它提供了近线性的计算复杂度。 Mamba [77] 是一种选择性状态空间模型,已被引入作为大语言模型中 Transformer 架构的强大竞争对手。Mamba 结合一种选择机制来消除不相关的数据,并开发了一种硬件-觉察的并行算法来进行循环操作。与相同容量的 LLM 相比,其具有竞争力,推理速度更快,并且随时间和恒定内存用量线性增长。总之,状态空间模型通过提供近线性的计算复杂度并有效捕获长距离依赖关系,作为注意机制的替代方案具有巨大的潜力。

微调:

参数高效微调 (PEFT) 是一种旨在以较少参数在大语言模型 (LLM) 中实现高性能的方法。基于适配器的调整和低秩自适应等技术提供了有效的解决方案,可以缓解与微调 LLM 相关的计算和内存挑战,同时保持其表现力和泛化能力。基于适配器的调整将轻量级适配器模块引入预训练模型的架构中。这些适配器模块通常由具有少量参数的前馈神经网络组成,插入原始模型层之间。在微调期间,仅更新适配器参数,而预训练模型的参数保持不变。这种方法显著减少了可训练参数的数量,从而缩短了训练和推理时间,而不会影响模型的性能。LLM-Adapters [154] 提出了一个将各种适配器集成到大语言模型中的框架,从而能够针对各种任务进行参数高效微调。该框架包含最先进的、可公开访问的大语言模型和各种广泛使用的适配器。 (IA)^3 [155] 引入了一种参数高效微调方法,即注入抑制和放大内激活的适配器(Infused Adapters by Inhibiting and Amplifying Inner Activations),该方法与激活相乘来学习向量来加权模型参数,从而实现稳健的少样本性能和推理过程中批次内的任务混合,而无需手动调整模型结构。低秩自适应 [161] 采用矩阵分解技术来减少模型中的参数数量。通过将原始权重矩阵分解为低秩矩阵,低秩自适应可以捕获模型表示中最重要的组成部分,同时丢弃不太重要的信息。这样可以生成一个更紧凑的模型,减少参数数量,从而可以更有效地进行微调。在 LoRA-FA [156](LoRA 变型)中,第一个低秩矩阵在初始化后被冻结并用作随机投影,而另一个则进行训练。这导致参数数量减少了一半,同时保持了与传统 LoRA 技术相当的性能。DyLoRa [157] 引入了一种动态低秩自适应技术,该技术使 LoRA 块能够针对一系列秩而不是单个秩进行训练,这是通过对适配器模块在跨不同秩训练期间学习到的表示进行排序来实现的。

训练

高效 MLLM 的训练过程是决定其在下游任务上的表现以及处理不同模态的能力的关键方面。各种训练方法包括预训练、指令微调、多样化训练步骤和参数高效迁移学习策略。这些方法旨在优化不同模态之间的对齐、在特定任务上微调模型,并最大限度地降低与迁移学习过程相关的计算和参数成本。如图显示高效 MLLM 开发所涉及的不同训练阶段的示意图。

添加图片注释,不超过 140 字(可选)

在预训练阶段,主要关注在嵌入空间中对齐不同模态,使语言模型能够接受来自各种模态的输入。这一阶段的训练主要涉及大规模文本配对数据,主要以图像-字幕对的形式出现。一个图像-字幕对(X,Y)通常扩展为单轮对话(Xinstruct,Xa),其中Xinstruct 包含图像Xv和一个从一组要求助手简要描述图像的指令中随机抽取的问题Xq,而Xa是原始图像描述。给定这样的对话,模型经过训练可以自回归预测图像描述。因此,可以计算在Xv的条件下预测Xa的概率,并使用标准交叉熵损失函数对其进行优化。为了更好地对齐不同模态的知识并避免在预训练阶段出现灾难性遗忘,模型参数通常只包含一个可学习的模态接口,即一个视觉-语言投影器。

指令微调 (IT) 是高效 MLLM 的一个重要方面,旨在通过利用特定于任务的指令来微调特定任务上的模型。这种方法建立在这样一个概念之上:MLLM 可以理解和遵循自然语言提供的指令,从而提高其在目标任务上的表现。IT 在高效 MLLM 中的好处是多方面的。首先,它使模型能够适应各种任务,而对其架构或训练数据的更改却很少。这使其成为一种灵活而有效的方法,可用于对各种任务进行微调。其次,IT 允许更好的泛化,因为模型学会遵循指令并将其知识应用于新的和未见过的任务。

传统的两步策略需要手动将各种可调参数和数据集组合分配到不同的训练阶段,这是一项艰巨的任务。一些研究采用了参数高效微调(PEFT)技术进行迁移学习,例如LoRA [161],防止预训练的知识丢失。

数据和基准

预训练数据主要服务于两个关键目标:(1)促进各种模态的整合和(2)传达全面的知识。大规模图像-字幕对数据集自然可以满足这些要求。首先,它们主要来自互联网,提供大量数据和广泛的知识覆盖范围。其次,两模态之间的直接对齐有利于训练模态投影器。然而,这类语料库中的字幕通常很简短且包含噪音,可以用自动化方法对其进行细化和过滤,例如采用 CLIP [13] 模型来消除相似度得分较低的图像-文本对。如表总结了常用的预训练数据集。

添加图片注释,不超过 140 字(可选)

指令微调 (IT) 是提高高效 MLLM 准确解释用户指令和有效执行所需任务的能力的关键步骤。此过程与多任务提示的概念密切相关。
如表总结了常用的IT数据集。高质量的 IT 数据可以从特定于任务的数据集中获取。例如,考虑来自 VQA 数据集的样本,其中输入包括图像和自然语言问题,输出是基于图像的文本问题答案。这可以轻松形成指令样本的多模态输入和响应。指令或任务描述可以通过手动创建或在 GPT 的帮助下半自动生成来获得。

添加图片注释,不超过 140 字(可选)

性能评估,如表所示,展示了 22 个 MLLM 在 14 个成熟的 VL 基准测试中的有效性。此外,为了进一步参考,结合 13 个知名和大型 MLLM 的结果比较。

添加图片注释,不超过 140 字(可选)

应用

许多高效的 MLLM 方法在一系列场景中得到应用,例如 VQA、视觉基础、图像分割等。下面再引入几个下游任务,例如医学分析、文档理解和视频理解。

讨论方向

• 目前,高效的 MLLM 在处理扩展上下文多模态信息方面面临挑战,而且它们通常仅限于接受单个图像。这限制了能够处理更多多模态tokens的更复杂模型发展。此类模型将有利于理解长视频和分析包含图像和文本混合的大量文档等应用,从而创建更通用、更强大的系统。
• 主要的高效 MLLM 主要支持双重输入模态(图像和文本)和单一输出模态(文本)。然而,物理世界包含更广泛的模态。通过扩大高效 MLLM 的范围以适应更丰富的输入模态多样性,并增强其生成能力,我们可以显著增强其多功能性并扩大其适用性。
• 有两种主要途径可以强化高效的 MLLM 模型。首先,加入更多种类的轻量级 LLM 可以使 MLLM 的设计更具适应性,便于定制以满足广泛的需求。其次,利用高质量的指令微调数据集可以使高效的 MLLM 更好地理解和执行大量指令,从而增强其零样本学习能力。
• 能够部署在边缘设备上的具身智体开发,代表了高效 MLLM 的重要应用前景。拥有专业知识和与现实世界互动能力的智体具有深远的影响,可能会彻底改变机器人、自动化和人工智能等领域。

  • 18
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值