探索视觉语言模型的前沿:对当前方法和未来方向的调查


论文名称:Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions
论文链接:https://arxiv.org/pdf/2404.07214

摘要

大型语言模型(LLMs)的出现显著改变了人工智能革命的轨迹。然而,这些LLMs表现出一个显著的局限,即它们主要擅长处理文本信息。为了解决这一限制,研究人员努力将视觉能力与LLMs整合,从而催生了视觉语言模型(VLMs)的出现。这些先进模型在处理更复杂的任务,如图像字幕和视觉问题回答方面发挥着重要作用。在我们的综合调查论文中,我们深入探讨了视觉语言模型领域的关键进展。我们将VLMs分为三个不同类别:专注于视觉语言理解的模型,处理多模输入以生成单模(文本)输出的模型,以及既接受又产生多模输入和输出的模型。这一分类基于它们在处理和生成各种数据模态方面的能力和功能。我们对每个模型进行了细致的剖析,对其基本架构、训练数据来源以及可能存在的优缺点进行了广泛分析,为读者提供了对其基本组成部分的全面理解。我们还分析了VLMs在各种基准数据集上的性能。通过这样做,我们旨在提供对VLMs多样化景观的细致理解。此外,我们强调了这一动态领域未来研究的潜在方向,预期进一步的突破和进展。

引言

大型语言模型(LLMs)的出现标志着人工智能进入了一个变革时代,重塑了整个格局。横跨学术界和工业界的研究实验室正积极参与竞争,以提升LLMs的能力。然而,一个显著的局限已经凸显出来 - 这些模型局限于处理单一模态的数据,特别是文本。这一限制突显了在不断完善LLMs以在多个模态之间无缝运行方面面临的关键挑战,标志着人工智能领域进一步创新的重要途径。

自然智能擅长处理跨多种模态的信息,包括书面和口头语言、图像的视觉解释以及视频的理解。这种天生能力无缝整合多样的感官输入,使人类能够应对现实世界的复杂性。为了模仿类似于人类的认知功能,人工智能必须同样拥抱多模态数据处理。这种必要性不仅仅是技术上的,而且对于为AI系统提供上下文意识和适应性以应对现实场景至关重要。

为了应对这些限制,研究人员开创了一类名为视觉语言模型(VLMs)的前沿神经模型。这些模型精巧地结合了视觉和文本信息,展示出在理解和生成涉及图像和文本内容的内容方面的显著效率。设计用于在任务中表现出色,如图像字幕、回答视觉问题以及根据文本描述生成图像,VLMs展现出多才多艺的能力。它们对视觉和语言模态的无缝整合将它们置于技术进步的前沿,使它们能够以无与伦比的娴熟处理图像和文本之间的复杂互动。

近年来,主要研究实验室一直在不断推出创新的VLMs,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如,像GPT-4(V)和Gemini展示了聊天机器人在VLM领域的发展。值得注意的是,并非所有多模态模型都是VLMs;例如,文本到图像模型如Mid-journey和DALL-E [Ramesh等,2021] 缺乏语言生成组件,突显了多模态人工智能景观的多样性。VLM的一般架构包括图像和文本编码器,用于生成嵌入,然后将这些嵌入融合在图像文本融合层中,这个融合向量通过LLM生成最终的视觉感知生成文本。VLM的工作原理如图2所示。

在这篇调查论文中,我们根据它们的输入处理和输出生成能力将VLMs分为三个不同的群体:视觉语言理解模型、多模输入文本生成模型以及最先进的多模输入-多模输出模型。接下来的章节将深入探讨每个类别,阐明这些不同VLM框架的微妙功能和能力。

最近在这一领域的调查,如[Wang等,2023b] 主要探讨用于开发多模态模型的各种预训练技术和数据集,[Yin等,2023] 探索训练各种多模态语言模型的各种关键技术。[Wu等,2023a] 提供了在使用多模态语言模型方面的实际应用和指导。最近一篇由[Zhang等,2024] 深入介绍了大约26个最新的VLMs。与以往的调查相比,没有一个系统地根据它们的输入处理和输出生成能力对视觉语言模型(VLMs)进行分类。我们的调查填补了这一空白,通过对VLMs进行彻底分类,揭示了它们功能的复杂性。我们广泛分析了不同VLMs在基准数据集上的性能,特别是包括最新的MME基准数据集,提供全面的见解。我们的调查是迄今为止对VLMs最全面和最新的汇编,涵盖了大约70个模型。它为用户在不断发展的视觉语言模型领域提供了最新和最全面的见解,是这一研究领域的最终指南。

视觉语言模型(VLMs)

在这一部分,我们对VLMs进行了全面的研究,将它们分为三个主要分类:

  • 视觉语言理解(VLU): 这一类别包括专门设计用于解释和理解视觉信息与语言相结合的模型。

  • 多模输入文本生成: 在这一分类中,我们探讨在利用多模输入生成文本内容方面表现出色的模型,从而整合多样形式的信息。

  • 多模输出与多模输入: 这一类别深入探讨表现出色的模型,通过处理多模输入生成多模输出。这涉及合成不同模态,如视觉和文本元素,以产生全面和连贯的结果。我们在图1.1中展示了这一广泛分类。

比较分析 我们对几种视觉语言模型(VLMs)在十个广泛认可的基准数据集上进行了广泛分析,涵盖了视觉问题回答(VQA)和图像字幕等任务。这一分析的结果呈现在表1中。此外,我们使用多模型评估(MME)基准测试评估了这些VLMs的感知和认知能力,结果总结在表2中。此外,我们还详细介绍了各种VLMs在视频问题回答数据集上的比较分析,详见表3。

视觉语言理解

CLIP [Radford等,2021]:由OpenAI推出的CLIP是一种能够通过自然语言指导把握视觉概念的神经网络。它在各种基准测试中无缝识别视觉类别,反映了GPT驱动模型中所见“零样本”能力。通过扩展基本的对比度预训练任务,它在各种图像分类数据集上实现了有竞争力的零样本性能。CLIP在常见对象识别方面表现出色,但在抽象任务、细粒度分类、泛化和措辞敏感性方面存在困难。

AlphaCLIP [Sun等,2023b]:该模型是CLIP的升级版本,引入了一个用于注意力区域指示的alpha通道,增强了感知。Alpha-CLIP在保持CLIP识别准确性的同时专注于特定区域,使用扩展管道。它作为各种应用的视觉支撑,在专注区域注意力方面表现出色,但在处理多个对象和注意力幅度规范方面面临挑战。

MetaCLIP [Xu等,2023b]:CLIP的成功在于其数据而非模型或预训练目标。为了解决有限数据透明度问题,引入了MetaCLIP,利用来自CLIP概念的元数据对原始数据池进行细化,优于具有来自CommonCrawl的400M图像文本对的基准的CLIP。

GLIP [Li等,2022a]:受CLIP启发,GLIP采用对比度预训练进行语言-图像表示,通过短语基础对齐强调对象级别对齐。它重新定义了对象检测作为一项视觉语言任务,利用语义丰富数据的可扩展预训练实现自动生成地面框,并具有零/少样本转移的鲁棒性,优于图像字幕任务中的基线如CLIP,并与完全监督的动态头在下游对象检测任务中竞争。

VLMO [Bao等,2022]:Vlmo同时学习双重
编码器和融合编码器利用模块化Transformer网络。该模型采用了一种多模态专家混合(MOME)Transformer,包括每个块中的模态特定专家和共享的自注意力层,提供了显著的建模灵活性。Vlmo可以熟练地微调为视觉-语言分类任务的融合编码器,或者作为高效的图像-文本检索的双编码器,突显了其多功能性。所提出的分阶段预训练策略最大限度地利用了大规模图像和文本数据以及图像-文本对,使其在各种视觉-语言任务(如视觉问答(VQA)和图像检索)上表现出色。

ImageBind [Girdhar等,2023]:该模型通过将各种模态的嵌入与图像嵌入对齐,利用多样的配对数据源学习共享表示空间。它实现了跨模态的零样本识别,利用规模庞大的图像-文本数据和大规模视觉-语言模型(如CLIP)。这种方法在不同任务和模态之间需要最少的训练。ImageBind利用大规模图像-文本对和自然配对的自监督数据(跨多种模态,如音频、深度、热像、IMU)实现了强大的零样本分类和检索性能。它在音频基准测试上优于专家模型,并在组合任务中展现了多功能性。进一步的增强包括更丰富的对齐数据和为特定任务调整嵌入。

图1:视觉语言模型的分类,突出了模型能够处理的输入和输出格式。

图2:VLM架构的高层概述,突出了各种设计选择,并附有相应示例。

VideoCLIP [Xu等,2021]:VideoCLIP专注于为零样本视频和文本理解预训练一个统一模型,而无需依赖下游任务的标签。它采用对比学习框架,使用硬检索的负样本和重叠的正样本进行视频-文本预训练。关键创新包括松散地在时间上重叠的正样本对和一种用于负样本对的基于检索的采样技术。该方法利用对比损失,并结合重叠的视频-文本片段以改进关联。它在各种最终任务上进行评估,展示了在视频语言数据集(如Youcook2[Zhou等,2018])上的最先进性能。该方法在零样本视频-文本理解方面取得了显著进展,在某些情况下甚至优于以往的工作和监督方法。

VideoMAE [Tong等,2022]:VideoMAE是一种自监督视频预训练方法,挑战了对大规模数据集的需求。它采用了一种独特的视频管控掩码策略,利用掩码自编码器框架,在小数据集(3k-4k个视频)上实现了数据效率。它采用了具有联合时空注意力的Vision Transformer,相对于传统方法展现出了更高的效率和有效性。VideoMAE在动作检测等下游任务中表现优异,并通过数据集扩展和整合额外数据流具有改进潜力。该论文承认了在预训练过程中的能源消耗问题,但强调了VideoMAE在数据有限的情况下的实际价值。

多模态输入的文本生成

GPT-4V [OpenAI, 2023]:GPT-4V标志着一个重大进步,使用户能够指示GPT-4分析图像输入。OpenAI对GPT-4V进行了广泛的安全评估和准备工作,建立在为GPT-4所做的安全工作基础上。训练过程涉及在文档中预测下一个单词,利用了大量的文本和图像数据集。GPT-4V继承了文本和视觉能力,呈现了它们交叉点的新特性。系统卡片概述了OpenAI在广泛发布之前的准备工作、早期访问期、安全评估、红队评估以及实施的缓解措施。

LLaVA [Liu等,2023a]:该段描述了LLaVA,这是一个旨在增强LLM以理解语言和图像的开源多模态框架。它利用仅包含语言的GPT-4生成用于多模态环境中的指令遵循任务的数据。LLaVA将CLIP的视觉编码器与LLM集成,使其能够在处理语言的同时处理视觉信息。该模型在图像-文本对上进行了预训练,并进行了端到端的多模态理解微调,产生了一个多功能的多模态聊天机器人。早期实验显示LLaVA的出色性能,在合成指令遵循数据集上相对于GPT-4实现了85.1%的得分,并在与GPT-4结合时在科学问答任务上取得了92.53%的新的最先进准确率。

Flamingo [Alayrac等,2022]:Flamingo引入了新颖的架构特性,无缝地整合了仅视觉和仅语言模型。通过将交叉注意力层与冻结的语言自注意力层相结合,Flamingo在处理交错的视觉和文本数据序列方面表现出色。它采用了基于Perceiver的架构,将输入序列数据(如视频)转换为一组固定的视觉标记。利用大规模的多模态网络语料库,其中交错出现的文本和图像,Flamingo在各种基准测试中展现出了显著的少样本学习能力,超越了在明显更多任务特定数据上微调的模型。这展示了其适应性和在有限示例下迅速适应各种图像和视频理解任务的效率。OpenFlamingo是一个正在进行的倡议,旨在创建DeepMind的Flamingo模型的开源版本。在七个视觉-语言数据集上,OpenFlamingo模型始终达到Flamingo模型性能水平的80%至89%。Med-Flamingo [Moor等,2023]是基于OpenFlamingo-9B的面向医学的多模态少样本学习器,在生成性医学视觉问答方面实现了高达20%的改进。它在这一背景下开创了人类评估,涉及临床医生进行交互式评估,并实现了如理由生成等应用。

[表1:显示多个视觉语言模型在10个基准数据集上的比较分析]

PALM-E [Driess等,2023]:PALM-E是一种创新的具身多模态语言模型,经过精心设计,通过融合语言理解和连续传感器输入来导航现实世界场景。这个模型是柏林工业大学和谷歌研究之间合作努力的结果,标志着多模态人工智能领域的重大进步。它将真实世界的连续传感器模态整合到语言模型中,通过对预训练的大型语言模型进行端到端的多模态句子训练。该模型成功地解决了多个具身任务,包括机器人操作规划、视觉问答和字幕生成。具有562B参数的PALM-E在具身推理任务和OK-VQA等视觉-语言领域展现出了最先进的性能。该模型在多模态句子上运行,展示了从视觉-语言领域到具身推理任务的知识积极转移,强调了其多功能性和可扩展性。PALM-E在为机器人任务依赖低级语言条件策略方面存在局限性,促使提出自监督实体中心标记的建议,以增强复杂任务的指导。

BLIP [Li等,2023a]:BLIP是一种新颖的视觉-语言预训练(VLP)框架,超越了现有模型,在理解和生成任务方面表现出色,解决了训练中的噪声限制。BLIP引入了多模态编码器-解码器(MED)架构,利用图像-文本对比(ITC)、图像-文本匹配(ITM)和语言建模(LM)目标进行预训练。字幕生成和过滤(CapFilt)提高了数据质量,改善了下游任务的性能。BLIP在PyTorch中实现,并在一个包含多样性1400万图像的数据集上进行了预训练,在图像-文本检索和字幕生成等下游任务中表现出显著改进。利用核采样和有效的参数共享,BLIP在标准数据集上优于现有模型。

BLIP-2 [Li等,2023a]:它引入了一种经济高效的视觉-语言预训练策略,使用冻结图像编码器和大型语言模型。Querying Transformer在视觉-语言任务中以更少的参数实现了最先进的性能,解决了不同模态嵌入之间的互操作性挑战。BLIP-2引入了一个称为Querying Transformer(Q-Former)的新组件,作为静态图像编码器和静态LLM之间的可训练桥梁。如图3所示,Q-Former经历了两阶段的预训练方案。最初,重点放在视觉-语言表示学习上,迫使Q-Former掌握与相应文本最相关的视觉元素。随后,重点转向视觉到语言的生成学习,将Q-Former的输出与固定的LLM连接起来,并完善其能力,使其产生的视觉表示能够被LLM有效解释。
InstructBLIP [戴等,2023]:InstructBLIP采用了指导感知的视觉特征提取,增强了其提取与提供指导相适应的信息特征的能力。在13个保留数据集上实现了最先进的零样本性能,InstructBLIP的表现优于BLIP-2和像Flamingo这样的更大模型。该模型在下游任务中也表现出色,在ScienceQA IMG上展示了90.7%的准确率[卢等,2022],并展示了在视觉场景理解、基于知识的图像描述和多轮视觉对话等多样能力方面与同时期的多模态模型相比的定性优势。

KOSMOS-1 [黄等,2023]:KOSMOS-1是微软的一个VLM。在一个规模庞大的多模态语料库上训练,KOSMOS-1在语言理解和生成、无OCR的自然语言处理以及各种感知-语言任务方面表现出色,展示了其在图像字幕和视觉问答方面的能力。采用基于Transformer的架构,KOSMOS-1将视觉与大型语言模型进行了对齐。其训练涉及多样的多模态语料库,包括The Pile和Common Crawl,采用仅语言指导调整。此外,该模型在思维链提示方面表现出色,在解决复杂问答任务之前生成理由。总体而言,KOSMOS-1代表了多模态大型语言模型领域的重大进展,为各种任务提供了强大的性能。

KOSMOS-2 [彭等,2023]:KOSMOS-2同样来自微软研究部门,通过引入感知物体描述(如边界框)和将文本与视觉世界联系起来的能力,推进了传统模型。利用一种独特的指代表达格式,KOSMOS-2将文本片段链接到图像中的空间位置。采用复杂的图像处理方法,该模型将视觉编码与位置标记结合起来,以理解并将特定图像区域与文本描述相关联。建立在KOSMOS-1架构之上,这种基于Transformer的因果语言模型代表了朝着具有身体性的人工智能和语言、多模态感知、行动和世界建模融合的重要一步,展示了其推动人工通用智能的潜力。

MultiInstruct [徐等,2022]:MultiInstruct提供了一个用于多模态指导调整的基准数据集,涵盖了10个类别的62个任务。利用OFA预训练的多模态语言模型,该研究专注于通过大规模纯文本指导数据集(如自然指导)提高各种任务的零样本性能。结果显示出强大的零样本性能,并降低了模型对指导变化的敏感性。对迁移学习策略的比较分析表明,在多模态任务中提高任务聚类可以增强整体性能,支持MultiInstruct的有效性。

IDEFICS [劳伦松等,2023]:IDEFICS是DeepMind的闭源视觉-语言模型Flamingo的开源复制品,拥有800亿参数,并可在HuggingFace上获得。在图像-文本基准测试中表现良好,如视觉问答和图像字幕,利用上下文少样本学习。IDEFICS有两个版本 - 一个拥有800亿参数的模型和一个拥有90亿参数的模型。

PaLI [陈等,2022]:PALI,即Pathways Language and Image模型,来自谷歌研究部门,利用大型预训练的编码器-解码器语言模型和视觉变换器进行联合语言和视觉建模。该模型通过利用包含100亿图像和文本的多语言数据集,在100多种语言中实现了各种视觉和语言任务的最新结果。通过简单、模块化和可扩展的设计,PaLI突显了视觉和语言组件联合扩展对于有效训练和性能的重要性。

Frozen [Tsimpoukelli等,2021]:Frozen是DeepMind开发的一种多模态少样本学习方法,利用预训练的冻结语言模型和在对齐的图像和字幕数据上训练的视觉编码器,使得仅凭几个示例即可快速学习新任务,展示了其在学习新物体的单词、视觉问答以及跨各种基准测试中整合外部知识等任务中的有效性。该方法利用冻结语言模型的自注意力层的梯度来训练视觉编码器。该系统的显著局限性在于其在学习少量示例的任务上性能不及使用完整训练集的最先进模型,突显了通过进一步提高准确性和减少种子需求来增强零样本和少样本泛化的潜力。

Qwen-VL [白等,2023a]:Qwen-VL系列作为大规模视觉-语言模型,包括Qwen-VL和Qwen-VL-Chat,在图像字幕、问题回答、视觉定位和多功能交互等任务中展现出卓越表现。Qwen-VL在各种以视觉为中心的任务中表现出色,超越了类似规模的对手。其卓越的准确性不仅限于传统基准测试,如字幕和问题回答,还包括最近的对话基准测试。在多语言图像-文本数据上训练,其中大部分为英语和中文,Qwen-VL自然支持多种语言。它在训练过程中同时处理多个图像,使得Qwen-Chat-VL能够对复杂场景进行上下文化和分析。通过更高分辨率的输入和精细的训练数据,Qwen-VL在细粒度的视觉理解方面表现出色,在基于地面、文本理解、问题回答和对话任务方面优于现有的视觉-语言模型。

Fuyu-8B [巴维什等,2023]:Fuyu-8B是Adept AI开发的一种多模态文本和图像变换器,为数字代理提供了简化而强大的解决方案。其简单的架构和训练过程增强了理解能力、可扩展性和部署性,使其成为各种应用的理想选择。专为数字代理设计,Fuyu-8B无缝处理任意图像分辨率,并在图形和图表理解、基于UI的查询以及在100毫秒内快速处理大图像等任务方面表现出色。尽管其针对Adept的用例进行了优化,但Fuyu-8B在标准图像理解基准测试(如视觉问答和自然图像字幕)中表现出色。在架构上,Fuyu采用了一个纯解码器的变换器,通过将图像块线性投影到第一层来有效处理图像块。其支持多种图像分辨率的多功能性是通过将图像标记视为文本标记、利用光栅扫描顺序以及为适应性信号换行来实现的。

Sphinx [林等,2023a]:SPHINX是一种多功能VLM,整合了模型权重、调整任务和视觉嵌入以增强其能力。在预训练期间解冻大型语言模型,以加强视觉-语言对齐,并有效地混合在真实数据和合成数据上训练的LLM的权重,以实现强大的理解。通过整合区域级理解和人体姿势估计等多样任务,SPHINX在不同场景中实现了相互增强。它还从各种来源提取全面的视觉嵌入,丰富了语言模型的图像表示。SPHINX在各种应用中展示出卓越的多模态理解能力,并引入了一种有效的策略来捕捉高分辨率图像中的细粒度细节,在视觉解析和推理任务中表现出色。

Mirasol [皮尔乔万尼等,2023]:Mirasol来自Google DeepMind和Google研究部门,是一种多模态自回归模型,旨在处理时间对齐的模态(音频、视频)和非对齐的模态(文本)。该架构涉及将长视频-音频序列分段为可管理的块,通过各自的编码器传递它们,并使用Combiner来融合视频和音频特征。自回归训练预测序列特征,通过一个单独的Transformer块通过跨模态注意力整合文本提示。这使得其具有丰富的上下文理解能力,展示了一种综合的多模态学习和生成方法。在VTP的12%上预训练,该模型在预训练期间均匀加权损失,而在微调期间对不对齐文本损失进行了十倍强调。消融研究强调了其保持内容一致性和适应视频-音频序列动态变化的能力。

MiniGPT-4 [朱等,2023a]:MiniGPT-4将冻结的视觉编码器(来自BLIP-2的ViT + Q-Former)与LLM结合,使用单个可训练的投影层。在对齐的图像-文本对上预训练,并在详细的图像描述上进行微调,MiniGPT-4展现出类似于GPT-4的能力,而无需分别训练视觉或语言模块。微调过程增强了语言输出,展示了各种技能,如模因解释、食谱生成和诗歌创作。该模型的架构包括一个视觉编码器、线性投影层和大型语言模型。
MiniGPT-v2 [陈等,2023d]:MiniGPT-v2的模型架构包括一个ViT视觉主干、一个线性投影层,以及类似LLaMA-2的大型语言模型[Touvron等,2023]。在训练过程中,ViT主干保持冻结状态,四个相邻的视觉输出标记被连接并投影到LLaMA-2空间中。在训练过程中,使用三阶段策略结合具有弱标记的图像-文本数据集和多模态教学数据集来整合任务特定标识符。该模型在视觉问答和视觉定位方面表现出色,胜过其他通用模型。任务标识符标记的使用增强了多任务学习的效率,有助于其最先进的性能。挑战包括偶发的幻觉,强调了对更高质量的图像-文本对齐数据的需求。

LLaVA-Plus [刘等,2023e]:LLaVA-Plus是一个通用多模态助手,旨在通过视觉指导调整来增强LMMs。该模型维护一个技能存储库,其中包含多样的视觉和视觉-语言预训练模型,根据用户输入激活相关工具以完成各种任务。经过多模态指令遵循数据的训练,LLaVA-Plus涵盖了视觉理解、生成和外部知识检索中的工具使用,在现有和新功能方面超越了其前身LLaVA。训练方法涉及使用GPT-4生成指令数据,并通过指令调整集成新工具,实现持续增强。LLaVA-Plus在真实多模态任务基准VisiT-Bench上展现出最先进的性能,在工具使用方面优于其他工具增强型LLMs。

BakLLaVA [Bitton等,2023]:BakLLaVA是由LAION、Ontocord和Skunkworks AI开发的VLM。BakLLaVA使用了Mistral 7B基础,增加了LLaVA 1.5架构。与llama.cpp结合使用。BakLLaVA是GPT-4与视觉相结合的更快速、资源消耗更低的替代方案。

LLaVa-1.5 [刘等,2023a]:LLaVa-1.5是LLaVA的改进版本,专注于通过视觉指导调整来增强多模态模型。该论文概述了对LLaVA的修改,例如使用CLIP-ViT-L-336px与MLP投影,并整合学术任务导向的视觉问答(VQA)数据。尽管取得了进展,但也承认了一些局限,比如由于使用完整图像块而导致训练迭代时间延长,以及在处理多个图像和某些特定领域任务时面临的挑战。

CogVLM [王等,2023a]:CogVLM是由清华大学研究人员开发的开源视觉-语言基础模型。其架构包括一个视觉Transformer(ViT)编码器(例如EVA2-CLIP-E)用于图像处理,通过MLP适配器将输出映射到文本特征空间。该模型包括一个预训练的类似GPT风格的语言模型,以及每一层中添加的视觉专家模块,包括一个QKV矩阵和一个MLP。CogVLM采用深度融合方法,通过视觉专家模块在多个层次整合视觉和语言特征,超越传统的浅层对齐方法。对齐技术涉及在一个庞大的包含15亿个图像-文本对的数据集上进行预训练,采用图像字幕损失和引用表达理解(REC)。在各种任务上进行微调,重点放在自由形式指令上,从而创建了一个名为CogVLM-Chat的变体。

FERRET [尤等,2023]:FERRET旨在处理不同形状和粒度的图像中的空间指代和定位。Ferret的独特之处在于采用混合区域表示,将离散坐标和连续视觉特征融合在一起,以处理各种区域形状,并在Ground-and-Refer Instruction-Tuning(GRIT)数据集上进行训练,该数据集包含层次化空间知识和难负样本。架构包括图像编码器、空间感知视觉采样器和语言模型。Ferret利用预训练的视觉编码器(CLIP-ViT-L/14)和语言模型的分词器进行图像和文本嵌入。在GRIT数据集上进行三轮训练,模型随机选择中心点或边界框来表示区域。在多模态聊天任务中,Ferret通过整合指代和定位能力显著提升性能。值得注意的是,Ferret缓解了对象幻觉的问题,这是多模态模型中常见的挑战之一。

BARD[Google,2023]:Google的BARD利用强化学习框架来自动化机器学习模型设计、架构搜索和超参数调整,使其对没有广泛AI专业知识的用户可用。该系统被定位为一个独立的实验,侧重于提高生产力、创造力和好奇心。用户可以使用BARD来编写简历、创建锻炼计划和规划行程等任务。该模型在各种数据源上进行了预训练,通过考虑上下文生成响应,并根据质量进行分类。人类反馈和评估,包括根据人类反馈进行微调和强化学习,用于改进BARD。局限性包括潜在的不准确性、偏见、人格属性、误报/漏报以及对恶意提示的脆弱性。Google致力于解决这些局限性,并在未来负责任地改进BARD。

LLaMA-VID [李等,2023c]:LLaMA-VID引入了一种新颖的双令牌策略,将上下文和内容令牌结合起来,以有效地编码每个视频帧。这种方法使模型能够处理长达一小时的视频,同时减少了计算复杂性。LLaMA-VID采用了混合架构,整合了诸如Vicuna之类的预训练模型用于文本处理,以及一个视觉Transformer用于视频中的图像嵌入。Q-Former通过计算查询生成的文本嵌入(Q)与视觉标记(X)之间的注意力,引入了上下文注意力令牌(Et)。Et包含相关的视觉特征。内容令牌(Ev)通过对视觉标记进行均值池化获得。这两个令牌被整合到V解码器中,用于生成文本响应。LLaMA-VID的双令牌生成策略,包括上下文和内容令牌,确保了对各种设置的适应性,在优化视频效率的同时保留了单个图像的细节。LLaMA-VID是一个设计用于效率的视频和图像理解模型,在8xA100 GPU上两天内完成训练。它使用EVA-G进行视觉编码和QFormer进行文本解码。训练集包括图像和视频标题对,评估了各种基准。LLaMA-VID在零样本视频问答基准测试中表现出色,每帧仅使用两个令牌就能实现高准确性。

CoVLM [李等,2023b]:CoVLM引入了一种新颖的方法,通过整合视觉-语言交流解码来增强大型语言模型的组合推理能力。利用交流令牌,该模型动态地组合视觉实体和关系,通过与视觉编码器和检测网络的迭代交流改进语言生成。在大规模数据集上训练,CoVLM在组合推理任务中优于基线视觉-语言模型,并在引用表达理解和视觉问答等任务中表现出竞争性能。该模型在整合视觉和语言模型方面取得了显著进展,同时承认了在组合性方面的潜在未来改进。

Emu2: [孙等,2023a]:Emu2是一个拥有370亿参数的生成多模态模型,能够在不同多模态序列中实现显著的上下文学习,在少样本理解任务中创造了新纪录。Emu2采用统一的自回归目标,无缝地整合了视觉嵌入和文本标记。其架构包括一个视觉编码器、多模态建模和视觉解码器,实现了在不同模态之间的连贯输出。Emu2在视觉-语言任务、指令调整和可控制的视觉生成方面表现出色,展示了在图像问答、主题驱动生成和零样本文本到图像生成方面的最先进性能。该论文承认了更广泛的影响考虑和局限性,强调在面对幻觉、偏见和问答能力等挑战时负责任地部署。

Video-LLaMA [张等,2023c]:Video-LLaMA旨在理解视频中的视觉和听觉内容。该模型将预训练的视觉和音频编码器与冻结的LLMs整合在一起,解决了捕捉视觉场景中的时间变化和整合音频-视觉信号的挑战。通过使用Video Q-former处理时间信息和Audio Q-former进行音频编码,该框架将音频-视觉数据与文本信息进行对齐。实验结果表明Video-LaMA在理解视频内容和生成有意义的音频和视频对话响应方面非常有效。然而,该论文承认了一些限制,如受限的感知能力和处理长视频的挑战。尽管如此,Video-LLaMA代表了音频-视觉AI助手领域的一项显著进步,作者提供了开源资源以供进一步开发。
视频-ChatGPT [Maaz 等,2023]:这是一个新颖的多模态模型,通过将视频适应的视觉编码器与大型语言模型相结合,增强了视频理解能力。该架构利用了CLIP ViT-L/14视觉编码器来生成时空视频表示,以及V-v1.1语言模型进行全面理解。值得注意的是,创建了一个包含10万个视频-指令对的数据集,用于微调模型,重点关注时间关系和语境理解。该模型在正确性、细节导向、语境和时间理解以及一致性方面表现出色,超越了当代模型在零样本问答任务中的表现。在定性方面,视频-ChatGPT在各种基于视频的任务中展现出了高超的能力,但在微妙的时间关系和小的视觉细节方面面临挑战,表明了未来改进的方向。

LAVIN [Luo 等,2023]:LAVIN利用混合模态适应(MMA)实现了LLM(大型语言模型)对视觉-语言任务的成本有效适应。具有轻量级适配器的LaVIN在科学问题回答和对话等多模态任务中取得了竞争性能和优越的训练效率。值得注意的是,LaVIN仅需1.4小时的训练时间和380万个可训练参数。在ScienceQA数据集上的实验结果表明,LaVIN在性能上具有效率,同时降低了训练时间和存储成本。LAVIN代表了成本有效适应的突破,但也存在一些局限,包括可能出现不正确的响应以及在识别图像中的细粒度细节方面存在挑战。

BEiT-3 [Wang 等,2022]:BEiT-3是一个多模态基础模型,展示了语言、视觉和多模态预训练的显著融合。BEiT-3在视觉和视觉-语言任务的迁移性能方面表现出色,通过创新的骨干架构、预训练任务和可扩展的模型设计推动了融合。采用多路变压器,该模型具有模块化架构,实现了深度融合和模态特定编码。利用共享的骨干,BEiT-3在图像、文本(英语)和图像-文本对(“平行句子”)上进行统一的掩码“语言”建模。实验结果表明,BEIT-3在各种任务中取得了最先进的性能,包括目标检测、语义分割、图像分类、视觉推理、视觉问答、图像字幕和跨模态检索。

mPLUG-2 [Xu 等,2023a]:mPLUG-2摒弃了依赖序列到序列生成或以编码器为中心的实例区分的普遍方法,引入了多模块组合网络。这种创新设计促进了模态协作,有效解决了模态纠缠问题。mPLUG-2的灵活性允许在文本、图像和视频模态之间的各种理解和生成任务中选择使用不同的模块。实证评估显示,mPLUG-2在30多个下游任务中取得了最先进或具有竞争力的结果。从具有挑战性的多模态任务,如图像-文本和视频-文本理解,到跨文本、图像和视频领域的单模态任务,mPLUG-2展示了其多才多艺。特别值得注意的是,它在视频问答和视频字幕任务中实现了48.0的top-1准确率和80.3的CIDEr,同时采用了明显较小的模型规模和数据规模。此外,mPLUG-2展示了在视觉-语言和视频-语言任务中的强大零样本可迁移性,巩固了其在多模态预训练进展中的领先地位。

X2-VLM [Zeng 等,2023]:X2-VLM是一个多功能模型,具有灵活的模块化架构,将图像-文本和视频-文本预训练整合到统一框架中。它在不同规模的图像-文本和视频-文本任务中表现出色,平衡了性能和模型规模。X2-VLM的模块化设计增强了可迁移性,允许在各种语言或领域中无缝使用。通过替换文本编码器,它在不需要特定多语言预训练的情况下,超越了最先进的多语言多模态预训练模型,展现出卓越的性能。这种适应性使X2-VLM成为多模态预训练领域中一个值得期待的模型。

歌词 [Lu 等,2023]:歌词是一个创新的多模态预训练和指导微调范式,通过细粒度的跨模态协作改革了视觉-语言对齐。从BLIP-2坚实的基础发展而来,歌词融合了从复杂的视觉提炼器中提取的局部视觉特征,包括图像标记、目标检测和语义分割模块。在查询变压器中,这些视觉特征与语言输入无缝整合,由视觉提炼器提取的边界框和标签丰富了语言输入。两阶段训练方法是一个关键亮点,通过在预训练阶段建立明确和全面的视觉-语言对齐目标,解决了模态差距问题。随后,在指导微调阶段,我们引入了语义感知的视觉特征提取,这是一种重要的方法,使模型能够从具体的视觉对象中获取信息性特征。该方法的有效性得到了在跨多样的视觉-语言任务中跨越13个保留数据集的稳健表现所证实。

X-FM [Zhang 等,2023b]:XFM是一个新颖的通用基础模型,配备一个语言编码器、一个视觉编码器和一个融合编码器,具有独特的训练方法。该方法融合了两种创新技术:在语言编码器学习过程中停止视觉-语言训练的梯度,以及利用视觉-语言训练指导视觉编码器学习。在基准数据集上的大量实验表明,X-FM优于现有的通用基础模型,并在语言、视觉或视觉-语言理解方面表现出竞争力。该论文承认了一些局限,包括大量的计算需求,并旨在探索提高效率和减少环境影响的技术。作者强调了他们致力于解决效率挑战并减少碳足迹的承诺,符合“绿色”深度学习倡议。然而,由于计算约束,该研究未探讨超大型模型或在大规模数据集上预训练大型模型,强调了可扩展性作为基础模型的一个重要考虑因素。

VALOR [Chen 等,2023a]:VALOR是一个统一的视觉-音频-语言跨模态预训练模型,旨在实现三模态理解和生成。VALOR采用了两种预训练任务,多模态分组对齐和多模态分组字幕,展示了良好的多功能性和可扩展性。提出了两个数据集,VALOR-1M和VALOR-32K,用于三模态预训练研究和基准测试音频视觉-语言检索和字幕生成。在VALOR-1M和其他视觉-语言数据集上训练后,VALOR在视觉/音频/音频视觉检索、字幕生成和问题回答等下游任务中取得了新的最先进性能。该论文概述了未来工作计划,包括通过无监督方法扩展VALOR-1M数据集,并将视觉和音频生成建模引入VALOR框架。

Prismer [Liu 等,2023b]:Prismer是一种数据和参数高效的视觉-语言模型,利用冻结的领域专家集合,减少了对大量训练数据的需求。通过从预训练的领域专家中继承权重并在训练过程中保持这些权重冻结,Prismer能够高效地适应不同的视觉-语言推理任务。尽管其规模较小的语言模型基础,Prismer展示了竞争性的微调和少样本学习性能,比当前最先进的模型需要更少的训练数据。然而,它缺乏零样本上下文泛化的能力,并在推断过程中适应新专家或部分专家集合方面存在局限,导致性能下降。该论文讨论了这些局限,包括缺少少样本上下文提示的能力、适应新专家的挑战以及在未来版本中改进专家知识表示以增强推理性能的潜力。

MMReact [杨等,2023b]:MM-REACT引入了一种新颖的文本提示设计,使语言模型能够处理多模态信息,包括文本描述、空间坐标和文件名,以获取密集的视觉信号。该方法在零-shot实验中展示了其有效性,展示了在各种场景中实现先进视觉理解的潜力。然而,该论文指出了一些限制,例如由于野外识别能力的基准缺失,系统评估性能存在挑战。集成的视觉专家可能会引入错误,系统的成功取决于必要专家的可用性。此外,专家的数量受ChatGPT的上下文窗口限制,将视觉信号转换为文本单词可能对某些任务不是最佳选择。需要手动提示工程,作者建议未来研究自动化这一过程,以提高系统开发的便利性。

PICa [金等,2021]:PICa是一种利用图像标题提示GPT-3进行基于知识的视觉问答(VQA)的方法。利用GPT-3的知识检索和问答能力,该方法将GPT-3视为隐式和非结构化的知识库,将图像转换为标题或标签以便GPT-3理解。通过使用少量示例的few-shot学习方法将GPT-3调整为VQA,PICa在OK-VQA数据集上仅使用16个示例就取得了显著的性能,超越了监督学习的最新技术水平。该方法是首个将GPT-3用于多模态任务的方法。然而,论文指出了一个限制,即将图像抽象为文本,标题可能仅提供部分描述,可能会错过详细问题回答所必需的关键视觉细节。

PNP-VQA [张等,2022]:即插即用VQA(PNP-VQA)是一种专为零-shot视觉问答(VQA)设计的模块化框架。与现有方法不同,现有方法要求对预训练语言模型(PLMs)进行大量调整以适应视觉,而PNP-VQA消除了对PLMs进行额外训练的需求。相反,它采用自然语言和网络解释作为中间表示,连接预训练模型。该框架生成以问题为导向的信息性图像标题,在问题回答过程中利用它们作为PLMs的上下文。PNP-VQA超越了端到端训练的基线,并在零-shot VQAv2和GQA数据集上取得了最新成果。拥有110亿参数,它在VQAv2上的表现优于80亿参数模型,并且在GQA上比较模型获得了9.1%的改进,展示了它在不同PLM参数大小下的有效性。

Img2LLM [郭等,2023]:Img2LLM专为LLMs设计,实现了零-shot VQA,无需进行端到端训练。该方法涉及开发与LLM无关的模型,通过示例问题-答案对表达图像内容,证明对LLMs而言是有效的提示。Img2LLM具有几个优点,达到了与端到端训练方法相当或超越的性能,例如在VQAv2上比Flamingo高出5.6%,在具有挑战性的A-OKVQA数据集上表现卓越。此外,Img2LLM的灵活性允许与各种LLMs无缝集成,用于VQA任务,无需专门的昂贵端到端微调。一个缺点是在生成图像标题和问题-答案对时产生额外的推理开销,导致计算时间增加了24.4%。然而,通过缩短提示可以缓解这种开销,以速度换取一部分准确性,同时Img2LLM避免了类似Flamingo的模型中看到的资源密集型端到端多模态表示对齐。

SimVLM [王等,2021]:SimVLM是一个简化的预训练框架,采用了极简主义方法。与以往方法不同,SimVLM通过利用大规模弱监督简化训练复杂性,并通过单一前缀语言建模目标进行端到端训练。值得注意的是,该模型在不借助额外数据或特定任务定制的情况下,超越了其前身如OSCAR、VILLA等,在各种视觉-语言任务中建立了新的基准。此外,SimVLM展示了强大的泛化和迁移能力,在诸如开放式视觉问答和跨模态转移等任务中展示了零-shot行为。

VideoCOCA [严等,2022]:VideoCoCa是Contrastive Captioners CoCa [严等,2022]模型在视频文本任务中的一种改进。利用CoCa的生成和对比注意力池层,VideoCoCa在零-shot视频分类和文本到视频检索方面取得了最新成果,且只需进行最少额外训练。该模型通过CoCa的图像编码器处理均匀采样的帧,创建代表整个视频序列的张量。该张量经过生成和对比建模任务的注意力池层。VideoCoCa在各种基于视频的任务中展现出高效能力,包括视频推理和动作识别,但在微妙的时间关系方面面临挑战。探索了各种适应策略和轻量级微调方法,其中注意力池方法被证明是最有效的。该模型在多个数据集上进行了测试,相对于CoCa基线表现出显著改进。VideoCoCa在各种规模和任务上始终优于CoCa,展示了其在视频文本建模中的稳健性能。

TinyGPT-V [袁等,2023a]:TinyGPT-V解决了GPT-4V等闭源和计算要求高的多模态模型所带来的挑战。该模型在训练时利用24G GPU,推理时利用8G GPU或CPU,实现了高性能,展示了与LLAVA等较大模型在各种基准测试中的竞争性表现。该模型的紧凑高效设计,将小型骨干与大型模型功能相结合,标志着实用、高性能的多模态语言模型在各种应用中迈出了重要一步。

ChatBridge [赵等,2023b]:ChatBridge是一个多模态语言模型,旨在创建能够理解多样真实世界模态的多功能AI模型。利用语言作为桥梁,该模型利用语言配对的双模态数据连接不同的模态。ChatBridge扩展了大型语言模型的零-shot能力,经历了一个两阶段的训练过程,将每种模态与语言对齐,并使用新的多模态指令数据集(MULTIS)进行微调。该模型在零-shot多模态任务上展现出强大的结果,涵盖文本、图像、视频和音频。然而,存在一些限制,包括理解长距离视频和音频的挑战,建议采用更精确的时间建模方法。该框架可以扩展到包括额外的模态,如草图和点云。虽然冻结模块减轻了计算负担,但可能导致性能不足,并引入来自预训练模型的偏见。

Macaw LLM [吕等,2023]:Macaw-LLM是一种集成视觉、音频和文本信息的新型多模态大型语言模型。它包括一个用于编码多模态数据的模态模块,一个利用预训练LLMs的认知模块,以及一个调整模块,用于协调不同表示。调整模块将多模态特征与文本特征联系起来,简化了适应过程。为多轮对话创建了一个大规模多模态指令数据集。论文承认了一些限制,包括对评估准确反映Macaw-LLM能力的担忧。该模型并非为多轮对话进行优化,也没有评估潜在问题,如幻觉、毒性和公平性,因为缺乏合适的评估套件。

GPT4Tools [杨等,2023a]:GPT4Tools旨在使诸如LLaMA和OPT等开源LLMs能够高效使用多模态工具。它解决了ChatGPT和GPT-4等专有LLMs所带来的挑战,这些模型通常依赖于无法访问的数据和高计算成本。GPT4Tools采用自我指导生成一个遵循指令的数据集,使开源LLMs能够通过低秩适应(LoRA)优化解决视觉问题。该方法显著提高了工具调用的准确性,并使未见工具具有零-shot能力。然而,显式和固定的提示方法降低了计算效率,促使探索隐式工具调用方法。尽管存在一些限制,但GPT4Tools被认为是为语言模型配备多模态工具的可行方法。
熊猫GPT [苏等,2023]:熊猫GPT是一种增强大型语言模型具有视觉和听觉指令跟随能力的方法。熊猫GPT在诸如图像描述、受视频启发的故事创作和回答与音频相关问题等任务中表现出色。它能够无缝处理多模态输入,连接视觉和听觉信息。通过结合ImageBind的多模态编码器和Vicuna的大型语言模型,熊猫GPT仅需要对齐的图像-文本对进行训练,并展现出对各种数据模态的新型跨模态行为。该论文提出了一些改进方法,包括使用额外的对齐数据,探索细粒度特征提取,生成更丰富的多媒体内容,创建新的基准,并解决常见的语言模型缺陷。尽管存在这些考虑因素,熊猫GPT代表了朝着构建跨多种模态的人工通用智能迈出的一步。

mPLUG-Owl [叶等,2023a]:mPLUG-Owl是一种训练范式,通过模块化学习基础LLM、视觉知识模块和视觉抽象模块,为LLM提供多模态能力。这种两阶段训练方法对齐图像和文本,利用LLM的辅助功能同时保持生成能力。实验结果表明,mPLUG-Owl在指导和视觉理解、多轮对话和知识推理方面表现出优越性能。该模型展现出意想不到的能力,如多图像相关性和多语言理解,但也存在一些限制,包括在多图像相关性、有限的多语言训练和复杂场景OCR中表现不佳。该模型还在仅视觉文档理解方面显示出潜力,在电影评论撰写和代码生成等任务中表现出色,但在其他应用中存在局限性,表明在文档理解和下游应用中有进一步探索的机会。

英-VLM [李等,2023e]:英-VLM是在M3IT数据集上训练的。使用M3IT训练的模型在遵循人类指令、提供引人入胜的回应以及在未见视频和中文任务上取得强大的泛化能力方面取得成功。分析表明,增加任务数量可以提高性能,指令多样性会影响结果。M3IT包括240万个实例和40个任务中手动编写的400个任务指令。

BLIVA [胡等,2023]:BLIVA是一种新颖的多模态语言学习模型,旨在处理文本丰富的视觉问题,整合查询和补丁嵌入。它胜过现有的VLMs,如GPT-4和Flamingo,在OCR-VQA和视觉空间推理基准测试中显示出显著改进。BLIVA的架构包括一个用于指导感知视觉特征的Q-Former和一个用于提供额外视觉信息的全连接投影层。与基准InstructBLIP相比,它在多模态LLM基准测试(MME)中表现出17.72%的整体改进,并在处理YouTube缩略图问答对等实际场景中表现良好。

LLAVA-phi [?]:LLaVA-Phi是一款由紧凑语言模型Phiagents驱动的高效多模态助手。值得注意的是,它强调了较小语言模型实现高级理解和交互的潜力,同时保持资源效率。训练过程包括两个阶段:(1)特征对齐,其中预训练的视觉编码器与语言模型使用LAION-CC-SBU数据集的子集连接,以及(2)视觉指令调整,使用GPT生成的多模态指令跟随数据和VQA数据教导模型遵循多模态指令。

表2:显示各种VLM在MME基准测试上的比较分析 [傅等,2023]。XB:模型具有X十亿参数。

MoE-LLaVA [林等,2024]:MoE-LLaVA是由北京大学、中山大学、FarReel Ai Lab、腾讯数据平台和鹏城实验室的研究人员开发的大型视觉语言模型的新型训练策略。这种名为MoE-tuning的策略有效地处理了多模态学习中的性能下降和模型稀疏性,通过在部署期间仅激活顶级专家来激活路由器。具有30亿个稀疏激活参数的MoE-LLaVA在减少模型输出中的幻觉的同时,实现了与最先进模型相媲美或更优越的性能。该架构包括一个视觉编码器、视觉投影层(MLP)、词嵌入层、堆叠的LLM块和MoE块。MoE-tuning包括三个阶段:MLP训练、排除视觉编码器的参数训练,以及初始化MoE专家,然后仅训练MoE层。对各种视觉理解数据集的评估显示了MoE-LLaVA的效率和有效性,广泛的消融研究和可视化展示了其有效性,并为未来多模态学习系统的研究提供了见解。

Yi-VL [陈等,2023c]:Yi Vision Language(Yi-VL)是基于Yi大型语言模型系列的开源多模态模型,擅长内容理解、识别以及关于图像的多轮对话。它在最近的基准测试中领先,包括英文和中文。关键特点包括多轮文本-图像对话、双语支持、强大的图像理解能力以及448×448的细粒度分辨率。Yi-VL采用LLaVA架构,包括一个视觉变换器、投影模块和大型语言模型。然而,它存在一些限制,如仅支持视觉问答、接受单个图像输入、在复杂场景中可能存在内容生成问题和对象识别不准确性。此外,它以448x448的固定分辨率运行,这可能导致低分辨率图像信息丢失,对于更高分辨率的图像缺乏额外知识。

Moondream [vikhyatk,2024]:Moondream是一款由Vikhyatk精心打造的16亿参数模型,融合了SigLIP、Phi-1.5和广泛的LLaVa训练数据集。作为人工智能研究的重要里程碑,该模型专门为学术探索而推出,强调其专门用于非商业目的。这种尖端技术和强大数据集的融合突显了推动人工智能前沿的承诺,为计算能力和创新设定了新的基准。

Shikra [陈等,2023e]:Shikra是一种旨在弥合对话中类人参考能力差距的多模态大型语言模型。Shikra可以处理自然语言中的空间坐标输入和输出,其简单架构包括一个视觉编码器、对齐层和LLM。它消除了额外词汇表或外部插件模型的需求,允许将参考对话任务与各种视觉-语言任务无缝集成。Shikra在REC、PointQA、图像字幕和VQA等任务中表现出色,实现了提供对象坐标和比较用户指定区域等应用,但目前仅支持英语,并且对非英语使用者缺乏用户友好性。未来工作旨在使Shikra多语言化,并探索改进的坐标表示以用于密集对象检测和分割任务。此外,与大多数LLM一样,Shikra可能会生成有害或事实不准确的响应。

BuboGPT [赵等,2023c]:BuboGPT是一种具有视觉定位能力的VLM,旨在增强视觉、音频和语言之间的跨模态交互。它对视觉对象和其他模态提供细致的理解,使其能够在生成响应期间在图像中定位特定对象。BuboGPT整合了基于SAM的现成视觉定位模块,用于实体提取和图像中的掩码对应,以及用于全面文本-图像-音频理解的两阶段训练方案和指令数据集。尽管存在语言幻觉和在Grounding QA方面容量不足等限制,BuboGPT展示了令人印象深刻的多模态理解和视觉定位能力,为多模态LLM的进步带来了希望。

ChatSpot: [赵等,2023a]:ChatSpot被引入为一种统一的端到端多模态大型语言模型,旨在增强人机交互。它支持各种交互形式,如鼠标点击、拖放和绘制框,为用户提供灵活而无缝的交互体验。该模型建立在精确的引用指令上,利用各种引用表示,如点和框,聚焦于特定感兴趣区域。此外,为训练ChatSpot创建了一个多粒度视觉-语言指令跟随数据集。实验结果显示其在区域引用方面的稳健性,即使存在框噪声,也几乎没有区域引用幻觉的情况。这突显了ChatSpot在精确区域引用方面的能力,以及提高多模态大型语言模型中交互准确性和效率的潜力。
MiniGPT5 [郑等,2023]:MiniGPT-5引入了一种创新的交错式视觉与语言生成技术,利用“生成式voken”来协调图像文本输出。其独特的两阶段训练策略专注于无描述的多模态生成,消除了对全面图像描述的需求。MiniGPT-5通过无分类器的指导增强了模型的完整性,在MMDialog数据集上相较于Divter等基准模型取得了显著改进。在VIST数据集上,MiniGPT-5在人类评估中始终提供优越或可比的多模态输出,展示了其在不同基准测试中的有效性。

DRESS [陈等,2023b]:DRESS是一个大型视觉语言模型,利用来自大型语言模型的自然语言反馈来增强其对齐和交互,解决了现有LVLMs的关键局限性。它将NLF新颖地分类为评论和改进类型,以更好地与人类偏好对齐,并提高多轮对话中的交互能力。评论型NLF识别出优势和劣势,将LVLMs与人类偏好对齐,而改进型NLF为改进回复提供具体的改进建议。为了解决NLF的不可微性质,条件强化学习被推广用于训练。实验结果显示,与最先进的LVLMs相比,DRESS生成的响应更有帮助、诚实且无害,并且在多轮交互中有效地从反馈中学习。

X-InstructBLIP [Panagopoulou等,2023]:X-InstructBLIP是一个跨模态框架,建立在冻结的大型语言模型之上,集成了各种模态而无需进行大量定制。高质量的指导调整数据被自动收集,实现了对不同模态的微调。该模型在没有进行大量预训练或定制化的情况下与领先的对手表现相当。引入了一项新颖的评估任务,称为Discriminative Cross-modal Reasoning (DisCRn),用于评估模型在不同输入模态下的跨模态能力。X-InstructBLIP展示了出色的跨模态推理能力,尽管每个模态都进行了单独优化,但在DisCRn中的所有检查模态中,它都优于强大的字幕基线。然而,每个模态内的复杂性和未解决的问题突显了跨模态和模态内未来探索的挑战和机遇。

VILA [林等,2023b]:VILA是一个视觉语言模型系列,源自一种增强的预训练配方,系统地将LLMs增强为VLMs。VILA在各主要基准测试中始终优于LLaVA1.5等最先进模型,展示了其在不增加额外复杂性的情况下的卓越性能。值得注意的是,VILA的多模态预训练揭示了引人注目的特性,如多图像推理、增强的上下文学习和改进的世界知识,标志着在视觉语言建模领域的重大进展。

多模态输入与多模态输出

可组合扩散(CoDi):CoDi [唐等,2023a]模型采用了一种多模态方法,使用潜在扩散模型处理文本、图像、视频和音频。文本处理涉及具有BERT和GPT-2的变分编码器(VAE),图像任务使用具有VAE的潜在扩散模型(LDM),音频任务利用具有VAE编码器-解码器的LDM进行mel频谱表示。CoDi通过联合多模态生成和交叉注意力模块在跨模态生成中创建共享的多模态空间。训练涉及具有对齐提示编码器的各自扩散模型,CoDi通过线性数量的训练目标实现任意到任意的生成。

CoDi-2 [唐等,2023b]:CoDi-2采用了一个多模态编码器ImageBind,具有对齐编码器和用于模态投影的多层感知器。它将扩散模型(DMs)整合到多模态潜在语言模型(MLLM)中,用于详细的、模态交错的生成。融合策略涉及将多模态数据投影到一个特征序列,由MLLM处理,并利用DMs提高生成质量。对齐方法利用来自对齐多模态编码器的投影,使MLLM能够理解模态交错的输入序列,促进上下文学习并支持多轮互动对话。

Google Gemini [Google等,2023]:Gemini模型具有具有深度融合能力的变革性架构,在集成文本、图像、音频和视频模态方面表现出色。它们在32个基准测试中有30个超越了GPT-4,并且在Google的TPU v4和v5e加速器上进行高效扩展训练。多模态和多语言训练数据集优先考虑质量和安全性,模型经历了来自人类反馈的强化学习。虽然具体细节尚未披露,但针对偏见和有害性的安全评估是Gemini发展的核心部分,涉及与外部专家的合作。

NExT-GPT [吴等,2023b]:NExT-GPT具有三个阶段:多模态编码、LLM理解和推理以及多模态生成。它使用像ImageBind这样的模型进行编码,使用基于Transformer的层进行生成。在推断中,模态编码器转换输入,LLM决定内容,扩散解码器使用信号令牌进行合成。该系统采用多模态对齐学习来对齐特征,并通过模态切换指导调整(MosIT)来改进LLM的能力,通过将模态信号令牌与黄金标题对齐,增强模型处理各种用户交互的能力。多样化的MosIT数据集增强了模型有效处理各种用户交互的能力。

表3:来自[李等,2023c]的4个零样本视频问答数据集上领先模型的比较分析。结果报告每个帧的两个令牌。

VideoPoet [吴等,2023b]:VideoPoet是一个专为高质量视频合成与匹配音频而设计的语言模型。该模型采用了仅解码器的Transformer架构,处理诸如图像、视频、文本和音频等多模态输入。利用两阶段训练协议,VideoPoet展示了在零样本视频生成方面的最先进能力,并在文本到视频和视频风格化等任务中表现出色。值得注意的特点包括大型语言模型骨干、自定义空间超分辨率以及模型规模的可扩展性。人类评估突显了VideoPoet在文本保真度、视频质量和动态趣味性方面的优越性。负责任的AI分析强调了对公平性的考虑,强调了模型在零样本编辑、任务链接和在视频生成的多个阶段中保持质量的能力。

未来方向

**预训练与模块化结构之间的权衡:**正在进行大量研究,通过引入模块化代替黑盒预训练来增加VLMs的理解、控制和忠实度能力。**整合其他模态:**正在进行更多关于整合更精细模态的研究,如受到[程等,2022]启发的凝视/手势,这对于教育领域非常重要。

**VLMs的细粒度评估:**正在进行更细粒度的VLMs评估,涉及偏见、公平性等参数。DALL-Eval [Cho等,2023a]和VP-Eval [Cho等,2023b]是这方面的一些工作。

**VLMs中的因果关系和反事实能力:**已经进行了大量工作来理解LLM的因果关系和反事实能力,这启发了研究人员在VLM领域探索相同的内容。Cm3 [Aghajanyan等,2022]是这一领域的最早工作之一,这个话题引起了很多关注。

**持续学习/遗忘:**在VLM领域,有一个趋势是在不从头开始训练的情况下有效地连续学习。VQACL [张等,2023a]和Decouple before Interact [钱等,2023]是这一领域的一些最早工作。受LLMs中知识遗忘概念的启发,研究人员也在VLM领域探索类似的方法。

**训练效率:**正在集中精力开发高效的多模态模型,如BLIP-2显示出很大的潜力。它在零样本VQA-v2中比Flamingo-80B高出8.7%,同时使用的可训练参数明显更少(少了54倍)。

**VLMs的多语言基础:**随着最近多语言LLMs(如OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023])的激增,人们越来越倾向于开发多语言视觉语言模型(VLMs)。

**更多领域特定的VLMs:**各种领域特定的VLMs,例如MedFlamingo [Moor等,2023]和SkinGPT [周等,2023]等项目,在其专业领域铺平了道路。正在进行进一步努力,为教育和农业等领域量身定制VLMs。

结论

本文全面调查了VLM领域的最新发展。我们根据它们的使用案例和输出生成能力对VLM进行分类,提供了对每个模型的架构、优势和局限性的简明见解。此外,我们还重点介绍了该领域的未来发展方向,这些方向是根据最近的趋势得出的,为进一步探索这一领域提供了路线图。我们相信本文将成为一份宝贵的资源,为在计算机视觉和自然语言处理领域积极参与多模态学习领域的研究人员提供指导。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数智笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值