复旦发布多模态大模型AnyGPT,文图语乐样样行

文章介绍了AnyGPT,一种新型多模态语言模型,通过离散表示统一处理文本、图像、音乐等模态,实现了在不改变现有LLM架构下稳定训练。AnyGPT展示了在多模态理解和生成任务中的出色性能,推动了多模态LLM的发展。
摘要由CSDN通过智能技术生成

在人工智能领域,多模态语言模型的发展正迎来新的篇章。传统的大型语言模型(LLM)在理解和生成人类语言方面展现出了卓越的能力,但这些能力通常局限于文本处理。然而,现实世界是一个本质上多模态的环境,生物体通过视觉、语言、声音和触觉等多种渠道感知和交换信息。在这样的背景下,一个有前景的目标是增强LLM,使其具备多模态感知能力。

最近的研究如Emu、SEED-LLaMA和SpeechGPT已经在使语言模型具备多模态理解和生成的能力上取得了重要进展。然而,这些模型仅集成了单一的非文本模态,如图像或音频。虽然将文本与一个额外的模态对齐相对简单,但在单一框架内整合多个模态(N ≥ 3)并实现它们之间的双向对齐则是一个更为艰巨的挑战。

为了克服这些挑战,研究者推出了AnyGPT,一个任意到任意的多模态语言模型,它采用离散表示来统一处理文本、各种模态、图像和音乐。AnyGPT配备了多模态分词器,将原始多模态数据(如图像和音频)压缩成一系列离散的语义令牌。这些离散表示使得核心LLM能够在语义层面上自回归地统一感知、理解、推理和生成任务。随后,去分词器将离散表示转换回原始的模态表示。由于离散表示过滤掉了高频的模态特定感知信息,同时保留了关键的低频语义信息,我们能够在不改变现有LLM架构或训练范式的情况下稳定地训练我们的模型。相反,我们的方法仅依赖于数据层面的预处理。这允许新模态的无缝整合到LLM中,类似于添加新语言,并允许直接应用现有LLM工具,以此提高训练和推理阶段的效率。

图片

论文标题:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

公众号「夕小瑶科技说」后台回复“AnyGPT”获取论文PDF!

AnyGPT模型概述:统一多模态处理的新方法

1. AnyGPT模型的核心理念与架构

AnyGPT模型是一个新颖的多模态语言模型,它通过离散表示来统一处理文本、图像、音乐等多种模态的数据。这种模型的设计允许它在不改变现有大型语言模型(LLM)架构或训练范式的情况下稳定训练。AnyGPT的核心是一系列多模态分词器,这些分词器将原始的多模态数据压缩成离散的语义标记序列,然后通过LLM进行自回归处理,实现感知、理解、推理和生成等任务。在生成过程中,去分词器将这些离散表示转换回原始模态的感知层面表示。

2. 多模态数据的离散表示与处理

AnyGPT模型采用了多模态分词器,如图像分词器SEED、语音分词器SpeechTokenizer和音乐分词器Encodec,将连续的非文本模态数据转换为离散的标记序列。这些离散表示过滤掉了高频的模态特定感知信息,同时保留了关键的低频语义信息。这种表示方法的优势在于它简化了训练和推理过程,并允许新模态的无缝集成,类似于添加新语言。

3. 无需改变现有LLM架构的训练稳定性

由于离散表示的使用,AnyGPT能够在不需要对现有LLM架构或训练范式进行任何修改的情况下进行稳定训练。这种方法仅依赖于数据层面的预处理,使得新模态能够像添加新语言一样轻松集成到LLM中,并直接应用现有的LLM工具,从而提高了训练和推理阶段的效率。

多模态数据集的构建与预训练

图片

1. 文本中心的多模态对齐数据集

为了解决多模态对齐数据的稀缺性,研究者构建了一个以文本为中心的多模态对齐预训练数据集。其目标是使用文本作为桥梁,通过将其他模态与文本对齐,实现所有模态之间的相互对齐。由于自然语言是最精炼的语义表示方式,并且在大多数多模态对齐数据集中都存在,因此选择文本作为实现模态间对齐的关键中介。

2. 创造性地合成多模态指令数据集AnyInstruct-108k

为了使模型能够理解和生成与多种模态交织在一起的内容,研究者利用先进的生成模型合成了一个多模态指令数据集AnyInstruct-108k。该数据集包含108k个多轮对话样本,使AnyGPT能够处理任意组合的多模态输入和输出。实验结果表明,AnyGPT能够实现任意模态到任意模态的多模态对话,并在各种模态上实现与专门模型相当的零样本性能,证明了离散表示可以有效且方便地在语言模型内统一多种模态。

实验结果:AnyGPT的多模态理解与生成能力

1. 跨模态任务中的表现

AnyGPT在跨模态任务中的表现令人瞩目。它在零样本设置下,即在没有特定任务训练样本的情况下,就能与专业模型相媲美。在图像理解任务中,AnyGPT使用MS-COCO 2014的数据集进行评估,并采用Karpathy分割测试集。结果显示,AnyGPT在图像字幕任务上的表现与其他模型相比具有竞争力。

在文本到图像的生成任务中,AnyGPT同样展现了强大的能力。通过随机选择MS-COCO验证集中的30k图像,并使用CLIPscore作为评估标准,AnyGPT能够生成与给定字幕相匹配的图像,其性能与之前的研究保持一致。

在自动语音识别(ASR)任务中,AnyGPT在LibriSpeech数据集的test-clean子集上的表现通过计算字错误率(WER)来评估。与Wav2vec 2.0和Whisper Large V2这两个基线模型相比,AnyGPT展现了出色的识别能力。

图片

在文本到语音(TTS)任务中,AnyGPT在VCTK数据集上进行了零样本评估。评估结果显示,AnyGPT在生成与给定文本匹配的语音方面表现出色,同时在保持说话者相似性方面也取得了良好的效果。

图片

在音乐理解和生成任务中,AnyGPT在MusicCaps基准测试中进行了评估。使用CLAPscore作为客观指标,AnyGPT在生成与文本描述相匹配的音乐方面表现出色。

图片

2. 与专业模型的性能比较

AnyGPT的性能与专业模型相比较,证明了其在多模态理解和生成方面的强大能力。在图像理解、图像生成、自动语音识别、文本到语音转换以及音乐理解和生成等任务中,AnyGPT均能达到或接近专业模型的表现。这些结果表明,AnyGPT通过其独特的离散表示方法,能够有效地统一多种模态,使其在大型语言模型中得以协同工作。

AnyGPT的多模态对话示例

1. 任意模态到任意模态的对话能力

AnyGPT在多模态对话示例中展现了其从任意模态到任意模态的对话能力。例如,在一个对话场景中,用户可能会提供一张图片和一个语音指令来生成音乐,AnyGPT能够理解这些输入,并生成符合要求的音乐,同时提供相应的文本和语音回应。这种能力证明了AnyGPT不仅能理解和生成单一模态的内容,还能处理和生成涉及多种模态的复杂对话。

2. 语音、图像与音乐的无缝交互

AnyGPT的设计允许它在语音、图像和音乐之间无缝交互。在对话中,它可以接收语音指令并生成图像,或者根据文本提示创作音乐。AnyGPT的多模态对话示例包括了从语音指令到音乐的生成,以及从文本到图像和音乐的转换等多种情景。这些示例表明,AnyGPT能够在不同模态之间进行有效的转换和生成,为用户提供了丰富的交互体验。

结论与展望

1. AnyGPT的创新点与实验成果总结

AnyGPT作为一个全新的多模态语言模型,其核心创新在于采用离散表示来统一处理文本、图像、音乐等多种模态的信息。这种方法允许模型在不改变现有大型语言模型(LLM)架构或训练范式的情况下稳定训练。AnyGPT通过多模态分词器将原始多模态数据压缩成离散的语义标记序列,然后由LLM以自回归方式在语义层面上统一处理感知、理解、推理和生成任务。实验结果表明,AnyGPT能够在各种模态上实现与专门模型相当的零样本性能,并且能够有效地促进任意模态之间的多模态对话,证明了离散表示能够在语言模型内有效且方便地统一多种模态。

2. 多模态LLM的未来发展方向

  • Any-to-Any Multimodal LLM Benchmark: 多模态LLM领域需要一个综合性的基准测试,以评估模型在多个维度上的能力,并减轻潜在风险。

  • Enhancing LLMs: 尽管多模态LLM可以稳定训练,但与单模态训练相比,其损失较高,影响了每种模态的最佳性能。可能的改进策略包括扩大LLM和分词器的规模,或采用专家混合(MOE)架构来更好地管理多样化的数据并优化性能。

  • Better Tokenizer: 在采用离散表示的多模态LLM中,分词器的质量决定了模型的理解和生成潜力。改进分词器的方法包括采用更优的码本训练方法、开发更一致的多模态表示,以及在不同模态之间应用信息解耦。

  • Longer Context: 如图像和音频等多模态内容通常涉及长序列。例如,AnyGPT将音乐建模限制在5秒内,这显著限制了其音频输出的实用性。此外,对于任意模态间的多模态对话,扩展上下文将允许更多的对话交换,从而丰富交互的深度和复杂性。

公众号「夕小瑶科技说」后台回复“AnyGPT”获取论文PDF!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值