复旦发布多模态大模型AnyGPT，文图语乐样样行

夕小瑶

于 2024-02-26 10:34:56 发布

阅读量1.3k

点赞数 17

文章标签：自然语言处理

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/136293628

版权

文章介绍了AnyGPT，一种新型多模态语言模型，通过离散表示统一处理文本、图像、音乐等模态，实现了在不改变现有LLM架构下稳定训练。AnyGPT展示了在多模态理解和生成任务中的出色性能，推动了多模态LLM的发展。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在人工智能领域，多模态语言模型的发展正迎来新的篇章。传统的大型语言模型（LLM）在理解和生成人类语言方面展现出了卓越的能力，但这些能力通常局限于文本处理。然而，现实世界是一个本质上多模态的环境，生物体通过视觉、语言、声音和触觉等多种渠道感知和交换信息。在这样的背景下，一个有前景的目标是增强LLM，使其具备多模态感知能力。

最近的研究如Emu、SEED-LLaMA和SpeechGPT已经在使语言模型具备多模态理解和生成的能力上取得了重要进展。然而，这些模型仅集成了单一的非文本模态，如图像或音频。虽然将文本与一个额外的模态对齐相对简单，但在单一框架内整合多个模态（N ≥ 3）并实现它们之间的双向对齐则是一个更为艰巨的挑战。

为了克服这些挑战，研究者推出了AnyGPT，一个任意到任意的多模态语言模型，它采用离散表示来统一处理文本、各种模态、图像和音乐。AnyGPT配备了多模态分词器，将原始多模态数据（如图像和音频）压缩成一系列离散的语义令牌。这些离散表示使得核心LLM能够在语义层面上自回归地统一感知、理解、推理和生成任务。随后，去分词器将离散表示转换回原始的模态表示。由于离散表示过滤掉了高频的模态特定感知信息，同时保留了关键的低频语义信息，我们能够在不改变现有LLM架构或训练范式的情况下稳定地训练我们的模型。相反，我们的方法仅依赖于数据层面的预处理。这允许新模态的无缝整合到LLM中，类似于添加新语言，并允许直接应用现有LLM工具，以此提高训练和推理阶段的效率。

论文标题：AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

公众号「夕小瑶科技说」后台回复“AnyGPT”获取论文PDF！

AnyGPT模型概述：统一多模态处理的新方法

1. AnyGPT模型的核心理念与架构

AnyGPT模型是一个新颖的多模态语言模型，它通过离散表示来统一处理文本、图像、音乐等多种模态的数据。这种模型的设计允许它在不改变现有大型语言模型（LLM）架构或训练范式的情况下稳定训练。AnyGPT的核心是一系列多模态分词器，这些分词器将原始的多模态数据压缩成离散的语义标记序列，然后通过LLM进行自回归处理，实现感知、理解、推理和生成等任务。在生成过程中，去分词器将这些离散表示转换回原始模态的感知层面表示。

2. 多模态数据的离散表示与处理

AnyGPT模型采用了多模态分词器，如图像分词器SEED、语音分词器SpeechTokenizer和音乐分词器Encodec，将连续的非文本模态数据转换为离散的标记序列。这些离散表示过滤掉了高频的模态特定感知信息，同时保留了关键的低频语义信息。这种表示方法的优势在于它简化了训练和推理过程，并允许新模态的无缝集成，类似于添加新语言。

3. 无需改变现有LLM架构的训练稳定性

由于离散表示的使用，AnyGPT能够在不需要对现有LLM架构或训练范式进行任何修改的情况下进行稳定训练。这种方法仅依赖于数据层面的预处理，使得新模态能够像添加新语言一样轻松集成到LLM中，并直接应用现有的LLM工具，从而提高了训练和推理阶段的效率。

多模态数据集的构建与预训练

1. 文本中心的多模态对齐数据集

为了解决多模态对齐数据的稀缺性，研究者构建了一个以文本为中心的多模态对齐预训练数据集。其目标是使用文本作为桥梁，通过将其他模态与文本对齐，实现所有模态之间的相互对齐。由于自然语言是最精炼的语义表示方式，并且在大多数多模态对齐数据集中都存在，因此选择文本作为实现模态间对齐的关键中介。

2. 创造性地合成多模态指令数据集AnyInstruct-108k

为了使模型能够理解和生成与多种模态交织在一起的内容，研究者利用先进的生成模型合成了一个多模态指令数据集AnyInstruct-108k。该数据集包含108k个多轮对话样本，使AnyGPT能够处理任意组合的多模态输入和输出。实验结果表明，AnyGPT能够实现任意模态到任意模态的多模态对话，并在各种模态上实现与专门模型相当的零样本性能，证明了离散表示可以有效且方便地在语言模型内统一多种模态。

实验结果：AnyGPT的多模态理解与生成能力

1. 跨模态任务中的表现

AnyGPT在跨模态任务中的表现令人瞩目。它在零样本设置下，即在没有特定任务训练样本的情况下，就能与专业模型相媲美。在图像理解任务中，AnyGPT使用MS-COCO 2014的数据集进行评估，并采用Karpathy分割测试集。结果显示，AnyGPT在图像字幕任务上的表现与其他模型相比具有竞争力。

在文本到图像的生成任务中，AnyGPT同样展现了强大的能力。通过随机选择MS-COCO验证集中的30k图像，并使用CLIPscore作为评估标准，AnyGPT能够生成与给定字幕相匹配的图像，其性能与之前的研究保持一致。

在自动语音识别（ASR）任务中，AnyGPT在LibriSpeech数据集的test-clean子集上的表现通过计算字错误率（WER）来评估。与Wav2vec 2.0和Whisper Large V2这两个基线模型相比，AnyGPT展现了出色的识别能力。

在文本到语音（TTS）任务中，AnyGPT在VCTK数据集上进行了零样本评估。评估结果显示，AnyGPT在生成与给定文本匹配的语音方面表现出色，同时在保持说话者相似性方面也取得了良好的效果。

在音乐理解和生成任务中，AnyGPT在MusicCaps基准测试中进行了评估。使用CLAPscore作为客观指标，AnyGPT在生成与文本描述相匹配的音乐方面表现出色。

2. 与专业模型的性能比较

AnyGPT的性能与专业模型相比较，证明了其在多模态理解和生成方面的强大能力。在图像理解、图像生成、自动语音识别、文本到语音转换以及音乐理解和生成等任务中，AnyGPT均能达到或接近专业模型的表现。这些结果表明，AnyGPT通过其独特的离散表示方法，能够有效地统一多种模态，使其在大型语言模型中得以协同工作。

AnyGPT的多模态对话示例

1. 任意模态到任意模态的对话能力

AnyGPT在多模态对话示例中展现了其从任意模态到任意模态的对话能力。例如，在一个对话场景中，用户可能会提供一张图片和一个语音指令来生成音乐，AnyGPT能够理解这些输入，并生成符合要求的音乐，同时提供相应的文本和语音回应。这种能力证明了AnyGPT不仅能理解和生成单一模态的内容，还能处理和生成涉及多种模态的复杂对话。

2. 语音、图像与音乐的无缝交互

AnyGPT的设计允许它在语音、图像和音乐之间无缝交互。在对话中，它可以接收语音指令并生成图像，或者根据文本提示创作音乐。AnyGPT的多模态对话示例包括了从语音指令到音乐的生成，以及从文本到图像和音乐的转换等多种情景。这些示例表明，AnyGPT能够在不同模态之间进行有效的转换和生成，为用户提供了丰富的交互体验。

结论与展望

1. AnyGPT的创新点与实验成果总结

AnyGPT作为一个全新的多模态语言模型，其核心创新在于采用离散表示来统一处理文本、图像、音乐等多种模态的信息。这种方法允许模型在不改变现有大型语言模型（LLM）架构或训练范式的情况下稳定训练。AnyGPT通过多模态分词器将原始多模态数据压缩成离散的语义标记序列，然后由LLM以自回归方式在语义层面上统一处理感知、理解、推理和生成任务。实验结果表明，AnyGPT能够在各种模态上实现与专门模型相当的零样本性能，并且能够有效地促进任意模态之间的多模态对话，证明了离散表示能够在语言模型内有效且方便地统一多种模态。

2. 多模态LLM的未来发展方向

Any-to-Any Multimodal LLM Benchmark: 多模态LLM领域需要一个综合性的基准测试，以评估模型在多个维度上的能力，并减轻潜在风险。
Enhancing LLMs: 尽管多模态LLM可以稳定训练，但与单模态训练相比，其损失较高，影响了每种模态的最佳性能。可能的改进策略包括扩大LLM和分词器的规模，或采用专家混合（MOE）架构来更好地管理多样化的数据并优化性能。
Better Tokenizer: 在采用离散表示的多模态LLM中，分词器的质量决定了模型的理解和生成潜力。改进分词器的方法包括采用更优的码本训练方法、开发更一致的多模态表示，以及在不同模态之间应用信息解耦。
Longer Context: 如图像和音频等多模态内容通常涉及长序列。例如，AnyGPT将音乐建模限制在5秒内，这显著限制了其音频输出的实用性。此外，对于任意模态间的多模态对话，扩展上下文将允许更多的对话交换，从而丰富交互的深度和复杂性。

公众号「夕小瑶科技说」后台回复“AnyGPT”获取论文PDF！