AnyGPT：多模态语言模型，任意处理语音、图像和音乐

人工智能大模型讲师培训咨询叶梓

已于 2024-09-09 13:09:22 修改

阅读量1k

点赞数 20

分类专栏：人工智能文章标签：语言模型人工智能自然语言处理深度学习计算机视觉多模态图像处理

于 2024-08-10 12:45:00 首次发布

本文链接：https://blog.csdn.net/weixin_44292902/article/details/140992042

版权

人工智能咨询培训老师叶梓转载标明出处

大模型的能力大多局限于文本处理，而现实世界环境本质上是多模态的，涉及视觉、语言、声音和触觉等多种感知渠道。为了使LLM能够更好地模拟人类的多模态感知能力，复旦大学的研究团队提出了AnyGPT，这是一个创新的多模态语言模型，它能够统一处理包括语音、文本、图像和音乐在内的各种模态。AnyGPT的核心优势在于它能够使用离散表示法来处理不同模态的数据，而无需对现有的大模型架构或训练范式进行任何改动。这一方法完全依赖于数据级别的预处理，使得新模态的整合变得像添加新语言一样简单，从而提高了训练和推理阶段的效率。

在图1提供了AnyGPT模型架构中，所有模态的数据—无论是图像、音乐、语音还是文本—都被分词成离散的标记（tokens）。这些离散的标记随后被送入大型语言模型（LLM），在那里进行自回归的多模态理解和生成处理。AnyGPT模型的创新之处在于，它不需要改变现有的模型架构或训练目标，仅需在数据的预处理和后处理阶段进行操作。预处理涉及将连续的非文本模态数据转换为LLM可以处理的离散标记序列，而后处理则是将这些标记序列解码回原始的数据模态。这种设计允许AnyGPT以统一且高效的方式处理和生成多种类型的数据，同时保持了模型的灵活性和扩展性。

AnyGPT

AnyGPT框架由三个主要部分组成：多模态分词器、多模态语言模型（作为骨干）和多模态去分词器。分词器负责将连续的非文本数据转换为离散的标记序列，这些序列随后被语言模型以自回归的方式进行训练。在推理阶段，去分词器将多模态标记解码回它们原始的表示形式。另外AnyGPT还可以使用多模态增强模块来提高生成结果的质量，例如通过声音克隆或图像超分辨率等技术。

分词器

图像分词器：AnyGPT使用SEED分词器进行图像处理。SEED分词器包括ViT编码器、Causal Q-Former、VQ码本、MLP和UNet解码器。它接收224×224 RGB图像作为输入，将图像编码为16×16的图像块，然后将这些图像块转换为32个因果嵌入。这些嵌入通过一个包含8192个条目的码本被离散化为量化代码序列。MLP用于将视觉代码解码为与预训练的unCLIP Stable Diffusion模型的潜在空间对齐的生成嵌入。UNet解码器最终将生成嵌入恢复为原始图像。

语音分词器：AnyGPT使用的语音分词器是SpeechTokenizer，它采用编码器-解码器架构和残差向量量化（RVQ）。SpeechTokenizer将单通道音频序列压缩成使用八个分层量化器的离散矩阵，每个量化器有1024个条目，实现50 Hz的帧率。第一层量化器捕获语义内容，而第2至8层编码超语言细节。10秒的音频被转换成500×8的矩阵