AnyGPT:多模态语言模型,任意处理语音、图像和音乐

人工智能咨询培训老师叶梓 转载标明出处

大模型的能力大多局限于文本处理,而现实世界环境本质上是多模态的,涉及视觉、语言、声音和触觉等多种感知渠道。为了使LLM能够更好地模拟人类的多模态感知能力,复旦大学的研究团队提出了AnyGPT,这是一个创新的多模态语言模型,它能够统一处理包括语音、文本、图像和音乐在内的各种模态。AnyGPT的核心优势在于它能够使用离散表示法来处理不同模态的数据,而无需对现有的大模型架构或训练范式进行任何改动。这一方法完全依赖于数据级别的预处理,使得新模态的整合变得像添加新语言一样简单,从而提高了训练和推理阶段的效率。

在图1提供了AnyGPT模型架构中,所有模态的数据—无论是图像、音乐、语音还是文本—都被分词成离散的标记(tokens)。这些离散的标记随后被送入大型语言模型(LLM),在那里进行自回归的多模态理解和生成处理。AnyGPT模型的创新之处在于,它不需要改变现有的模型架构或训练目标,仅需在数据的预处理和后处理阶段进行操作。预处理涉及将连续的非文本模态数据转换为LLM可以处理的离散标记序列,而后处理则是将这些标记序列解码回原始的数据模态。这种设计允许AnyGPT以统一且高效的方式处理和生成多种类型的数据,同时保持了模型的灵活性和扩展性。 

AnyGPT

AnyGPT框架由三个主要部分组成:多模态分词器、多模态语言模型(作为骨干)和多模态去分词器。分词器负责将连续的非文本数据转换为离散的标记序列,这些序列随后被语言模型以自回归的方式进行训练。在推理阶段,去分词器将多模态标记解码回它们原始的表示形式。另外AnyGPT还可以使用多模态增强模块来提高生成结果的质量,例如通过声音克隆或图像超分辨率等技术。

分词器

图像分词器:AnyGPT使用SEED分词器进行图像处理。SEED分词器包括ViT编码器、Causal Q-Former、VQ码本、MLP和UNet解码器。它接收224×224 RGB图像作为输入,将图像编码为16×16的图像块,然后将这些图像块转换为32个因果嵌入。这些嵌入通过一个包含8192个条目的码本被离散化为量化代码序列。MLP用于将视觉代码解码为与预训练的unCLIP Stable Diffusion模型的潜在空间对齐的生成嵌入。UNet解码器最终将生成嵌入恢复为原始图像。

语音分词器:AnyGPT使用的语音分词器是SpeechTokenizer,它采用编码器-解码器架构和残差向量量化(RVQ)。SpeechTokenizer将单通道音频序列压缩成使用八个分层量化器的离散矩阵,每个量化器有1024个条目,实现50 Hz的帧率。第一层量化器捕获语义内容,而第2至8层编码超语言细节。10秒的音频被转换成500×8的矩阵

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能大模型讲师培训咨询叶梓

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值