【导读】模态生成器(Modality Generator, MG)是多模态大模型(MLLM)中的一个关键组件,负责生成各种模态的输出。常用的生成器类型包括:Text Generation、Generation via Diffusion Models、Generation via Codebooks。
MLLM经典架构,红框为Generator模块
一、Modality Generator介绍
Modality Generator(模态生成器)是多模态大型语言模型(MLLM)架构中的一个关键组件。它的主要任务是生成不同模态的输出。具体来说,Modality Generator是模型架构中的第五个组件,也是最后一个,它使用由Output Projector映射的信号作为条件输入,并基于这些信号生成相应的模态内容,如图像、视频或音频。
二、Modality Generator 类别
2.1 Text Generation
**Text Generation:**LLM 本身就天然支持直接生成文本,例如BPE decoding, Beam search。
2.2 Generation via Diffusion Models
Generation via Diffusion Models:Modality Generator 通过Diffusion Models可以实现其他模态的生成,具体方案包括以下几种技术或模型:
-
图像生成:如 Stable Diffusion 等潜在扩散模型(Latent Diffusion Models, LDMs)来生成图像。这些模型能够根据条件生成高质量、高分辨率的图像。
-
视频生成:如 Zeroscope,它是一个基于扩散模型的视频合成工具,能够生成连续的视频内容。
-
音频生成:如 AudioLDM,用于生成音频内容。包括音乐、语音或其他声音效果。
主流的 43 个多模态大模型中的Modality Generator技术如下:
NExT-GPT的Modality Generator的方案是:生成图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM。
NExT-GPT结构
2.3 Generation via Codebooks
Generation via Codebooks:在UNIFIED-IO 2模型中,介绍了如何使用码本(codebooks)来生成不同模态的内容,包括视觉(图像/视频)和音频。下面以Visual (Image/Video) Generator 为例,对这些生成方法的概述:
-
VQ-VAE + Codebooks:
-
VQ-VAE(Vector Quantized Variational AutoEncoder)是一种利用向量量化技术来压缩和生成图像的模型。在这种方法中,图像首先被编码成一系列的嵌入向量,然后这些向量被量化为码本中的离散表示。码本是一个预先训练好的、有限的向量集合,每个向量代表了视觉空间中的一个点。
-
通过选择最接近原始嵌入向量的码本向量,可以重建图像的一个近似版本。这种方法可以用于生成新的图像内容,通过混合和匹配码本中的不同向量来探索图像空间。
-
VQ-GAN + Codebooks:
-
VQ-GAN(Vector Quantized Generative Adversarial Network)结合了生成对抗网络(GAN)和VQ技术。在UNIFIED-IO 2模型中,VQ-GAN用于将图像转换成离散的码本索引,这些索引随后可以被用来生成新的图像。
-
码本在这个过程中起到了桥接连续图像表示和离散潜在空间的作用。通过这种方式,模型能够学习到图像的压缩表示,并且能够通过改变码本索引来生成多样化的图像。
这些生成方法使得模型能够处理和生成多种模态的数据,包括图像、视频和音频。通过码本的离散化表示,模型可以更有效地学习和生成复杂的数据结构,同时保持生成内容的多样性和质量。
Unified-IO 2 结构
三、总结
-
Text Generation:没啥可说的,主要就是应用在VQA、Caption 任务中,直接生成文本;
-
Generation via Diffusion Models:扩散模型能够生成高质量的连续数据,通常能够生成高分辨率和逼真的图像,但同时通常需要大量的计算资源且生成过程比较慢, 更适合于需要生成高质量和高分辨率图像的任务
-
Generation via Codebooks: 通过使用离散的Codebooks(码本)索引,可以简化生成过程,减少计算复杂性,允许更直接的控制生成过程,因为可以通过修改码本中的向量来影响输出,但码本的大小是有限的,它可能无法捕捉到数据的连续性和细微变化,特别在码本较小时,可能引入量化误差,因此适合于需要快速生成和和一定程度可控性的应用
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。