多模态大模型(MLLM)：Modality Generator

最新推荐文章于 2025-06-03 15:46:28 发布

Python编程杰哥

最新推荐文章于 2025-06-03 15:46:28 发布

阅读量1k

点赞数 28

文章标签：分布式人工智能语言模型自然语言处理 github

本文链接：https://blog.csdn.net/xx_nm98/article/details/142499042

版权

【导读】模态生成器(Modality Generator, MG)是多模态大模型（MLLM）中的一个关键组件，负责生成各种模态的输出。常用的生成器类型包括：Text Generation、Generation via Diffusion Models、Generation via Codebooks。

MLLM经典架构，红框为Generator模块

一、Modality Generator介绍

Modality Generator（模态生成器）是多模态大型语言模型（MLLM）架构中的一个关键组件。它的主要任务是生成不同模态的输出。具体来说，Modality Generator是模型架构中的第五个组件，也是最后一个，它使用由Output Projector映射的信号作为条件输入，并基于这些信号生成相应的模态内容，如图像、视频或音频。

二、Modality Generator 类别

2.1 Text Generation

**Text Generation：**LLM 本身就天然支持直接生成文本，例如BPE decoding, Beam search。

2.2 Generation via Diffusion Models

Generation via Diffusion Models：Modality Generator 通过Diffusion Models可以实现其他模态的生成，具体方案包括以下几种技术或模型：

图像生成：如 Stable Diffusion 等潜在扩散模型（Latent Diffusion Models, LDMs）来生成图像。这些模型能够根据条件生成高质量、高分辨率的图像。
视频生成：如 Zeroscope，它是一个基于扩散模型的视频合成工具，能够生成连续的视频内容。
音频生成：如 AudioLDM，用于生成音频内容。包括音乐、语音或其他声音效果。

主流的 43 个多模态大模型中的Modality Generator技术如下：

在这里插入图片描述

NExT-GPT的Modality Generator的方案是：生成图像的Stable Diffusion、视频的Zeroscope、音频的AudioLDM。

在这里插入图片描述

NExT-GPT结构

2.3 Generation via Codebooks

Generation via Codebooks：在UNIFIED-IO 2模型中，介绍了如何使用码本（codebooks）来生成不同模态的内容，包括视觉（图像/视频）和音频。下面以Visual (Image/Video) Generator 为例，对这些生成方法的概述：

VQ-VAE + Codebooks:
VQ-VAE（Vector Quantized Variational AutoEncoder）是一种利用向量量化技术来压缩和生成图像的模型。在这种方法中，图像首先被编码成一系列的嵌入向量，然后这些向量被量化为码本中的离散表示。码本是一个预先训练好的、有限的向量集合，每个向量代表了视觉空间中的一个点。
通过选择最接近原始嵌入向量的码本向量，可以重建图像的一个近似版本。这种方法可以用于生成新的图像内容，通过混合和匹配码本中的不同向量来探索图像空间。
VQ-GAN + Codebooks:
VQ-GAN（Vector Quantized Generative Adversarial Network）结合了生成对抗网络（GAN）和VQ技术。在UNIFIED-IO 2模型中，VQ-GAN用于将图像转换成离散的码本索引，这些索引随后可以被用来生成新的图像。
码本在这个过程中起到了桥接连续图像表示和离散潜在空间的作用。通过这种方式，模型能够学习到图像的压缩表示，并且能够通过改变码本索引来生成多样化的图像。

这些生成方法使得模型能够处理和生成多种模态的数据，包括图像、视频和音频。通过码本的离散化表示，模型可以更有效地学习和生成复杂的数据结构，同时保持生成内容的多样性和质量。

在这里插入图片描述

Unified-IO 2 结构

三、总结

Text Generation：没啥可说的，主要就是应用在VQA、Caption 任务中，直接生成文本；
Generation via Diffusion Models：扩散模型能够生成高质量的连续数据，通常能够生成高分辨率和逼真的图像，但同时通常需要大量的计算资源且生成过程比较慢，更适合于需要生成高质量和高分辨率图像的任务
Generation via Codebooks： 通过使用离散的Codebooks(码本)索引，可以简化生成过程，减少计算复杂性，允许更直接的控制生成过程，因为可以通过修改码本中的向量来影响输出，但码本的大小是有限的，它可能无法捕捉到数据的连续性和细微变化，特别在码本较小时，可能引入量化误差，因此适合于需要快速生成和和一定程度可控性的应用

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述