AI技术解读 | 从GPT到Stable Diffusion，一文搞懂自回归与扩散模型的底层逻辑

原创已于 2025-03-17 14:24:45 修改

· 1.9k 阅读

25 ·

版权

文章标签：

#python #人工智能

于 2025-03-17 12:24:40 首次发布

人工智能同时被 2 个专栏收录

7 篇文章

订阅专栏

AI技术解读

3 篇文章

订阅专栏

往期文章：

cursor免费使用方法交流：
cursor免费使用方法交流

欢迎大家关注

自回归模型与扩散模型详解

近年来，人工智能生成内容（AIGC，Artificial Intelligence Generated Content）快速发展，其中“大模型”尤其是语言模型（如GPT-4、Gemini）以及文生图模型（如Stable Diffusion、DALL-E 3）表现尤为突出。大模型主要分为两大类技术路线：
自回归模型（Autoregressive Models）：多应用于文本生成，例如GPT系列。
扩散模型（Diffusion Models）：多应用于图像生成，例如Stable Diffusion。

本文将详细介绍这两种模型的基本概念、经典方法、数学原理、训练与推理过程，并对比分析二者。内容兼顾科普和专业性。

一、自回归模型

基本概念

科普理解
自回归的核心思想是“根据已有内容一步一步预测后续内容”，类似于我们人类写作文，一字一句逐步写出后面的内容。通俗来说，每个新单词（或者token）都依赖于之前生成的单词。

自回归模型最初用于统计学和时间序列分析，表示当前值取决于之前若干时刻值的线性组合。

AR( $p$ )模型定义为：

$X_t = c + \sum_{i=1}^{p} \varphi_i X_{t-i} + \varepsilon_t$

其中， $X_t$ 为时刻 $t$ 值， $c$ 为常数项， $\varphi_i$ 为系数， $\varepsilon_t$ 为随机误差。

自回归模型示意图

深度学习中的自回归模型

以自然语言处理中的语言模型为例，自回归语言模型定义如下：

$p(x_1, x_2, \dots, x_L) = p(x_1)\cdot p(x_2 \mid x_1)\cdots p(x_L \mid x_1,\dots,x_{L-1})$

代表模型如 GPT 系列，采用 Transformer 解码器架构。

Transformer结构示意图

技术原理与结构分析

以 GPT-4 为代表的 Transformer 自回归语言模型核心机制如下：

输入预处理：将输入文本转为 token 序列，通过 embedding 映射成向量形式。
Transformer 结构：由多层“自注意力机制”构成。

自注意力机制公式定义为：

$\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

其中：

$Q$ （query）：当前待处理 token 的查询向量
$K$ （key）：上下文 token 的键向量
$V$ （value）：上下文 token 的值向量
$d_k$ ：K的维度，防止内积过大

优化目标为最大化每个位置 token 预测的对数概率：

$-\sum_{t}\log P(x_t \mid x_{<t})$

优点：
- 训练稳定、生成效果连贯、文本逻辑性强。
缺点：
- 并行生成速度慢，容易陷入重复生成，难以生成全局连贯的长文本。

训练与推理过程

训练阶段：
- 损失函数为所有位置预测的交叉熵之和。
推理阶段：
- 给定初始输入逐步预测下一项，直至生成完整输出。

二、扩散模型

基本概念

科普理解
扩散模型灵感源于热力学中的“扩散”过程：初始图像被逐渐加入随机“噪声”，图像逐渐变成纯粹的随机噪声（正向扩散过程）。扩散模型学习的就是如何“反向”去噪，从随机噪声一步步重构出清晰图像。

扩散模型原理图

经典扩散模型

DDPM模型前向扩散过程：

$q(x_t|x_{t-1})=\mathcal{N}(x_t;\sqrt{1-\beta_t} x_{t-1},\beta_t I)$

一步扩展表示为：

$x_t=\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} z$

损失函数为预测添加的噪声 $\varepsilon$ 的均方误差。

文生图如何实现？

在文生图任务中，扩散模型通常采用以下方式实现：

使用文本编码模型（如 CLIP 模型）将输入文本转化为嵌入（embedding）向量；
将文本嵌入向量作为条件（输入）提供给 U-Net 去噪网络；
U-Net 网络逐步去噪，从随机噪声中生成最终的清晰图像。

代表模型包括 DALL·E 2、Stable Diffusion、Imagen 等。

优点：
- 生成图像质量高、细节丰富、条件控制灵活。
缺点：
- 生成速度较慢，需要较多的采样步骤，计算成本较高。

DALL·E 2

训练与推理

训练阶段：随机抽取 $t$ 步添加噪声，模型预测原始图像或噪声。
推理阶段：从纯噪声开始，逐步去噪直至生成清晰数据。

三、自回归模型 vs 扩散模型对比

特性	自回归模型	扩散模型
生成模式	顺序生成逐步预测	从整体随机噪声逐步精细化迭代
优势	简单、训练稳定、概率解释明确	生成质量高、多样性强、条件控制灵活
劣势	生成速度慢、难以全局优化、曝光偏差	计算代价高、实现复杂、内存占用大
适用场景	文本生成、时间序列预测、对话系统	图像、音频、视频生成及修复任务