【扩散模型思考记录（一）】图像生成的本质是什么？什么是适合采样的复杂分布？

最新推荐文章于 2024-10-07 23:32:36 发布

多恩Stone

最新推荐文章于 2024-10-07 23:32:36 发布

阅读量511

点赞数 11

分类专栏： AIGC Diffusion 科研文章标签：计算机视觉人工智能 stable diffusion pytorch python

本文链接：https://blog.csdn.net/weixin_44212848/article/details/140824483

版权

66 篇文章 7 订阅

订阅专栏

35 篇文章 0 订阅

订阅专栏

32 篇文章 1 订阅

订阅专栏

图像生成，其实就是让神经网络模型学习一个图像数据集所表示的分布，之后从分布里随机采样或条件采样¹。

图像生成技术的核心在于训练神经网络模型，使其能够学习和表示图像数据集的分布，然后从这个分布中采样生成新的图像。然而，表示和采样复杂分布存在一些挑战。

高维度问题：
- 图像数据通常是高维度的。即使是一张小图片，也可能包含成千上万的像素，每个像素都有多个通道（如 RGB 三个通道）。这导致图像数据的分布在高维空间中非常复杂。
  - RGBA 带透明图层的图像甚至还有 Alpha 通道，即 4 个通道。
- 高维空间中的分布既很难直观理解，也很难用简单的数学模型准确描述。
复杂的多模态分布：
- 图像数据集通常具有多模态分布，即包含许多不同类别、风格、场景等的文本标签。这些不同模态之间可能存在很大的差异，使得整体分布非常复杂。
- 模型需要同时捕捉所有这些模式及其变异性，这进一步增加了表示和采样的难度。
数据稀疏性：
- 在高维空间中，数据点相对于整个空间来说是非常稀疏的。模型需要在没有直接数据支持的区域进行推断，这要求模型具备很强的泛化能力。
不可知的真实分布：
- 图像数据的真实分布往往是未知的，无法直接使用。因此，模型必须通过样本数据来估计和近似这个分布。
- 这种近似通常依赖于复杂且高度非线性的模型（如深度神经网络），这些模型的训练和优化本身就是一个具有挑战性的任务。

适合采样的复杂分布指的是一种能够真实且高效地生成新样本的分布。具体来说，有以下几个特征：

高保真度：
- 生成的样本应与真实数据集中的样本相似度高，能够保留数据集的各种重要特征和模式。
高多样性：
- 生成的样本应具有足够的多样性，能够涵盖数据集中的不同模式和变异性，而不是仅生成几种重复的样本。
平滑性：
- 分布应当是平滑的，即在高维空间中没有过多的奇异点或异常值。这样的分布有助于模型在未见过的数据点上进行合理的插值和外推。
可采样性：
- 分布应该是容易采样的。即我们能够设计有效的算法，从这个分布中高效地生成样本。
- 例如，某些生成模型（如变分自编码器和生成对抗网络）通过引入隐变量空间，使得复杂分布的采样问题简化为从标准分布（如高斯分布）中采样，再通过神经网络映射到数据空间，从而实现复杂分布的采样。