机器学习基础整理 (第八章) - 神经网络其他应用

本文深入探讨了自动编码器的各种类型，包括堆叠自编码器、欠完备/过完备自编码器、稀疏自编码器和除噪自编码器。这些模型在特征学习和数据降维方面起着关键作用。同时，文章还介绍了生成对抗网络(GANs)，强调其在密度估计和生成新样本的能力。GANs通过竞争性的训练过程，由生成器和判别器共同学习数据分布。此外，提到了其他GAN变种如条件GAN和InfoGAN，它们增强了模型的稳定性和应用范围。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

自动编码器 (Autoencoders)
生成对抗网络 (Generative Adversarial Network - GAN)
- GAN 训练
- 其他 GAN 架构

自动编码器 (Autoencoders)

从概念上讲，自动编码器是一个前馈网络 (feedforward network)，经过训练可以将其输入复制到其输出 (尽管不完美)
结构包含了隐藏层 $h$ ，描述表示输入的编码。
在这里插入图片描述
自动编码器一般结构: 输入 $x$ 通过内部表示或编码 (internal representation or code) $h$ 映射到输出 $r$ (重构)。

自动编码器拥有两部分: 能产生输入的表示编码 (representative code) 的编码函数 (encoder function) $h = f (x)$ ; 从编码生产出的重构的解码器函数 (decoder function) $r = g (h)$

自动编码器到随机映射 (stochastic mappings) 的泛化: $p_{encoder}(h | x)$ 以及 $p_{decoder}(x | h)$

典型的训练策略类似于前馈网络使用的策略 —— 小批量梯度下降 (minibatch gradient descent)

堆叠自编码器 (Stacked Autoencoder)

在这里插入图片描述
用于 MNIST 数据集的堆叠自动编码器 (stacked autoencoder) 示例: 784 ( $28 \times 28$ ) 个输入神经元; 300 个隐藏神经元 (hidden neurons) ; 150 个中央隐藏神经元 (central hidden neurons) ; 顶部是之前描述的镜像。

实用的自编码器是一个栈。
堆叠自编码器的架构通常关于中央隐藏层 (编码层) 对称。

欠完备/过完备自编码器 (Undercomplete/ Overcomplete autoencoders)

将 $h$ 限制为比 $x$ 更小的维度会导致欠完备自动编码器。 $h$ 捕获输入的最显着特征 (most salient features)。
学习需要最小化损失函数:
$L (x, g (f (x)))$
若 $g (f (x))$ 和 $x$ 不相似， $L$ 进行惩罚。

如果编码的维度大于输入的参数，我们就有过完备自动编码器。

通过使用正则化，我们可以训练任何自动编码器架构，而不会出现容量过剩 (over-capacity) 或学习简单代表 (learning a trivial identity) 的风险。

正则化可以将属性分配给损失函数:

数据表示的稀疏性。
小的数据表示的导数。
对噪声有健壮性。
对缺失数据有健壮性。

自动编码器和主成分分析

使用线性解码器 $g (h)$ 和均方误差损失 (mean squared error loss)，欠完备自动编码器学习与 PCA 相同的子空间。

使用非线性编码器和解码器 (分别为 $f (x)$ 和 $g (h)$ )，自动编码器可以学习更强大的 PCA 泛化。

稀疏自动编码器 (Sparse Autoencoders)

稀疏自动编码器具有用于在编码层 $h$ 上以重构误差 (reconstruction error) 和稀疏惩罚形式 (sparsity penalty) 进行训练的成本函数:
$\Omega(h)$
其中 $h$ 是编码器输出，如之前解释的， $h = f (x)$ 。

稀疏自编码器可用于学习可以输入其他任务的特征，例如分类 (半监督分类)。

稀疏自编码器可以解释为近似最大似然 (maximum likelihood) 训练的生成模型，该模型具有潜在变量 ( $h$ )

在这方面，其最大化:
$log_{p_{model}} (h, x) = log_{p_{model}}(h) + log_{p_{model}}(x|h)$
$log_{p_{model}}(h)$ 可以是稀疏诱导 (sparsity-inducing)

除噪自编码器 (Denosing Autoencoders)

除噪旨在减少信号中的噪声。

除噪自编码器最小化:
$g(f(\overline{x})))$
其中 $\overline{x}$ 是被某种噪声破坏的 $x$ 的副本。

训练流程使 $f$ 和 $g$ 隐式学习 $p_{data}(x)$ 的结构。

另一种正则化的形式 $\lambda \sum_i ||\nabla_x h_i||^2$ 使得学习一个在 $x$ 稍有微小变化时的函数。
$\lambda \sum_i ||\nabla_x h_i||^2$

在这里插入图片描述
上图表示堆叠卷积降噪自编码器 (stacked convolutional denoising autoencoder)。

在这里插入图片描述
上图表示堆叠卷积去噪自编码器和中值滤波器 (median filter) 输出的比较，其加入了高斯噪声: $μ = 0, σ = 1$

生成对抗网络 (Generative Adversarial Network - GAN)

GAN 要解决的核心问题是密度估计 (density estimation)，GAN 隐式地捕获数据背后的分布 (underlying data distribution)。

GAN 可以被用在非监督或监督学习场景上。

其特点是竞争式地训练两个网络:

有一个名为生成器 (generator $G$ ) 的网络，它试图从给定数据中学习的分布中生成样本，即模仿，伪造或合成数据。
第二个网络是判别器 (discriminator $D$ )，它能够区分合成样本 (synthetic samples) 和真实样本。

这个解决方案的目标是为了生成与真实信号没有区别的合成信号。

在这里插入图片描述
上图表示，训练 GAN 时学习了两个模型，一个是生成器 ( $G$ ) 另一个是判别器 ( $D$ )。这是使用神经网络实现的模型，但也可以使用任何可微分系统 (differentiable system)。

如上图，生成器不会接触到真实样本。

生成器网络 $G$ 将一些表示空间 (representation space/ latent space) 映射到数据样本空间：
$\to R^{|x|}$
其中 $\in R^{|x|}$ 是数据样本，而 $∣ . ∣$ 表示数据维度。

判别器网络 $D$ 将数据样本映射到样本来自真实数据分布而非生成器分布的概率:
$\to (0, 1)$
$p_{data}(x)$ 代表了数据样本的概率密度函数 (在 $R^{|x|}$ 中)，而 $p_g(x)$ 代表了生成器产生的样本分布。

在训练过程，我们将目标函数设置为对于生成器 $J_G(\Theta_G;\Theta_D)$ ，对于判别器 $J_D(\Theta_D;\Theta_G)$

注意到 $J_G$ 以及 $J_D$ 在网络参数上是相互依赖的 (co-dependent)， $\Theta_G$ 以及 $\Theta_D$ 作为网络被迭代训练。

在这里插入图片描述
上图表示在 GAN 的训练过程中，生成器被鼓励生成能匹配真实数据分布 $p_{data}(x)$ 的样本分布 $p_g(x)$ 。

GAN 训练

我们寻找判别器的参数，使其最大限度地提高分类精度，并找到一个最大限度能混淆判别器 (confuses the discriminator) 的生成器的参数。

使用价值函数 (value function) 评估训练成本，解以下的极小极大问题 (mini-max problem):
$max_Dmin_gV(g, D)$
其中 $V(g, D) = E_{p_{data(x)}}logD(x) + E_{p_{g(x)}}log(1 - D(x))$

当一个模型的参数是固定的，另一个模型的参数可以被更新。

最优的判别器是唯一的:
$D^*(x) = \frac{p_{data(x)}}{p_{data(x)}+p_{g(x)}}$

当以下条件满足，生成器是最优的:
$p_{g(x)} = p_{data(x)}$

在这里插入图片描述
上图表示 GAN 训练的循环，新的数据样本 $x_0$ 可以通过将随机样本 $z$ 通过生成器网络来抽取。在更新生成器之前，判别器的梯度可能会更新 $k$ 次。

其他 GAN 架构

初始 GAN 架构 使用全连接神经网络。其特点是难以训练，存在稳定性问题，其只在数据集的子集上成功。

深度卷积 GAN 提供了更高的稳定性。

条件GAN (Conditional GAN)，生成器和判别器网络都是类条件的 (class-conditional)。其可以为多模态数据生成 (multimodal data generation) 提供更好的表示。
在这里插入图片描述
InfoGAN 将噪声源分解为不可压缩源 (incompressible source) 和潜在编码 (latent code)，其尝试通过最大化潜在编码和生成器输出之间的互信息 (mutual information) 来发现潜在的变异因素 (latent factors of variation)。