生成模型之一——Auto Encoder

el mar H

于 2024-09-23 22:44:18 发布

阅读量972

点赞数 26

文章标签：人工智能机器学习

本文链接：https://blog.csdn.net/weixin_45582490/article/details/142470440

版权

一、引言

生成模型是机器学习领域的重要组成部分，通过学习输入数据的分布，它们能够生成与训练数据相似的新数据。自动编码器（Autoencoder, AE）是生成模型的一个基本类型，广泛应用于数据降维、特征提取以及生成式任务中。在本篇文章中，我们将深入探讨自动编码器的原理、数学公式、模型结构，并展示其在图像和时序数据生成中的应用。

二、自动编码器的原理

自动编码器是一种神经网络模型，旨在通过将输入数据压缩为低维表示（编码），再从该表示重构出原始数据（解码），来学习数据的有效表示形式。自动编码器通常由两个主要部分组成：

编码器（Encoder）：将输入数据映射到一个低维的潜在空间（Latent Space）。
解码器（Decoder）：从低维的潜在空间重构输入数据。
通过训练，使得解码器的输出尽可能接近原始输入数据，自动编码器能够学习到数据的内在结构。
模型结构与图示
自动编码器的结构通常由多层感知器（MLP）或卷积神经网络（CNN）实现，具体取决于输入数据的类型。例如，对于图像数据，通常使用卷积层进行编码和解码，以捕获空间特征。
以下是一个简单的自动编码器模型结构图示：
[Image]
自动编码器的数学公式
假设输入数据为 $\mathbf{x} \in \mathbb{R}^d$ ，编码器将其映射到潜在表示 $\mathbf{z} \in \mathbb{R}^m$ ，，解码器再将 $\mathbf{z}$ $映射回输入空间。编码器和解码器分别定义为函数 $f_\theta$ 和 $g_\phi$ ，其参数为 $\theta$ 和 $\phi$ ：

编码器： $\mathbf{z} = f_\theta(\mathbf{x})$
解码器： $\hat{\mathbf{x}} = g_\phi(\mathbf{z})$
模型的目标是最小化重构误差，即原始输入 $\mathbf{x}$ 和重构输出 $\hat{\mathbf{x}}$ 之间的差异。常用的损失函数是均方误差（MSE）：
$\mathcal{L}(\mathbf{x}, \hat{\mathbf{x}}) = \frac{1}{n} \sum_{i=1}^n \|\mathbf{x}_i - \hat{\mathbf{x}}_i\|^2$
通过优化该损失函数，我们能够训练出一个能够有效压缩和重构数据的自动编码器。

三、自动编码器的变体

3.1 稀疏自动编码器（Sparse Autoencoder）
稀疏自动编码器通过增加一种稀疏性约束，使得编码器在学习数据表示时更倾向于激活较少的神经元。稀疏性约束可以通过KL散度（Kullback-Leibler Divergence）实现，使得神经网络仅在处理特定特征时才激活，从而提高模型的鲁棒性和解释能力。
3.2 去噪自动编码器（Denoising Autoencoder）
去噪自动编码器通过在输入数据中添加噪声，并要求模型重构出无噪声的原始数据，来学习数据的稳健特征。它通过添加一个额外的噪声扰动层，迫使编码器学习更具代表性的特征，从而增强模型的泛化能力。
3.3 变分自动编码器（Variational Autoencoder, VAE）
变分自动编码器是一种生成模型，结合了概率图模型和自动编码器的思想。VAE通过将输入数据编码为概率分布（通常是高斯分布）的参数，而不是一个固定的潜在向量，从而能够生成新的数据样本。VAE的目标函数包括重构误差和KL散度两部分，使得模型不仅可以重构数据，还可以生成与训练数据分布相似的新数据。

四、代码实现

以下是一个简单的自动编码器实现，用于图像数据的降维和重构，使用Python和Keras框架：

构造模型

from tensorflow.keras.layers import Input, Dense
from tensorflow.keras.models import Model
import numpy as np

input_dim = 784  # 28x28     pixels for MNIST编码器
input_layer = Input(shape=(input_dim,))
## 编码器
encoder = Dense(128, activation='relu')(input_layer)
latent = Dense(32, activation='relu')(encoder)
## 解码器
decoder = Dense(128, activation='relu')(latent)
output_layer = Dense(input_dim, activation='sigmoid')(decoder)
## 自动编码器模型
autoencoder = Model(input_layer, output_layer)
autoencoder.compile(optimizer='adam', loss='mse')

数据准备以及模型训练
（1）使用x_train2x_train的训练方式

	## 加载MNIST数据集
	(x_train, _), (x_test, _) = keras.datasets.mnist.load_data()
	x_train = x_train.astype('float32') / 255.
	x_test = x_test.astype('float32') / 255.
	x_train = x_train.reshape((len(x_train), np.prod(x_train.shape[1:])))
	x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])))
	## 训练模型
	autoencoder.fit(x_train, x_train, epochs=50, batch_size=256, shuffle=True, validation_data=(x_test, x_test))

（2）使用noise2x_train的训练方式

	## 训练noise的随机初始化
	noise_train = tf.keras.backend.random_normal(shape=tf.shape(x_train))
	noise_test = tf.keras.backend.random_normal(shape=tf.shape(x_test))
	(x_train, _), (x_test, _) = keras.datasets.mnist.load_data()
	x_train = x_train.astype('float32') / 255.
	x_test = x_test.astype('float32') / 255.
	
	autoencoder.fit(
	    noise_train,
	    x_train,
	    epochs=50,
	    batch_size=256,
	    shuffle=True,
	    validation_data=(noise_test, x_test),
	)

模型参数保存及其测试

	## 保存模型
	save_dir = '<your folder>'
	os.makedirs(save_dir, exist_ok=True)
	autoencoder.save(f'{save_dir}/ae.keras')
	
	## 测试模型
	model = keras.models.load_model(f'{save_dir}/ae.keras')
	predict_output = model.predict(noise_test)
	print(predict_output)

应用实例：图像和时序数据的生成
图像数据的生成：自动编码器可以应用于图像降噪、图像修复等任务。例如，通过学习到的潜在表示，我们可以去除图像中的噪声，或将低分辨率图像还原为高分辨率图像。还可以用作数据的增强，在数据量不够大的情况下，使用AE等生成模型可以用来增强数据。下列代码是用来可视化使用noise数据生成mnist数据的示例：

```
	## 可视化 x_test 和 predict_output
	def plot_comparison(x_test, predict_output, num_examples=10):
	    plt.figure(figsize=(20, 4))
	    for i in range(num_examples):
	        # 展示原始图片
	        ax = plt.subplot(2, num_examples, i + 1)
	        plt.imshow(x_test[i].reshape(28, 28), cmap='gray')
	        plt.title('Original')
	        plt.axis('off')
	
	        # 展示预测输出图片
	        ax = plt.subplot(2, num_examples, i + 1 + num_examples)
	        plt.imshow(predict_output[i].reshape(28, 28), cmap='gray')
	        plt.title('Reconstructed')
	        plt.axis('off')
	    plt.show()
```

在这里插入图片描述