自编码器

最新推荐文章于 2024-07-28 16:03:13 发布

「已注销」

最新推荐文章于 2024-07-28 16:03:13 发布

阅读量688

点赞数 1

分类专栏：神经网络与深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/xu_ampl/article/details/95723735

版权

自编码器是一种无监督学习的神经网络，用于数据维度压缩和特征表达。包括基本形式、降噪自编码器、稀疏自编码器和栈式自编码器等变种。降噪自编码器通过引入噪声增强模型鲁棒性，稀疏自编码器通过正则化项实现中间层的稀疏表示，栈式自编码器通过多层堆叠提升特征学习能力。

摘要由CSDN通过智能技术生成

自编码器是一种基于无监督学习的数据维度压缩和特征表达方法。多层自编码器能够更好地进行压缩及特征表达。本部分介绍自编码器及其变种，如降噪自编码器、稀疏自编码器，以及由多层自编码器组成的栈式自编码器.

自编码器
自编码器 $(\text{autoencoder})$ 是一种有效的数据维度压缩算法，主要应用在以下两个方面

构建一种能够重构输入样本并进行特征表达的神经网络
训练多层神经网络时，通过自编码器训练样本得到参数初始值

第一条中的特征表达是指对于分类会发生变动的不稳定模式，例如手写字符识别中由于不同人的书写习惯和风格的不同造成字符模式不稳定，或者输入样本中包含噪声等情况，神经网络也能将其转换成可以准确识别的特征。当样本中包含噪声时，如果神经网络能够消除噪声，则被称为降噪自编码器 $(\text{denosing autoencoder})$ 的网络，它在自编码器中引入了正则化项，以去除冗余信息。
第二条中的得到参数初始值是指在多层神经网络中得到最优参数。一个多层神经网络的训练，首先要利用随机数初始化训练样本的参数，然后通过训练样本得到最优参数。但是，如果是层数较多的神经网络，即使使用误差反向传播算法也很难把误差梯度有效反馈到底层，这样就会导致神经网络训练困难。所以，需要使用自编码器计算每层的参数，并将其作为神经网络的参数初始值逐层训练，以便得到更加完善的神经网络模型。首先，我们来看一下自编码器

自编码器的基本形式如上图所示，和受限玻尔兹曼机一样，都是两层结构，由输入层和输出层组成。图中的输入数据 $\boldsymbol x$ 与对应的连接权重 $\boldsymbol W$ 相乘，再加上偏置 $\boldsymbol b$ ,并经过激活函数 $\boldsymbol{f(\cdot)}$ 变换后，就可以得到输出 $\boldsymbol y$ ，如下所示。 $\boldsymbol{y=f(W x+b)} \qquad(1)$ 自编码器是一种基于无监督学习的神经网络，目的在于通过不断调整参数，重构经过维度压缩的输入样本。现在我们来看一种能够重构输入样本的三层神经网络。

我们把输入层到中间层之间的映射称为编码，把中间层到输出层之间的映射称为解码。编码和解码的过程如图所示，先通过编码得到压缩后的向量，再通过解码进行重构。

中间层和重构层之间的连接权重及偏置分别记作 $\boldsymbol{\widetilde{W}}$ 和 $\boldsymbol{\widetilde{b}}$ ，重构值（解码结果）记作 $\widetilde{\boldsymbol{x}}$ $\boldsymbol{\tilde{x}=\widetilde{f}(\widetilde{W} y+\tilde{b})} \qquad(2)$

这里， $\boldsymbol{f(\cdot)}$ 表示编码器的激活函数， $\boldsymbol{\widetilde{f}(\cdot)}$ 表示解码器的激活函数。
根据公式 $(1)$ 和公式 $(2)$ 可以得到重构层的 $\widetilde{\boldsymbol{x}}$ $\boldsymbol{\tilde{x}=\widetilde{f}(\widetilde{W} f(W x+b)+\tilde{b})} \qquad(3)$
自编码器的训练就是确定编码器和解码器的参数 $\boldsymbol{W, \widetilde{W}, b, \tilde{b}}$ 的过程。首先，使用公式 $(3)$ 计算输入样本 $\boldsymbol{x}$ 的重构值 $\widetilde{\boldsymbol{x}}$ ，然后使用误差反向传播算法调整参数值，不断迭代上述过程直至误差函数收敛于极小值。误差函数 $E$ 可以使用公式 $(4)$ 中的最小二乘误差函数或公式 $(5)$ 中的交叉熵代价函数。 $E=\sum_{n=1}^{N}\left\|x_{n}-\widetilde{x_{n}}\right\|^{2} \qquad(4)$