人工智能/机器学习基础知识——自编码器（AutoEncoder，AE）

XaiverZ

于 2024-04-14 00:09:31 发布

阅读量472

点赞数 14

分类专栏：人工智能/机器学习基础知识文章标签：人工智能机器学习自编码器 AutoEncoder 深度学习

本文链接：https://blog.csdn.net/windgrin_/article/details/137686226

版权

人工智能/机器学习基础知识专栏收录该内容

31 篇文章 0 订阅

订阅专栏

Auto-Encoder（AutoEncoder AE）

自编码器

自编码器将数据映射到特征空间得到每个样本的编码，并希望这组编码可以重构出原来的样本
Encoder

编码器

$\mathbb{R}^{D} \rightarrow \mathbb{R}^{M}$
Decoder

解码器

$\mathbb{R}^{M} \rightarrow \mathbb{R}^{D}$
目标函数：最小化重构错误（Reconstruction Error）

$\begin{aligned} \mathcal{L} &=\sum_{n=1}^{N}\left\|\boldsymbol{x}^{(n)}-g\left(f\left(\boldsymbol{x}^{(n)}\right)\right)\right\|^{2} \\ &=\sum_{n=1}^{N}\left\|\boldsymbol{x}^{(n)}-f \circ g\left(\boldsymbol{x}^{(n)}\right)\right\|^{2} \end{aligned}$
One Simple Example

$z=f\left(\boldsymbol{W}^{(1)} \boldsymbol{x}+\boldsymbol{b}^{(1)}\right)$

$\boldsymbol{x}^{\prime}=f\left(\boldsymbol{W}^{(2)} z_{a}+\boldsymbol{b}^{(2)}\right)$

$\mathcal{L}=\sum_{n=1}^{N} \| \boldsymbol{x}^{(n)}-\boldsymbol{x}^{\prime(n)}\left\|^{2}+\lambda\right\| \boldsymbol{W} \|_{F}^{2}$
使用自编码器是为了得到有效的数据表示，因此在训练结束后，我们一般会去掉解码器，只保留编码器．编码器的输出可以直接作为后续机器学习模型的输入

Sparse Auto-Encoder

稀疏自编码器

编码向量 $z$ 的维度 $M$ 大于输入样本 $x$ 的维度 $D$ ，且 $z$ 尽可能稀疏
稀疏性度量函数
- $L_0$ 范数
  
  $\rho(z)=\sum_{m=1}^{M} \mathbf{I}\left(\left|z_{m}\right|>0\right)$
- $L_1$ 范数
  
  $\rho(\boldsymbol{z})=\sum_{m=1}^{M}\left|z_{m}\right|$
- 对数函数
  
  $\rho(z)=\sum_{m=1}^{M} \log \left(1+z_{m}^{2}\right)$
- 指数函数
  
  $\rho(\boldsymbol{z})=\sum_{m=1}^{M}-\exp \left(-z_{m}^{2}\right)$
目标函数

$\mathcal{L}=\sum_{n=1}^{N} \| \boldsymbol{x}^{(n)}-\boldsymbol{x}^{\prime(n)}\left\|^{2}+\eta \rho(\boldsymbol{Z})+\lambda\right\| \boldsymbol{W} \|^{2}$
$\boldsymbol{Z}=\left[\boldsymbol{z}^{(1)}, \cdots, \boldsymbol{z}^{(N)}\right]$ 表示所有训练样本的编码， $\rho(\boldsymbol{Z})$ 为稀疏性度量函数
- 这里的稀疏性度量函数还可以定义为一组训练样本中每一个神经元激活的概率。给定 $N$ 个训练样本，隐藏层第 $j$ 个神经元平均活性值为
  
  $\hat{\rho}_{j}=\frac{1}{N} \sum_{n=1}^{N} z_{j}^{(n)}$
  $\hat{\rho}_{j}$ 可以近似看作第 $j$ 个神经元激活的概率
- 我们希望 $\hat{\rho}_{j}$ 接近于一个事先给定的值 $\rho^{*}$ ，例如 $0.05$ ，可以通过KL散度来衡量两者的差异
  
  $\mathrm{KL}\left(\rho^{*} \| \hat{\rho}_{j}\right)=\rho^{*} \log \frac{\rho^{*}}{\hat{\rho}_{j}}+\left(1-\rho^{*}\right) \log \frac{1-\rho^{*}}{1-\hat{\rho}_{j}}$
- 故稀疏性度量函数可定义为
  
  $\rho(\boldsymbol{Z})=\sum_{j=1}^{p} \operatorname{KL}\left(\rho^{*} \| \hat{\rho}_{j}\right)$