花书学习--深度前馈网络

最新推荐文章于 2022-10-01 20:00:07 发布

降措

最新推荐文章于 2022-10-01 20:00:07 发布

阅读量234

点赞数

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/wx19950526/article/details/90579235

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这篇博客详细介绍了深度前馈网络，包括其在学习XOR问题中的应用，基于梯度的学习方法，特别是代价函数的选择和输出单元的类型。讨论了深度网络中的隐藏单元，如整流线性单元及其扩展，并探讨了网络架构设计和深度网络的万能近似性质。

摘要由CSDN通过智能技术生成

6. 深度前馈网络

6.0 序言

前馈网络

目标：近似某个函数 $f^{*}$
组成模块：输入层、隐藏层、输出层
模型输出和模型本身之间没有反馈连接

产生背景
传统的线性模型如逻辑回归、线性回归的表达能力有限。为了扩展线性模型来表示 $x$ 的非线性函数，我们可以不把线性函数直接作用在 $x$ 本身，而是作用到 $x$ 的非线性函数 $\phi(x)$ 上。我们可以认为 $\phi$ 代表了 $x$ 的一系列特征。为了找到映射 $\phi$ ，有三种方式：

选择一个通用的 $\phi$ ，如无线维的 $\phi$ ，它隐含地用在基于RBF核的核机器上。如果 $\phi(x)$ 具有足够高的维度，训练集容易拟合，但是测试集泛化不太容易。
手动设计 $\phi$ 。寻找困难，不容易迁移。
主动学习 $\phi$ (深度学习要干的事情)。放弃训练问题的凸性。

深度学习要干的事情
首先我们定义一个模型 $y=f(x;\theta, \omega)=\phi(x)^T\omega$ 。在这个模型中，我们有两种参数需要学习。一种是 $\phi$ ，相当于一个隐藏层；另一种是 $\phi$ ，用于控制模型输出。

6.1 实例：学习XOR

样本空间： ${(0,0|0),(0,1|1),(1,0|1),(1,1|0)\}$
目标函数： $f^*(0,0)=0,f^*(0,1)=1,f^*(1,0)=1,f^*(1,1)=0$
模型函数： $f(x;\theta)$ ，通过不断学习 $\theta$ 来靠近 $f^*$
在学习中我们能够确定整个样本空间，因此神经网络的目的是拟合训练集，不用考虑过拟合的问题。
评价指标：使用 $M S E$ 。 $J(\theta)=\frac{1}{4}\sum_{x \in X}(f^*(x)-f(x;\theta))^2$

现在我们必须选择模型 $f(x;\theta)$ 的形式。如果选用线性模型，无法拟合样本空间。因此需要选用一个非线性模型。如： $R E L U$ 。 $R E L U$ 是具有两个线性部分的分段函数，它保留了线性模型易于使用梯度进行优化的属性(求导简单)。

6.2 基于梯度的学习

目前我们看到的线性模型和神经网络的最大区别是神经网络的非线性导致大多数我们感兴趣的代价函数都变得非凸。
凸优化可以保证全局收敛，无论初始值在哪里，算法最后总会收敛；用于解决非凸问题的随机梯度下降无法保证算法全局收敛，而且对初始值十分敏感。

6.2.1 代价函数

参数模型定义了一个分布 $p(y|x;\theta)$
使用参数模型和训练数据之间的交叉熵(负对数似然)作为代价函数
$J(\theta)=-E_{x,y_\sim p_{data}}log p_{model}(y|x)$
学习条件统计量
例如：我们可能有一个预测期 $f(x;\theta)$ ，用它来预测 $y$ 的均值。我们可以把代价函数看成一个泛函，而不仅仅是选择一组函数。可以设计代价泛函在我们想要的某些特殊函数处取得最小值。问题的求解需要用到变分法，下面是两个结果：

第一个结果是解优化问题：
$f^* = argmin_fE_{x,y \sim p_{data}}||y-f(x)||^2$
得到
$f^*(x)=E_{x,y \sim p_{data}(y|x)}[y]$
如果我们能够用无穷多的、来源于真实的数据生成分布的样本进行训练，最小化均方误差代价函数将得到一个函数，对于每一个 $x$ 预测出 $y$ 的均值。

第二个结果：
$f^*=argmin_f E_{x,y \sim p_{data}}||y-f(x)||_1$
对于每一个 $x$ 预测出 $y$ 的中位数。这个代价函数通常称为平均绝对误差。
一些饱和的输出单元结合这些代价函数时会产生非常小的梯度，使得交叉熵误差更加受到欢迎。

$l o g$ 函数不会产生过小的梯度，二次函数在最小值附近梯度会变得非常小，学习过程很缓慢。

6.2.2 输出单元

用于高斯输出分布的线性单元
给定特征 $h$ ，线性输出单元层产生一个向量 $\hat{y}=W^Th+b$ 。

关于正态分布的资料: https://zhuanlan.zhihu.com/p/26504917

线性输出层常用来产生条件高斯分布的均值：
$p(y|x)=N(y;\hat{y},I)$
最大化其对数似然等价于最小化均方误差。

用于Bernoulli分布的sigmoid单元
给定特征 $h$ ，sigmoid输出单元为 $\hat{y}=\sigma(w^Th+b)$ ，其中令 $z=w^Th+b$ 。
假定非归一化的对数概率对 $y$ 和 $z$ 是线性的，则：
$log\hat{P(y)}=yz$ ， $\hat{P(y)}=exp(yz)$ ， $P(y)=\frac{exp(yz)}{\sum_{y'=0}^{1}exp{(y'z)}}$ ， $P(y)=\sigma((2y-1)z)$ 。 $z$ 被称为分对数( $l o g i t$ )。
这种在对数空间里预测概率的方法可以很自然地使用最大似然学习。因为最大似然函数的代价函数是 $- l o g P (y ∣ x)$ ，代价函数中的 $l o g$ 抵消了 $s i g m o i d$ 里面的 $e x p$ 。如果没有这个效果，sigmoid的饱和性会阻止基于梯度的学习做出更好地改进。
输出为sigmoid时，损失函数变为：
$J(\theta)=-logP(y|x)=-log\sigma((2y-1)z)$
$y = 1$ 时， $J(\theta)=-log\sigma(z)=log(1+exp(-z))$
$y = 0$ 时， $J(\theta)=-log\sigma(-z)=log(1+exp(z))$
当 $y$ 取0时， $z$ 取值应该趋向于小于0，当 $z > 0$ 时， $J'(\theta)=\frac{exp(z)}{1+exp(z)}>0$ ，梯度下降算法会使 $z$ 值减小，将 $z$ 拉回正确的方向。尤其当 $∣ z ∣$ 趋向于无穷大时， $J'(\theta)=sign(z)$ ，此时梯度绝对值最大，完全不会收缩。 $M S E$ 在这种情况下就会发生饱和。
例如：当 $y = 1$ 时， $MSE=(1-\frac{1}{1+exp(-z)})^2$ ， $MSE'=-2\frac{exp(z)}{(exp(z)+1)^3}$ ， $∣ z ∣$ 趋向于无穷大时， $M S E^{'} = 0$ ，此时代价函数饱和，模型很难训练。
用于Multinoulli输出分布的softmax单元
softmax最常用作分类器的输出，来表示 $n$ 个不同类上的概率分布。比较少见的是，softmax可以在函数内部使用。
在二分类情况下，我们希望计算一个单独的数 $\hat{y}=P(y=1|x)$ ，因为这个数需要在0和1之间，并且我们想要让这个数的对数可以很好地用于对数似然的基于梯度的优化，因而我们选择去预测另外一个数 $z=log\hat{P}(y=1|x)$ 。对其指数化和归一化，就得到了一个由sigmoid函数控制的Bernoulli分布。
现在对其推广，我们假设现在 $z$ 是一个向量且 $z=W^Th+b$ ，其中 $z_i=log\hat{P}(y=i|x)$ 。softmax可以对 $z$ 指数化和归一化获取 $\hat{y}$ 。最终 $s o f t m a x$ 的形式为
$softmax(z)_i=\frac{exp(z_i)}{\sum_iexp(z_j)}$

$softmax(z)_i=z_i-log\sum_jexp(z_j)$ 。对于第一项输入 $z_i$ 对代价函数有直接贡献，因为这一项不会饱和，所以即使 $z_i$ 对第二项贡献很小，学习仍然可以进行。对于第二项可以近似为 $max_j z_j$ ，我们能从这种近似得到的直觉是，负对数似然代价函数总是强烈地惩罚最活跃的不正确预测。
像sigmoid函数一样，softmax函数也会饱和。当softmax函数饱和时许多基于softmax的代价函数也会饱和，除非它们能够转化饱和的激活函数。

softmax满足性质 $softmax(\mathbf{z})=softmax(\mathbf{z}+c)$ ，使用这个性质，我们可以得到softmax的数值稳定的一个变体：
$softmax(\mathbf{z})=softmax(\mathbf{z}-max_{i}z_i)$

当z等于一个常数c时，c是很大的正数时容易出现上溢，c是很小的负数时，容易出现下溢
上溢：当大量级的数被近似为 $\infty$ 或 $-\infty$ 时发生上溢
下溢：当接近0的数被四舍五入为0时发生下溢

其他输出类型
之前描述的线性、sigmoid和softmax输出单元是最常见的。神经网络可以推广到我们希望的几乎任何种类的输出层。最大似然原则给如何为几乎任何种类的输出层设计一个好的代价函数提供了指导。
一般而言，如果我们定义了一个条件分布 $p(y|x;\theta)$ ，最大似然原则建议我们使用 $-logp(y|x;\theta)$ 作为代价函数。

6.3 隐藏单元

大多数隐藏单元都可以描述为接受输入向量 $\mathbf{x}$ ，经过一个仿射变换 $\mathbf{z}=\mathbf{W}^T\mathbf{x}+\mathbf{b}$ ，然后使用一个逐元素的非线性函数 $g(\mathbf{z})$ 。大多数隐藏单元仅仅只是在 $g(\mathbf{z})$ 上有区别。

6.3.1 整流线性单元及其扩展

激活函数 $g(z)=max\{0,z\}$ 。可以在初始化时将 $\mathbf{b}$ 设置成一个小的正值，这使得整流线性单元很可能初始时就对大多数输入呈现激活状态，并允许导数通过。
整流线性单元一个缺陷是它们不能通过基于梯度的方法学习那些使它们激活为零的样本。因此产生了若干扩展。
整流线性单元的三个扩展基于当 $z_i<0$ 时使用一个非零的斜率 $\alpha_i$ ： $h_i=g(z,\mathbf{\alpha})_i=max(0,z_i)+\alpha_imin(0,z_i)$ 。

绝对值整流
固定 $\alpha_i=1$ 来得到 $g (z) = ∣ z ∣$ 。它用于图像中的对象识别，其中寻找在输入照明极性反转下不变的特征是有意义的。其它两个应用更加广泛。
渗漏整流线性单元(Leaky RELU)
将 $\alpha_i$ 固定成一个类似0.01的小值。
参数化整流线性单元(PReLU)
将 $\alpha_i$ 作为一个学习的参数。

$\mathbf{maxout}$ 单元将 $\mathbf{z}$ 划分为每组具有k个值得组，而不是使用作用于每个元素的函数 $g (z)$ ，每个 $m a x o u t$ 单元输出每组的最大元素:
$g(z)_i=max_{j \in G^{(i)}}z_j$
这里 $G^{(i)}$ 是组 $i$ 的输入索引集 ${(i-1)k,...,ik\}$ 。这提供了一种方法来学习对输入 $x$ 空间中多个方向响应的分段函数。
$m a x o u t$ 可以学习多达k段的分段线性凸函数。maxout单元因此可以视为学习激活函数本身。使用足够大的k，maxout单元可以以任意的精确度来近似任何凸函数。
每个maxout单元现在由k个权重向量来参数化，而不是一个，所以maxout单元通常比整流线性单元需要更多的正则化。如果训练集合很大且每个单元的块数保持很低的话，它们可以在没有正则化的情况下工作的不错。

6.3.2 `sigmoid`函数和`tanh`函数

sigmoid函数 $g(z)=\sigma(z)$
tanh函数 $g(z)=2\sigma(2z)-1$

sigmoid函数在定义域的大部分区域都饱和，使得训练十分的困难。当要使用sigmoid函数时，tanh是一个更好的选择。 $t a n h (0) = 0$ ，而且tanh在0处导数为1，使得在网络的激活很小时，训练深层神经网络 $\hat{y}=\mathbf{w}^Ttanh(\mathbf{U}^Ttanh(\mathbf{V}^T\mathbf{x}))$ 类似于训练一个线性模型 $\hat{y}=\mathbf{w}^T\mathbf{U}^T\mathbf{V}^T\mathbf{x}$ 。
sigmoid激活函数在除了前馈网络以外的场景中更为常见。循环网络、许多概率模型以及一些自编码器有一些额外的要求使得它们不能使用分段线性激活函数，并且使得sigmoid单元更具有吸引力，尽管它存在饱和性问题。

6.3.3 其他隐藏单元

径向基函数(RBF)
$h_i=exp(-\frac{1}{\sigma_i^2}||\mathbf{W}_{:,i}-x||^2)$
这个函数在 $x$ 接近模板 $\mathbf{W}_{:,i}$ 时更加活跃。因为它对大部分 $x$ 都饱和为0，因此很难进行优化。

softplus函数
$g(a)=log(1+e^a)$ 。这是整流线性单元的平滑版本。通常不鼓励使用这个函数。
硬双曲正切函数
它的形状和tanh以及整流线性单元类似，但是不同于后者，它是有界的， $g (a) = m a x (- 1, m i n (1, a))$ 。
隐藏单元的设计仍然是一个活跃的研究领域，许多有用的隐藏单元类型仍有待发现。

6.4 架构设计

大多数神经网络被组织成称为层的单元组。大多数神经网络架构将这些层布置成链式结构，其中每一层都是前一层的函数。在这种结构中，第一层由下面给出：

$h^{(1)}=g^{(1)}(W^{(1)T}x+b^{(1)})$
第二层由
$h^{(2)}=g^{(2)}(W^{(2)T}h^{(1)}+b^{(2)})$
给出，以此类推。
在这些链式架构中，主要的架构考虑是选择网络的深度和每一层的宽度。我们将会看到，即使只有一个隐藏层的网络也足够适应训练集。更深层的网络通畅能够对每一层使用更少的单元数和更少的参数，并且经常容易泛化到测试集，但是通常也难以进行优化。理想的网络架构必须通过实验，观测在验证集上的误差来找到。

6.4.1万能近似性质和深度

万能近似定理表明，一个前馈神经网络如果具有线性输出层和至少一层具有任何一种“挤压”性质的激活函数的隐藏层，只要给与网络足够数量的隐藏单元，它可以以任意的精度来近似任何从一个有限维空间到另一个有限维空间的Borel可测函数。前馈网络的导数也可以任意好地近似函数的导数。