Ch6 深度前馈神经网络

最新推荐文章于 2024-07-24 18:14:54 发布

老婆叫苏苏

最新推荐文章于 2024-07-24 18:14:54 发布

阅读量2.2k

点赞数

分类专栏：花书文章标签：神经网络机器学习深度学习

本文链接：https://blog.csdn.net/weixin_44119239/article/details/121900821

版权

花书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Ch6 深度前馈神经网络

深度前馈神经网络，也叫多层感知机，（以下以MLP指代深度前馈神经网络）目标是近似某个函数 $f^*$ .

⭐️ 基本概念

网络深度(depth)
输出层(output layer)
隐藏层(hidden layer)
宽度(width)

从线性模型理解MLP

线性模型的缺陷：模型的能力被局限在线性线性函数里，无法理解任何两个输出变量之间的相互作用。

为了扩展线性模型成为非线性，可以将线性模型作用在一个变换后的输出 $\phi(x)$ , $\phi$ 为非线性变换。在这里可以认为 $\phi$ 提供了一组描述 $x$ 的特征。

剩下的问题就是如何选择映射 $\phi$

选择一个通用的 $\phi$ . 非常通用的特征映射通常只基于局部光滑的原则，并且没有将足够的先验信息进行编码来解决高级问题。
手动设计 $\phi$ 。 传统的手工设计特征提取过程。
深度学习策略：学习 $\phi$ 。类似于卷积网络学习backbone。将学习到的表示参数化为 $\phi(x;\theta)$ ，并且使用优化算法来寻找 $\theta$ 。

训练一个MLP需要的设计决策

选择优化模型
选择代价函数
选择输出单元的形式

6.1 实例：学习XOR

这章内容比较简单，大致理解一下如何使用带ReLU的线性模型解决异或问题

6.2 基于梯度的学习

构建一个机器学习算法：指定优化过程、代价函数和一个模型族。

神经网络的非线性导致大部分的代价函数变得非凸，因此神经网络的训练通常使用迭代的、基于梯度的优化。使用非凸损失函数的随机梯度下降没有收敛性的保证，并且对参数的初始值很敏感。

6.2.1 代价函数

📑 总结：通常采用模型输出与训练数据之间的交叉熵损失

神经网络设计中的一个重要方面就是代价函数的选择。

大多数情况下，参数模型定义了一个分布 $p(\bf y|\bf x;\bf \theta)$ 并且使用最大似然原理，即使用训练数据和模型预测之间的交叉熵作为代价函数。

训练神经网络的完整代价函数通常要加上一个正则化项，用于线性模型的权重衰减的方法也直接适用于深度神经网络。

6.2.1.1 使用最大似然学习条件分布

大多数神经网络使用最大似然训练，它与训练数据和模型分布间的交叉熵等价，代价函数表示为：
$J(\theta)=-\mathbb{E}_{\mathrm{x}, \mathrm{y} \sim \hat{p}_{\mathrm{data}}} \log p_{\text {model }}(y \mid x)$
代价函数的具体形式随着 $log p_{model}$ 的具体形式改变，若 $p_{model}(y|x) = \mathcal N(y;f(x;\theta),I)$ ，那我们就会得到均方误差的代价函数：
$J(\theta)=\frac{1}{2} \mathbb{E}_{\mathrm{x}, \mathrm{y} \sim \hat{p}_{\text {data }}}\|y-f(x ; \theta)\|^{2}+\mathrm{const}$
代价函数的梯度必须足够带和具有足够的预测性，负对数似然代价函数中的对数函数消除了某些输出单元的指数效果，避免了激活函数饱和的问题(softmax中的指数项容易饱和).

用于实现最大似然估计的交叉熵损失，被用于实践当中时通常没有最小值。(log 函数没有最小值，趋向于负无穷)

6.2.1.2 学习条件统计量

模型不学习一个完整的概率分布 $p(y|x;\theta)$ ，仅学习在给定 $x$ 时 $y$ 的某个条件统计量。

😢 这部分看不太明白，感觉也不是很重要，摘录几句比较重要的话

可以将代价函数看作是一个泛函，即将神经网络的学习过程看作是选择一个函数。

均方误差和平均绝对误差在使用基于梯度优化的方法时效果往往不好，因为一些饱和的输出单元使用这些代价函数的时候会产生非常小的梯度。

🙉 ReLU应该是解决这个问题了？

6.2.2 输出单元

📑 总结一下就是：二分类使用sigmoid函数、多分类使用softmax函数（损失函数采用最大似然损失）

代价函数的选择与输出单元的选择紧密相关，大多数我们使用数据分布和模型分布之间的交叉熵。输出单元的形式决定了交叉熵函数的形式。

本节假设前馈网络提供了 $h=f(x;\theta)$ 作为隐藏特征，输出层即对这些隐藏特征进行一些额外的变换。

🔖 6.2.2.1 用于高斯输出分布的线性单元

给定特征 $h$ ，线性输出层产生一个向量 $\hat y = W^T h + b$

线性输出层常被用来产生条件高斯分布的均值，最大其对数似然等价于最小化均方误差
$\mathcal N(y;\hat y ,I)$
线性模型不会饱和，易于采用基于梯度的优化算法。

🔖 6.2.2.2 用于Bernoulli 输出分布的sigmoid 单元

CSDN关于sigmoid

预测二值型变量 $y$ 的值。具有两个类的分类问题可以归结为这种形式。二分类问题都是假定其是服从伯努利分布。

最大似然的方法是定义 $y$ 在 $x$ 条件下的Bernoulli 分布。

使用输出单元的方法保证模型给出错误答案时，总能有一个较大的梯度。可以基于使用sigmoid输出单元结合最大似然来实现。

sigmoid输出单元定义为:
$\hat y = \sigma(w^Th+b)$
在这里插入图片描述

对公式(6.20 - 6.23)的理解:link

⚠️ 注意二分类问题， $y$ 的取值只有0和1

使用最大似然来学习一个由sigmoid参数化的Bernoulli 分布，它的代价函数为:
$\begin{aligned} J(\theta) &=-\log P(y \mid x) \\ &=-\log \sigma((2 y-1) z) \\ &=\zeta ((1-2 y) z) \end{aligned}$
其中 $\zeta$ 是softplus函数， $\zeta (x) = log(1+e^x)$

在这里插入图片描述

从上面的函数曲线我们可以看到，网络饱和出现在模型得到正确答案时:当 $y = 1$ 且 $z$ 取非常大的正值，或者 $y = 0$ 且 $z$ 取非常小的负值，这可以使得我们可以使用基于梯度的学习来改正错误的 $z$ 。

当我们使用其他的损失函数，损失函数会在 $\sigma(z)$ 饱和时饱和。因此，最大似然几乎时训练sigmoid输出的优选方法。

🔖 6.2.2.3 用于Multinoulli 输出分布的softmax 单元

在这里插入图片描述

描述多个类别的概率分布，即对于多元问题常用的softmax函数

为了从二分类推广到具有n个值的离散型变量，我们首先需要一个向量 $\hat y$ ，其中的每个元素是 $\hat y_i = P(y=i|x)$ 。用于Bernoulli 分布的方法同样可以推广到Multinoulli 分布。

首先，线性层预测了未归一化的对数概率:
$z = W^T h + b$

$z_i = log \hat P(y=i|x)$ ，使用softmax函数对 $z$ 进行指数化和归一化得到最终预测的概率分布 $\hat y$ ：
$softmax(z)_i = \frac {exp(z_i)} {\sum_j exp(z_j)}$
使用最大似然来训练softmax输出目标值 $y$ ，则有:
$\, softmax(z)_i = z_i - log \sum_j exp(z_j)$
最大化上面的似然函数时，第一项 $z_i$ 鼓励被推高，第二项鼓励所有的 $z$ 被压低。注意第二项的 $\sum_jexp(z_j) \approx max_j z_j$ ，即负对数损失总是强烈地惩罚最活跃地不正确预测项。

未正则化的最大似然会使得模型去学习一些参数，这些参数会使得softmax函数来预测在训练集中观察到的每个结果的比率:
$\operatorname{softmax}(z(x ; \theta))_{i} \approx \frac{\sum_{j=1}^{m} 1_{y^{(j)}=i, x^{(j)}=x}}{\sum_{j=1}^{m} 1_{x^{(j)}=x}}$
除了对数似然之外的许多目标函数对softmax不起作用。