神经网络入门

最新推荐文章于 2024-04-18 09:59:36 发布

「已注销」

最新推荐文章于 2024-04-18 09:59:36 发布

阅读量123

点赞数

分类专栏：神经网络与深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/xu_ampl/article/details/95053919

版权

神经网络与深度学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

神经网络与深度学习 $\text{(Michael Nielsen)}$ 笔记（一）
1. 感知器工作原理

一个感知器接受几个二进制输入， $x_{1}, x_{2}, \dots$ ，并产生一个二进制输出。上图中，感知器有三个输入 $x_{1}, x_{2}, x_{3}$ 。通常可以更多或更少。引入权重 $w_{1}, w_{2}, \dots$ ，表示相应输入对输出重要性的实数。神经元的输出 $0$ 或 $1$ ，由分配权重后的总和 $\sum_{j} w_{j} x_{j}$ 小于或大于一些阈值决定。和权重一样，阈值是一个实数，也是神经元的一个参数。更精确的代数形式： $\text { output }=\left\{\begin{array}{ll}{0} & {\text { if } \sum_{j} w_{j} x_{j} \leq \text { threshold }} \\ {1} & {\text { if } \sum_{j} w_{j} x_{j}>\text { threshold }}\end{array}\right.$
2. $S$ 型神经元
$S$ 型函数: $\sigma(z) \equiv \frac{1}{1+e^{-z}}$
$S$ 神经元对每个输入权重 $w_{1}, w_{2}, \dots$ ，和一个总的偏置 $b$ ，输出不再是 $0$ 或 $1$ ，而是 $\sigma(w \cdot x+b)$ 一个具有输入 $x_{1}, x_{2}, \dots$ ，权重 $w_{1}, w_{2}, \dots$ ，偏置 $b$ 的 $S$ 型神经元的输出是： $\frac{1}{1+\exp \left(-\sum_{j} w_{j} x_{j}-b\right)}$ $S$ 型函数图像：

$\sigma$ 的平滑意味着权重和偏置的微小变化，即 $\Delta w_{j}$ 和 $\Delta b$ ，会从神经元产生一个微小的输出变化 $\Delta \text{{output}}$ ，微积分上 $\Delta \text{{output}}$ 可以近似表示为 $\Delta \text { output } \approx \sum_{j} \frac{\partial \text { output }}{\partial w_{j}} \Delta w_{j}+\frac{\partial \text { output }}{\partial b} \Delta b$ 3. 神经网络架构：输入层，输入神经元、隐藏层、输出层，输出神经元

4. 使用梯度下降法进行学习
代价函数： $\equiv \frac{1}{2 n} \sum_{x}\|y(x)-a\|^{2}$ 这里 $w$ 表示所有的网络权重的集合， $b$ 是所有的偏置， $n$ 是训练输入数据的个数， $a$ 表示当输入为 $x$ 时输出的向量，求和是在总的训练输入 $x$ 上进行的。把称为二次代价函数，有时也称为均方误差或者 $\text{MSE}$

在 $v_1$ 和 $v_2$ 方向上移动很小的量，即 $\Delta v1$ 和 $\Delta v2$ ， $C$ 将会有如下变化： $\Delta C \approx \frac{\partial C}{\partial v_{1}} \Delta v_{1}+\frac{\partial C}{\partial v_{2}} \Delta v_{2}$ 我们要寻找一种选择 $v_1$ 和 $v_2$ 的方法使得 $\Delta C$ 为负，定义 $\Delta v$ 为 $v$ 变化的向量， $\Delta v \equiv\left(\Delta v_{1}, \Delta v_{2}\right)^{T}$
定义 $C$ 的梯度为偏导数的向量, $\left(\frac{\partial C}{\partial v_{1}}, \frac{\partial C}{\partial v_{2}}\right)^{T}$ ,用 $\nabla C$ 来表示梯度向量，即： $\nabla C \equiv\left(\frac{\partial C}{\partial v_{1}}, \frac{\partial C}{\partial v_{2}}\right)^{T}$ 这样 $\Delta C$ 的表达式可以被重写为： $\Delta C \approx \nabla C \cdot \Delta v$ 这个方程让我们看到了如何取 $\Delta v$ 才能让 $\Delta C$ 为负数，假设选取 $\Delta v=-\eta \nabla C$ 这里 $\eta$ 是个很小的正数，称为学习速率。于是有 $\Delta C \approx-\eta \nabla C \cdot \nabla C=-\eta\|\nabla C\|^{2}$ $\|\nabla C\|^{2} \geq 0$ 保证了 $\Delta C \leq 0$ ，按照这样的规则去改变 $v$ ，那么 $C$ 会一直减小，不会增加。因此我们可以用 $\Delta v$ 来移动位置 $v$ : $\rightarrow v^{\prime}=v-\eta \nabla C$ 假设 $C$ 是一个有 $m$ 个变量 $v_{1}, \dots, v_{m}$ 的多元函数，那么对 $C$ 中自变量的变化 $\Delta v=\left(\Delta v_{1}, \ldots, \Delta v_{m}\right)^{T}$ ， $\Delta C$ 会变为： $\Delta C \approx \nabla C \cdot \Delta v$ ，梯度 $\nabla C$ 是向量 $\nabla C \equiv\left(\frac{\partial C}{\partial v_{1}}, \dots, \frac{\partial C}{\partial v_{m}}\right)^{T}$ 我们可选取 $\Delta v=-\eta \nabla C$ 使得 $\Delta C \approx \nabla C \cdot \Delta v$ 保证是负数，这给出了一种方式从梯度中去取得最小值。
神经网络中的梯度下降算法
其原理是利用梯度下降法寻找使得代价函数 $C$ 取得最小值的权重 $w_{k}$ 和偏置 $b_l$
用权重和偏置取代 $v$ ，梯度向量 $\nabla C$ 则有相应的分量 $\frac{\partial C} {\partial w_{k}}$ 和 $\frac{\partial C} {\partial b_{l}}$ ，用这些分量来写梯度下降的更新规则，我们得到： $w_{k} \rightarrow w_{k}^{\prime}=w_{k}-\eta \frac{\partial C}{\partial w_{k}}$ $b_{l} \rightarrow b_{l}^{\prime}=b_{l}-\eta \frac{\partial C}{\partial b_{l}}$ 随机梯度下降算法
改写 $C=\frac{1}{n} \sum_{x} C_{x}$ ， $C_{x} \equiv \frac{\|y(x)-a\|^{2}}{2}$ ，在实践中，为了计算梯度 $\nabla C$ ，我们需要为每个训练输入 $x$ 单独计算梯度值 $\nabla C_{x}$ ，然后求平均值， $\nabla C=\frac{1}{n} \sum_{x} \nabla C_{x}$ ，当训练输入的数量过大时会使得学习变得相当缓慢，而随机梯度下降算法能够加速学习，其思想时通过选取小量训练输入样本来计算 $\nabla C_{x}$ ，进而估计梯度 $\nabla C$ 。通过计算少量样本的平均值我们可以快速得到一个对于实际梯度 $\nabla C$ 的很好的估算，这有助于加速学习过程。
具体地，随机梯度下降通过随机选取小量的 $m$ 个训练输入来工作。我们将这些随机色训练输入标记为 $X_{1}, X_{2}, \ldots, X_{m}$ ，并把它们称为一个小批量数据 $\text{(mini-batch)}$ ，假设样本数量 $m$ 足够大，我们期望 $\nabla C_{X_{j}}$ 的平均值大致相等于整个 $\nabla C_{x}$ 的平均值，即 $\frac{\sum_{j=1}^{m} \nabla C_{X_{j}}}{m} \approx \frac{\sum_{x} \nabla C_{x}}{n}=\nabla C$ 即 $\nabla C \approx \frac{1}{m} \sum_{j=1}^{m} \nabla C_{X_{j}}$ $w_{k} \rightarrow w_{k}^{\prime}=w_{k}-\frac{\eta}{m} \sum_{j} \frac{\partial C_{X_{j}}}{\partial w_{k}}$ $b_{l} \rightarrow b_{l}^{\prime}=b_{l}-\frac{\eta}{m} \sum_{j} \frac{\partial C_{X_{j}}}{\partial b_{l}}$ 其中求和符号是在当前小批量数据中的所有训练样本 $X_{j}$ 上进行，然后我们再挑选另一随机选定的小批量数据去训练。直到我们用完了所有的训练输入，这被称为完成了一个训练迭代期 $\text{(epoch)}$ ，然后我们就会开始一个新的训练迭代期。

  《 Neural Networks and Deep Learning 》 Michael Nielsen

「已注销」

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络入门

神经网络与深度学习(Michael Nielsen)\text{(Michael Nielsen)}(Michael Nielsen)笔记（一）1. 感知器工作原理一个感知器接受几个二进制输入，x1,x2,…x_{1}, x_{2}, \dotsx1,x2,…，并产生一个二进制输出。上图中，感知器有三个输入x1,x2,x3x_{1}, x_{2}, x_{...
复制链接

扫一扫

专栏目录