Michael Nielsen 著Neural Networks and Deep Learning关于第一章使用神经网络识别手写数字的74行Python代码之“梯度下降算法”

最新推荐文章于 2023-01-18 11:05:50 发布

star吖欣

最新推荐文章于 2023-01-18 11:05:50 发布

阅读量238

点赞数

文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/yyx3040/article/details/110133363

版权

Michael Nielsen 著Neural Networks and Deep Learning关于第一章使用神经网络识别手写数字的74行Python代码之“梯度下降算法”

作者编著的“识别手写数字”的神经网络是基于MNIST数据集进行的，而这些数据集的图片都是 $28 * 28$ 大小的灰度图像，所以我们会把每一个训练输入记为 $x$ ，并记作一个 $28 * 28 = 784$ 维的向量输入给网络，而每个向量中的数值代表图像中每个像数的灰度值。同时我们使用 $y = y (x)$ 表示对应的期望输出，其中 $y$ 是一个10维向量。
例如：输入一个 $x$ 为784维向量，其对应数字为6的图像，那么 $y(x)=(0,0,0,0,0,0,1,0,0,0)^T$
前面已经讲过感知器，S型神经元，知道了什么是权重和偏置，我们现在需要找到一个算法可以找到详细相应的权重以及偏置，使得网络的输出 $y (x)$ 能够拟合所有的训练输入 $x$ ，为了量化我们如何实现这个目标，有了代价函数的定义：
$\equiv \cfrac{1}{2n}\sum_{x}||y(x)-a||^2$
公式说明： $n$ 是训练输入数据的个数， $a$ 是表示当输入为 $x$ 时输出的向量，求和则是在总的训练输入 $x$ 上进行的。这里可以看出 $C (w, b)$ 是非负数，同时我们得要明确一下我们的目的 : 找到一个学习算法，它能找到适当的 $w, b$ 使得代价函数 $\approx0$ 。所以这里我们采用称为梯度下降的算法来达到这个目的。
在这里插入图片描述
$C$ 可以是任意的多元实值函数，我们现在想象 $C$ 是一个只有两个变量 $v_1和v_2$ 的函数，如图，我们现在需要找到全局最小值，我们同时想象一下有一个小球从山谷的斜坡滚落下来，常识告诉我们这个球会滚到谷底，我们可以利用这个算法来找到函数的最小值。那如何精确描述这个问题呢？
比如当我们在 $v_1和v_2$ 方向分别将球体移动一个很小很小的量，即 $v_1和∆v_2$ ，球体将会发生什么情况。利用微积分的知识我们可以得到 $C$ 将会有如下的变化：
$\approx \cfrac{∂C}{∂v_1}∆v_1+ \cfrac{∂C}{∂v_2}∆v_2$ （7）
我们需要寻找一种选择 $v_1和∆v_2$ 的方法使得 $∆ C$ 为负——球体滚落。为了弄明白如何选择,我们记 $v=v_1,v_2$ ，定义 $∆ v$ 为 $v$ 变化的向量，即 $v=(∆v_1，∆v_2)^T$ 。另外， $C$ 的梯度为其偏导数的向量，我们使用 $\nabla C$ 来表示，
即 $\nabla C=( \cfrac{∂C}{∂v_1}， \cfrac{∂C}{∂v_1})^T$ （8）
结合公式（7）和公式（8）于是就有了：
$\approx \nabla C\cdot∆v$
现在可以看到 $\nabla C$ 使得 $v$ 的变化与 $C$ 的变化关联起来
这里问：什么是梯度？暂搁置一旁
那么如何选取 $∆ v$ 才能让 $∆ C$ 变为负数？于是有了右边的假设： $∆v=-\eta\nabla C$
因为这样子假设的话 $\approx -\eta\nabla C\cdot \nabla C=-\eta||\nabla C||^2$ ,显然 $||\nabla C||^2>=0$ ，同时 $∆ C < = 0$ 。如果按照这样的假设去改变 $v$ ,那么 $C$ 会一直减少。而 $v→v^{'} =v-\eta\nabla C$ ，然后用它再次更新规则来计算下一次移动，从而持续减少 $C$ 。
整个梯度下降算法就是重复计算梯度 $\nabla C$ ，让后沿着相反的方向移动——沿着山谷“滚落”；梯度下降法可以视为一种使得 $C$ 下降最快的方向上做微小变化的方法。
这一章并没有讨论如何计算代价函数的梯度，该书第二章将会讲到反向传播，会解释如何计算这些梯度的快速算法。

star吖欣

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫