反向传播笔录

最新推荐文章于 2024-07-06 22:59:16 发布

笔下万码生谋略

最新推荐文章于 2024-07-06 22:59:16 发布

阅读量281

点赞数

分类专栏： MachineLearning 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_47707533/article/details/131690584

版权

MachineLearning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

反向传播概述
反向传播-前向过程
反向传播-反向过程

反向传播概述

在这里插入图片描述
为了有效的计算梯度，我们使用反向传播。

链式法则：
在这里插入图片描述

给定一组neural network参数 $\theta$ ，我们把一个training data $x^n$ 带到neural network输出一个 $y^n$ ，同时我们希望neural network输出 $\hat{y}^n$ （target）。我们定义 $y^n$ 和 $\hat{y}^n$ 距离的Function写作 $C^n$ ， $C^n$ 大，loss大，这组参数不好。
在这里插入图片描述
把它所有training data根据这组参数得到的output和target之间的距离求和就得到了total loss（ $L(\theta)$ ）。把 $L(\theta)$ 对摸一个参数 $w$ 做偏微分就得到了 $\frac{\partial L(\theta)}{\partial w} = \Sigma_{n=1}^N \frac{\partial C^n(\theta)}{\partial w}$ 。下面我们只要考虑某一笔training data 的loss对参数的偏微分（后面求和）：

我们先考虑下面某一个neural：
在这里插入图片描述

这个neural是第一个layer的neural，所以她的输入是外界给他的 $x_1,x_2$ 。
以weight为例，看如何计算 $\frac{\partial C}{\partial w}$ :
在这里插入图片描述

根据链式法则，可以拆成两项： $\frac{\partial z}{\partial w}\frac{\partial C}{\partial z}$

Forward pass(前向过程):计算对于所有参数的 $\frac{\partial z}{\partial w}$
Backward pass(反向过程)：计算对于所有激活函数输入z的 $\frac{\partial C}{\partial z}$

在这里插入图片描述

反向传播-前向过程

计算对于所有参数的 $\frac{\partial z}{\partial w}$

在这里插入图片描述
由权重所连接的输入值。

反向传播-反向过程

计算对于所有激活函数输入z的 $\frac{\partial C}{\partial z}$
在这里插入图片描述
对于 $\frac{\partial a}{\partial z}$ ,我们有 $a=\sigma$
$\sigma'(z)$ :

接下来，对于 $\frac{\partial C}{\partial a}$ ,怎么算？
a与C的关系：a会影响 $z^{'}$ 、 $z^{''}$ , $z^{'}$ 、 $z^{''}$ 会影响C，所以：
$\frac{\partial C}{\partial z} = \frac{\partial z'}{\partial a}\frac{\partial C}{\partial z'} + \frac{\partial z''}{\partial a}\frac{\partial C}{\partial z''}$
由于 $z' = aw_3+...$ , $z'' = aw_4+...$
$\frac{\partial C}{\partial z} = w_3\frac{\partial C}{\partial z'} + w_4\frac{\partial C}{\partial z''}$
在这里插入图片描述

假设（*）我们通过某种方法把 $\frac{\partial C}{\partial z'}, \frac{\partial C}{\partial z''}$ 算出来。那么
$\frac{\partial C}{\partial z} = \sigma'(z)[w_3\frac{\partial C}{\partial z'} + w_4\frac{\partial C}{\partial z''}]$

在这里插入图片描述
我们假设有另一个神经元，输入是 $\frac{\partial C}{\partial z'}, \frac{\partial C}{\partial z''}$ ,activate Function $\sigma'(z)$ ,那么输出为：
$\frac{\partial C}{\partial z} = \sigma'(z)[w_3\frac{\partial C}{\partial z'} + w_4\frac{\partial C}{\partial z''}]$
给定z, $\sigma'(z)$ 是常数，因为z在向前传递中已经确定。

最后，我们如果能算 $\frac{\partial C}{\partial z'}, \frac{\partial C}{\partial z''}$ ，那么问题就都解决了。

第一种情况红色的neural的output就是整个network的output：

$\frac{\partial C}{\partial y_1}$ 可以根据定义的Loss Function C算出来。 $\frac{\partial y_1}{\partial z'}$ 根据激活函数算出。

第二种情况，不是最后一层：

那么，我们就重复上面假设（*），递归计算 $\frac{\partial C}{\partial z}$ ,直到我们达到最后一层。

这种方法算反向过程很可怕，我们可以建立一个反向的network：

在这里插入图片描述

笔下万码生谋略

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
反向传播笔录

为了有效的计算梯度，我们使用反向传播。给定一组neural network参数θ\thetaθ，我们把一个training dataxnx^nxn带到neural network输出一个yny^nyn，同时我们希望neural network输出yn\hat{y}^nyn（target）。我们定义yny^nyn和yn\hat{y}^nyn距离的Function写作CnC^nCnCnC^nCn大，loss大，这组参数不好。
复制链接

扫一扫