深度学习（3）：神经网络前向传播反向传播向量化

最新推荐文章于 2022-01-25 06:30:00 发布

awake020

最新推荐文章于 2022-01-25 06:30:00 发布

阅读量574

点赞数

分类专栏：深度学习笔记文章标签：神经网络深度学习人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44334615/article/details/105460127

版权

这一次我们来更加详细地了解一下神经网络

神经网络结构以及本文符号约定

神经网络的基本单元是神经元

z=w^Tx+b
a = g(z)
（z和a的表示会在下面用到）
每个神经元对输入进行线性求和，随后调用激活函数（一个非线性函数）进行输出

而一个神经网络的结构如下图所示

输入部分称为输入层
输出值称为输出层
中间的神经元由于其参数对于训练集不可见，因此称为隐藏层

下面是本文（符合吴恩达深度学习课程）所用的符号
m：数据的个数
n^[l]：第l层网络的神经元个数。在上图中n^[0]=3, n^[1]=4, n^[2]=1
W^[l]：将第l层各个神经元的w^T按行排列得到W^[l]矩阵
在这里插入图片描述
这个矩阵的大小是（n^[l], n^[l-1]）

b^[l]：将第l层各个神经元的b值排成一列
在这里插入图片描述
这个矩阵大小为（n^[l], 1）

Z^[l]：将第l层每个神经元计算出的z值排成一列。对于不同的数据，将这些值再按列排，得到一个（n^[i], m）的矩阵。
每个Z_ij^[l]代表第 l 层的第 i 个神经元对于第 j 条数据的z值。

g^[l]：第I层神经元的激活函数

A^[l]：表示第l层神经网络的输出值。大小为（n^[i], m）
每个A_ij^[l]代表第 l 层的第 i 个神经元对于第 j 条数据的输出。值为Z_ij^[l]*g^[l]
特殊的，l为0时A^[l]就是输入数据X

接下来我们将通过矩阵乘法的定义理解前向传播反向传播的向量化公式。

前向传播（向量化）

公式：
Z^[l]=W^[l]A^[l-1]+b^[l]
A^[l]=g^[l](Z^[l])

说明
Z^[l]=W^[l]A^[l-1]+b^[l]
对于每一个Z_ij^[l](第 l 层第 i 个神经元对于第 j 条数据计算的z)
$Z_{ij}^{[l]} = \sum_{k}^{n^{[l-1]}}W^{[l]}_{ik}A^{[l-1]}_{kj }+b^{[l]}_{i}$
在这个公式里W_ik^[l]是第i个神经元的w值，b_i^[l]是第i个神经元的b值，而A_kj^[l-1]则是第j条数据的上一层a值，完全符合定义。
A^[l]=g^[l](Z^[l]) 是显然的

反向传播

利用反向传播求得各个参数的导数：
为了通俗化，下面给出如何通过第l+1层的导数求得第l层的导数

最低0.47元/天解锁文章

awake020

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习（3）：神经网络前向传播反向传播向量化

这一次我们来更加详细地了解一下神经网络神经网络结构神经网络的基本单元是神经元z=wTx+ba = g(z)（z和a的表示会在下面用到）每个神经元对输入进行线性求和，随后调用激活函数（一个非线性函数）进行输出而一个神经网络的结构如下图所示输入部分称为输入层输出值称为输出层中间的神经元由于其参数对于训练集不可见，因此成为隐藏层本次我们介绍的就是一个简单的两层神经网络前向传播...
复制链接

扫一扫