【神经网络和深度学习】吴恩达（Andrew Ng）- 第一课第四周课程内容总结

最新推荐文章于 2020-05-04 23:54:07 发布

IMU_YY

最新推荐文章于 2020-05-04 23:54:07 发布

阅读量250

点赞数

分类专栏：深度学习文章标签： python 神经网络深度学习

本文链接：https://blog.csdn.net/yyhaohaoxuexi/article/details/86585077

版权

10 篇文章 5 订阅

订阅专栏

在【神经网络和深度学习】第四周的课程中，感觉有些内容比较容易忘记但是及其重要，于是由这篇文章来记录相关内容。

拥有大于两层隐藏层的神经网络。（根据PPT得出的结论）

拥有四层隐藏层的神经网络
如图， $x_1, x_2, x_3$ 为输入的特征值，可以称为第0层或输入层。从输入层向右依次是第1层、第2层、第3层、第4层（也叫输出层）。
所以这个网络是四层神经网络（通常不包含输入层），即： $L (L a y e r s) = 4$ 。

$n^{[l]}$ 是第 $l$ 层的神经元个数。如： $n^{[0]} =3$ ， $n^{[1]} =5$ ， $n^{[2]} =5$ ， $n^{[3]} =3$ ， $n^{[4]} =1$ ；
$w^{[l]}$ 是第 $l$ 层的权重；
$b^{[l]}$ 是第 $l$ 层的偏置值；
$z^{[l]}$ 是第 $l$ 层的未被激活函数（激励函数）激活的输出的值；
$g^{[l]}$ 是第 $l$ 层的激活函数（激励函数）；
$a^{[l]}$ 是第 $l$ 层的激活函数（激励函数）输出的值，即： $a^{[l]} = g^{[l]}(z^{[l]})$ ，注意： $a^{[0]}$ 为 $x_1，x_2，x_3$ 。

在前向传播中，首先我们要明确我们需要计算的量有： $z^{[l]}，a^{[l]}$ 。

在这里插入图片描述

经过这样的循环计算后，我们可以得到一组输入的 $\hat y$ 。

通式（通式中大写变量均为向量，便于省去部分循环计算）：

何对矩阵维数时关键的公式是 $Z^{[l]}=W^{[l]}X+B^{[l]}$ 。如：

$Z^{[1]}=W^{[1]}X+B^{[1]}$
$Z$ 是每一层的激活函数的个数（神经元个数）， $Z^{[1]}.shape() =(3,1)$ ，也就是 $n^{[1]},1)=(3,1)$
$X$ 是输入的特征值个数， $X^{[1]}.shape()=(2,1)$ ，也就是 $n^{[0]},1)=(2,1)$
然后我们就可以根据矩阵乘法规则推算出W的规模， $W^{[1]}=(n^{[1]}, n^{[0]})$
所以我们可以得到： $W^{[l]}=(n^{[l]}, n^{[l-1]})$ ，也就是(当前层的神经元维数，前一层的神经元维数)
我们可以看到， $W^{[l]}X$ 的维数为 $n^{[l]},1)$ ，因此根据矩阵加法规则，推算出 $B^{[l]}$ 的规模为 $n^{[l]},1)$
在反向传播中 $dw^{[l]}$ 和 $W^{[l]}$ 有着相同的规模，为： $n^{[l]}, n^{[l-1]})$ ； $db^{[l]}$ 与 $B^{[l]}$ 有着相同的规模，为： $n^{[l]},1)$ 。
可以得到前向传播和后向传播中传播公式为：

正向传播

反向传播

输入： $a^{[l-1]}$
输出： $a^{[l]}，cache(z^{[l]})$

注：由于 $Z^{[l]}=W^{[l]}*a^{[l-1]}+b^{[l]}$ ，因此输出还有 $w^{[l]}$ 和 $b^{[l]}$ 。
$a^{[l]} = g^{[l]}(Z^{[l]})$

综上向量化后： $Z^{[l]}=W^{[l]}*A^{[l-1]}+b^{[l]}$
$A^{[l]}=g^{[l]}(Z^{[l]})$

输入： $da^{[l]}$
输出： $da^{[l-1]}，dw^{[l]}，db^{[l]}$

$dz^{[l]}=da^{[l]}*g^{[l]}\\'(z^{[l]})$
$da^{[l]}=w^{[l]^T}*dz^{[l]}$ ，将 $da^{[l]}$ 带入上式得： $dz^{[l]}=w^{[l+1]^T}*dz^{[l+1]}*g^{[l]}\\'(z^{[l]})$
$dw^{[l]}=dz^{[l]}*a^{[l-1]}$
$db^{[l]}=dz^{[l]}$
综上向量化后：
$dZ^{[l]}=dA^{[l]}*g^{[l]}\\'(Z^{[l]})$
$dW^{[l]}=\frac 1mdZ^{[l]}*A^{[l-1]^{T}}$
$db^{[l]}=\frac 1mnp.sum(dZ^{[l]},axis=1,keepdims=true)$
$dA^{[l-1]}=W^{[l]^{T}}*dZ^{[l]}$