L1 神经网络和深度学习 Week4（吴恩达）

Jerry_uu

已于 2023-12-18 15:40:45 修改

阅读量1.3k

点赞数 36

分类专栏：课程学习文章标签：深度学习神经网络人工智能

于 2023-12-18 13:58:20 首次发布

本文链接：https://blog.csdn.net/weixin_51147313/article/details/135055407

版权

课程学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.神经网络的表示

在这里插入图片描述

对于这个两层的神经网络，输入层为 $x 1$ ， $x 2$ ， $x 3$ 可以用 $a^{[0]}$ 代替，隐藏层记作 $a^{[1]}$ ，隐藏层包含有四个节点，所以是一个4x1的矩阵，如下所示
$a^{[0]} = \begin{bmatrix} x1\\ x2\\ x3 \end{bmatrix}$
$a^{[1]} = \begin{bmatrix} a_1^{[1]} \\ a_2^{[1]} \\ a_3^{[1]} \\ a_4^{[1]} \end{bmatrix}$
在这里插入图片描述
对于上述两层的神经网络的计算总共有两个步骤：

第一步，计算 $z_{1}^{[1]}$ ， $z_{1}^{[1]}$ = $w_{1}^{[1]T}$ ${x}$ + $b_{1}^{[1]}$
第二步，通过激活函数计算 $a_{1}^{[1]}$ ， $a_{1}^{[1]}$ = $\sigma(z_{1}^{[1]})$
隐藏层的第二个以及后面的两个神经元计算过程一样，分别得到 $a_{2}^{[1]}$ ， $a_{3}^{[1]}$ ， $a_{4}^{[1]}$ ，详细步骤如下：

$\begin{align*} z_1^{[1]} &= w_1^{[1]T}x + b_1^{[1]}, & a_1^{[1]} &= \sigma(z_1^{[1]}) \\ z_2^{[1]} &= w_2^{[1]T}x + b_2^{[1]}, & a_2^{[1]} &= \sigma(z_2^{[1]}) \\ z_3^{[1]} &= w_3^{[1]T}x + b_3^{[1]}, & a_3^{[1]} &= \sigma(z_3^{[1]}) \\ z_4^{[1]} &= w_4^{[1]T}x + b_4^{[1]}, & a_4^{[1]} &= \sigma(z_4^{[1]}) \end{align*}$

单样本向量化，把上诉四个等式向量化。向量化的过程是将神经网络中的一层神经元参数纵向堆积起来，例如隐藏层中 $w$ 的纵向堆积起来变成一个的矩阵，用符号 $W^{[1]}$ 表示。另一个看待这个的方法是我们有四个逻辑回归单元，且每一个逻辑回归单元都有相对应的参数——向量，把这四个向量堆积在一起，你会得出这4×3的矩阵。
公式1.1： $z^{[n]}=w^{[n]}x+b^{[n]}$
公式1.2： $a^{[n]}=\sigma(z^{[n]})$
详细过程如下：

公式1.3:
$a^{[1]} = \begin{bmatrix} a_1^{[1]} \\ a_2^{[1]} \\ a_3^{[1]} \\ a_4^{[1]} \end{bmatrix} = \sigma(z^{[1]})$

公式1.4:
$\begin{bmatrix} z_1^{[1]} \\ z_2^{[1]} \\ z_3^{[1]} \\ z_4^{[1]} \end{bmatrix} = \begin{bmatrix} \cdots & W_1^{[1]T} & \cdots \\ \cdots & W_2^{[1]T} & \cdots \\ \cdots & W_3^{[1]T} & \cdots \\ \cdots & W_4^{[1]T} & \cdots \end{bmatrix} \cdot \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} + \begin{bmatrix} b_1^{[1]} \\ b_2^{[1]} \\ b_3^{[1]} \\ b_4^{[1]} \end{bmatrix}$
对于神经网络的第一层，给予一个输入x，得到 $a^{[1]}$ ，x可以表示为 $a^{[0]}$ 。通过相似的衍生你会发现，后一层的表示同样可以写成类似的形式，得到 $a^{[2]}$ ， $\hat y=a^{[2]}$ ，具体过程见公式1.1、1.2。
在这里插入图片描述

2.多样本向量化

上一节讲述了深度神经网络的基础。它们公用的如向量 $a^{[1]}$ 、 $a^{[2]}$ 、 $z^{[1]}$ 、 $z^{[2]}$ 。

对于一个给定的输入向量 $X$ ，这四个等式可以计算出 $a^{[2]}$ 等于 $\hat y$ 。这是针对于每一层的激活状态。如果有m个训练样本,那么这些变量是这个过程。

用第一个训练样本来计算 $\hat y^{[1]}$ ，就是第一个训练样本上导出的结果。

然后，用 $x^{[2]}$ 来计算出预测值 $\hat y^{[2]}$ ，循环往复直到用 $x^{[m]}计算出$ $\hat y^{[m]}$

用激活函数表示法，如下图左下表示写为 $a^{[2](1)}$ 和 $a^{[2](m)}$ 。

【注意】： $a^{[2](i)}，(i)$ 是指第 $i$ 个训练样本而 $[2]$ 是指第二层。
如果有一个非向量化形式的实现，而且要计算出它的预测值，对于所有训练样本，需要让 $i$ 从1到实现这四个等式：
$z^{[1](i)} = W^{[1](i)} a^{[i]} + b^{[1](i)}$
$a^{[1](i)} = \sigma(z^{[1](i)})$
$z^{[2](i)} = W^{[2](i)} a^{[1](i)} + b^{[2](i)}$
$a^{[2](i)} = \sigma(z^{[2](i)})$
对于上面的这个方程中的 $i$ ，是所有依赖于训练样本的变量，即将 $i$ 添加到 $x$ ， $z$ 和 $a$ 。如果想计算个训练样本上的所有输出，就应该向量化整个计算，以简化这列。
$x=\begin{bmatrix} \vdots & \vdots & \vdots& \vdots & \\ x^{(1)} & x^{(1)} &\cdots&x^{(m)} & \\ \vdots &\vdots & \vdots & \vdots & \end{bmatrix}$

$Z^{[1]}=\begin{bmatrix} \vdots & \vdots & \vdots& \vdots & \\ z^{[1](1)} & z^{[1](2)}&\cdots&z^{[1](m)}& \\ \vdots &\vdots & \vdots & \vdots & \end{bmatrix}$
$A^{[1]}=\begin{bmatrix} \vdots & \vdots & \vdots& \vdots & \\ a^{[1](1)} &a^{[1](2)}&\cdots&a^{[1](m)}& \\ \vdots &\vdots & \vdots & \vdots & \end{bmatrix}$
$\begin{align*} z^{[1](i)} &= W^{[1](i)} a^{(i)} + b^{[1]} \\ a^{[1](i)} &= \sigma(z^{[1](i)}) \\ z^{[2](i)} &= W^{[2](i)} a^{[1](i)} + b^{[2]} \\ a^{[2](i)} &= \sigma(z^{[2](i)}) \end{align*} \Rightarrow \begin{cases} A^{[1]} = \sigma(Z^{[1]}) \\ Z^{[2]} = W^{[2]} A^{[1]} + b^{[2]} \\ A^{[2]} = \sigma(Z^{[2]}) \end{cases}$

在这里插入图片描述

输入向量： $x$
第一层的权重和偏置： $W^{[1]}$ ， $b^{[1]}$
第一层的线性变换： $z^{[1]} = W^{[1]}x + b^{[1]}$
第一层使用sigmoid函数的激活： $a^{[1]} = \sigma(z^{[1]})$ ，其中 $\sigma(z) = \frac{1}{1 + e^{-z}}$
第二层的权重和偏置： $W^{[2]}$ ， $b^{[2]}$
第二层的线性变换： $z^{[2]} = W^{[2]}a^{[1]} + b^{[2]}$
第二层使用sigmoid函数的激活： $a^{[2]} = \sigma(z^{[2]})$
损失函数： $\mathcal{L}(a^{[2]}, y)$ ，对于二分类问题，交叉熵损失函数定义为 $-\left( y\log(a^{[2]}) + (1-y)\log(1-a^{[2]}) \right)$ ，其中 $y$ 是真实标签（0或1）， $a^{[2]}$ 是预测概率，表示为正类的概率。

3.核对矩阵维度

在这里插入图片描述
举个例子： $z^{[1]} = W^{[1]} \cdot x + b^{[1]}$
从上图可以看出： $x$ 的维度是 (2,1)，且 $z^{[1]}$ 的维度是 (3,1)。由于等式两边维度一致，因此可以推出 $W^{[1]}$ 的维度为 (3,2)，且 $b^{[1]}$ 也为 (3,1)。从正面看，因为第 1 层有 3 个神经元，且有 2 个输入，因此每个神经元中的参数要分别与两个输入相乘，也很容易得出 $W^{[1]}$ 的维度。同理可以推出后面层的参数的维度，总结规律是：
$W^{[l]} = (n^{[l]}, n^{[l-1]})$
$a^{[l]} = (n^{[l]}, 1)$
$z^{[l]} = b^{[l]} = (n^{[l]}, 1)$
$d x$ 和 $x$ 的维度相同若有 $m$ 个样本，将公式向量化之后只需将 $a^{[l]}$ 和 $z^{[l]}$ 改为大写，并将 1 改为 $m$ 即可（对 $b$ ，Python 的广播机制将其维数从 1 变为 $m$ ）。

4.前向传播

参数	类型	描述
$x^{(i)}$	$\mathbf{x}^{(i)}$	输入样本 $i$
$W^{[1]}$	$\mathbf{W}^{[1]}$	第一层权重矩阵
$b^{[1] (i)}$	$\mathbf{b}^{[1]}$	第一层偏置向量
$z^{[1] (i)}$	$z^{(i)}_1$	第一层输出
$a^{[1] (i)}$	$a^{(i)}_1$	第一层激活值
$W^{[2]}$	$\mathbf{W}^{[2]}$	第二层权重矩阵
$b^{[2] (i)}$	$\mathbf{b}^{[2]}$	第二层偏置向量
$z^{[2] (i)}$	$z^{(i)}_2$	第二层输出
$\hat{y}^{(i)}$	$\hat{y}^{(i)}$	神经网络的预测值
$y^{(i)}$	$y^{(i)}$	真实标签
$y^{(i)}_{\text{prediction}}$	$y^{(i)}_{\text{prediction}}$	预测是否正确
$m$	$m$	样本数量
$J$	$J$	损失函数

对于一个样本 $x^{(i)}$ :

$z^{[1] (i)} = W^{[1]} x^{(i)} + b^{[1] (i)} \tag{1}$

$a^{[1] (i)} = \tanh(z^{[1] (i)}) \tag{2}$

$z^{[2] (i)} = W^{[2]} a^{[1] (i)} + b^{[2] (i)} \tag{3}$

$\hat{y}^{(i)} = a^{[2] (i)} = \sigma(z^{[2] (i)}) \tag{4}$

$y^{(i)}_{\text{prediction}} = \begin{cases} 1 & \text{if } a^{[2](i)} > 0.5 \\ 0 & \text{otherwise} \end{cases} \tag{5}$

给定所有样本的预测值，你也可以计算代价 $J$ 如下：

$\frac{1}{m} \sum\limits_{i = 0}^{m} \left( y^{(i)}\log\left(a^{[2] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[2] (i)}\right) \right) \tag{6}$

5.反向传播

在这里插入图片描述

对于第二层的 $z$ 值的偏导数：
$\frac{\partial \mathcal{J} }{ \partial z_{2}^{(i)} } = \frac{1}{m} (a^{[2](i)} - y^{(i)})$
对于第二层权重 $W_2$ 的偏导数：
$\frac{\partial \mathcal{J} }{ \partial W_2 } = \frac{\partial \mathcal{J} }{ \partial z_{2}^{(i)} } a^{[1] (i) T}$
对于第二层偏置 $b_2$ 的偏导数：
$\frac{\partial \mathcal{J} }{ \partial b_2 } = \sum_i{\frac{\partial \mathcal{J} }{ \partial z_{2}^{(i)}}}$
对于第一层的 $z$ 值的偏导数：
$\frac{\partial \mathcal{J} }{ \partial z_{1}^{(i)} } = W_2^T \frac{\partial \mathcal{J} }{ \partial z_{2}^{(i)} } * ( 1 - a^{[1] (i) 2})$
对于第一层权重 $W_1$ 的偏导数：
$\frac{\partial \mathcal{J} }{ \partial W_1 } = \frac{\partial \mathcal{J} }{ \partial z_{1}^{(i)} } X^T$
对于第一层偏置 $b_1$ 的偏导数：
$\frac{\partial \mathcal{J} _i }{ \partial b_1 } = \sum_i{\frac{\partial \mathcal{J} }{ \partial z_{1}^{(i)}}}$

请注意，星号 ( * ) 表示元素级乘法。
在这里插入图片描述
以上图为例, 我们先计算 $L = -y\log(a^{[2]}) - (1 - y)\log(1 - a^{[2]})$ 。

$da^{[2]}$ 对应于 $a^{[2]}$ 的梯度, 根据 $da^{[2]} =\frac {dL}{da^{[2]}}= \frac{-y}{a^{[2]}} + \frac{1-y}{1-a^{[2]}}$ 。

根据链式法则计算 $dz^{[2]} = da^{[2]} *\frac{da^{[2]}}{dz^{[2]}}$ 。

因为 $a^{[2]} = \text{sigmoid}(z^{[2]})$ ，所以 $\frac{da^{[2]}}{dz^{[2]}} = a^{[2]}(1 - a^{[2]})$ 。

因此 $dz^{[2]} = \frac{-y}{a^{[2]}} (1 - a^{[2]}) + \frac{1-y}{1-a^{[2]}} a^{[2]} = a^{[2]} - y$ 。

$dw^{[2]} = dz^{[2]} *\frac{dz^{[2]}}{dw^{[2]}}$ ， $z^{[2]} = w^{[2]}a^{[1]} + b^{[2]}$ ，

根据链式法则计算 $a^{[1]} = \frac{dz^{[2]}}{dw^{[2]}}$ ， $a^{[1]}$ 是关于 $w^{[2]}$ 的函数, $dz^{[2]}$ 的链式法则计算 $dw^{[2]}$ 。
$n^{[2]}, 1)$ ， $dw^{[2]}$ 的维度为 $n^{[2]}, n^{[1]})$ ， $a^{[1]}$ 的维度和 $w^{[2]}$ 的维度相同。
$n^{[1]}, 1)$ ，因此, $dz^{[2]}$ 是 $w^{[2]}$ 的函数，所以 $dz^{[2]}$ 可以表示为，用 $a^{[1]}$ 的函数表示。

所以 $dw^{[2]} = dz^{[2]} \times a^{[1]T}$ ， $db^{[2]} = dz^{[2]} \times \frac{dz^{[2]}}{db^{[2]}} = dz^{[2]}$ 。

接下来计算 $da^{[1]}$ ，

$da^{[1]} = dz^{[2]}* \frac{dz^{[2]}}{da^{[1]}}$ ， $z^{[2]} = w^{[2]}a^{[1]} + b^{[2]}$ ， $\frac{dz^{[2]}}{da^{[1]}} = w^{[2]}$ 。

因此 $da^{[1]} = w^{[2]T} dz^{[2]}$ ， $da^{[1]}$ 的维度和 $a^{[1]}$ 的维度相同，即 $n^{[1]}, 1)$ ， $w^{[2]}$ 的维度为 $n^{[2]}, n^{[1]})$ ， $dz^{[2]}$ 的维度为 $n^{[2]}, 1)$ ，所以关于 $w^{[2]}$ 的函数为 $dz^{[2]}$ 的函数。

$dz^{[1]} = da^{[1]} \ast \frac{da^{[1]}}{dz^{[1]}} = w^{[2]T} dz^{[2]} \ast (\text{sigmoid函数的导数})=w^{[2]T} dz^{[2]}*(1-a^{[1]2})$ 。

$dw^{[1]} = dz^{[1]} \times x^{[1]T}$ ， $dz^{[1]} = \frac{dz^{[1]}}{dw^{[1]}}$ 。

$db^{[1]} = dz^{[1]}$ 。

sigmoid函数求导

$\begin{aligned} f'(x) &= \frac{d}{dx} \left[ \frac{1}{1 + e^{-x}} \right] \ &= \frac{(1 + e^{-x}) \cdot \frac{d}{dx} [1 + e^{-x}] - 1 \cdot \frac{d}{dx} [e^{-x}]}{(1 + e^{-x})^2} \ &= \frac{(1 + e^{-x}) \cdot (-e^{-x}) - 1 \cdot (-e^{-x})}{(1 + e^{-x})^2} \ &= \frac{e^{-x}}{(1 + e^{-x})^2} \end{aligned}$

6.作业部分（举个例子，其他分开写）

dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL))

这段py代码是sigmoid函数的梯度
其中激活函数的输出为 $AL=\frac{1}{1 + e^{-Z}}$ ，Z表示线性层的输出。

对于 sigmoid 激活函数，损失函数为交叉熵损失函数：
$\cdot \log(AL) + (1 - Y) \cdot \log(1 - AL))$
其中，Y 是真实标签，AL 是神经网络的输出。根据链式法则，我们可以将交叉熵损失函数对 AL 的梯度表示为：
$\frac{dL}{dAL} = - \left( \frac{Y}{AL} - \frac{1 - Y}{1 - AL} \right)\$
- 首先，将 np.divide(Y, AL) 和 np.divide(1 - Y, 1 - AL) 分别求导：
  $\frac{d}{dAL} \left[ \frac{Y}{AL} \right] = \frac{1}{AL} - \frac{Y}{AL^2}$
  $\frac{d}{dAL} \left[ \frac{1 - Y}{1 - AL} \right] = \frac{-1}{1 - AL} - \frac{1 - Y}{(1 - AL)^2}$
- 然后，将这两个导数相加：

$\begin{aligned} \frac{d}{dAL} \left[ - \frac{Y}{AL} + \frac{1 - Y}{1 - AL} \right] &= - \frac{d}{dAL} \left[ \frac{Y}{AL} \right] + \frac{d}{dAL} \left[ \frac{1 - Y}{1 - AL} \right] \ &= - \left( \frac{1}{AL} - \frac{Y}{AL^2} \right) + \left( \frac{-1}{1 - AL} - \frac{1 - Y}{(1 - AL)^2} \right) \ &= - \frac{1}{AL} + \frac{1}{1 - AL} + \frac{Y}{AL^2} + \frac{Y}{(1 - AL)^2} \ &= \frac{-1}{AL} + \frac{1}{1 - AL} + \frac{Y}{AL(1 - AL)} \end{aligned}$

最后，整理一下表达式：
$\frac{dL}{dAL} = \frac{-1}{AL} + \frac{1}{1 - AL} - \frac{Y}{AL} + \frac{Y}{1 - AL} = - \frac{Y}{AL} + \frac{1 - Y}{1 - AL}$

【参考】：
1.https://www.cnblogs.com/southtonorth/p/9512559.html
2.https://zhuanlan.zhihu.com/p/161458241
3.http://www.ai-start.com/dl2017/html/lesson1-week3.html

Jerry_uu

关注

36
点赞
踩
25

收藏

觉得还不错? 一键收藏
1
评论
L1 神经网络和深度学习 Week4（吴恩达）

1.神经网络的表示对于这个两层的神经网络，输入层为x1x1x1，x2x2x2，x3x3x3可以用a[0]a^{[0]}a[0]代替，隐藏层记作a[1]a^{[1]}a[1]，隐藏层包含有四个节点，所以是一个4x1的矩阵，如下所示a[0]=[x1x2x3]a^{[0]} = \begin{bmatrix}x1\\x2\\x3\end{bmatrix}a[0]=x1x2x3a[1]=[a1[1]a2[1]a3[1]a4[1]]a^{[1]} = \begin{bmatrix}a_1
复制链接

扫一扫