2.14 向量化 Logistic 回归的梯度输出-深度学习-Stanford吴恩达教授

最新推荐文章于 2024-10-17 17:17:28 发布

ygl_9913

最新推荐文章于 2024-10-17 17:17:28 发布

阅读量104

点赞数

分类专栏： # 第一课《神经网络和深度学习》-吴恩达老师笔记文章标签：深度学习回归

本文链接：https://blog.csdn.net/ygl_9913/article/details/128966860

版权

第一课《神经网络和深度学习》-吴恩达老师笔记专栏收录该内容

24 篇文章 7 订阅

订阅专栏

向量化 Logistic 回归的梯度输出 (Vectorizing Logistic Regression’s Gradient Computation)

注：本节中大写字母代表向量，小写字母代表元素

上节课已经学习了如何通过向量化计算预测，同时计算出整个训练集的激活值a，在这个视频你将会看到如何计算全部m个训练样本的梯度（强调是同时计算），并结合前面所学在结尾会展示如何非常高效地实现逻辑回归。

之前我们在讲梯度计算的时候，列举过几个例子， $dz^{(1)} = a^{(1)} - y^{(1)},dz^{(2)} = a^{(2)} -y^{(2)},.......$ 等等一系列类似公式。现在，对所有 $m$ 个训练数据做同样的计算，我们可以定义一个新的变量 $dZ = [ dz^{(1)},dz^{(2)},......,dz^{(m)} ]$ ，即这是一个1xm 的矩阵（或说是一个m维行向量）。在之前的幻灯片中，我们已经知道如何计算 $A = [ a^{(1)},a^{(2)},......,a^{(m)} ]$ ， $Y = [ y^{(1)},y^{(2)},......,y^{(m)} ]$ 。

基于这些定义，我们可以这样计算 $dZ = A -Y = [a^{(1)} - y^{(1)}, a^{(2)} - y^{(2)},......,a^{(m)} - y^{(m)}]$ 。不难发现第一个元素就是 $dz^{(1)}$ ，以此类推。所以我们现在仅需一行代码，就可以同时完成这所有的计算。

在之前的实现中，我们已经去掉了一个for循环，但我们仍有一个遍历训练集的循环，如下所示：

之前消除一个for的伪代码：

上述（伪）代码就是我们在之前实现中做的，我们已经去掉了一个for循环，但用上述方法计算 $dw$ 仍然需要一个循环遍历训练集，我们现在要做的就是将其向量化！

在这里插入图片描述

首先我们来看 $db$ ，不难发现 $db = \frac{1}{m} \sum_{i=1}^{m} dz^{(i)}$ ，之前的讲解中，我们知道所有的 $dz^{(i)}$ 已经组成一个行向量 $dZ$ 了，所以在Python中，我们很容易地想到 $db = \frac{1}{m} \cdot np.sum(dZ)$ ，实现对db的向量化计算。

那 $dw$ 呢？我们先写出它的公式 $dw = \frac{1}{m} \cdot X \cdot dZ^{T} = \frac{1}{m} \cdot ( x^{(1)}dz^{(1)},x^{(2)}dz^{(2)},......,x^{(m)}dz^{(m)})$ ，展开如上图。因此我们可以仅用两行代码进行计算：

$db = \frac{1}{m} \cdot np.sum(dZ)$

$dw = \frac{1}{m} \cdot X \cdot dZ^{T}$

这样，我们就避免了在训练集上使用for循环。

现在让我们总结下，看看我们之前怎么实现的逻辑回归，可以发现，没有向量化会是非常低效的，如下图所示代码：

在这里插入图片描述

（其中np.dot(w.T,x)+b是代码写法）

现在我们利用前五个公式完成了前向和后向传播，也实现了对所有训练样本进行预测和求导，再利用后两个公式，梯度下降更新参数。我们的目的是不使用for循环，所以我们就通过一次迭代实现一次梯度下降，但如果你希望多次迭代进行梯度下降，那么仍然需要for循环，放在最外层。不过我们还是觉得一次迭代就进行一次梯度下降，避免使用任何循环比较舒服一些。

最后，我们得到了一个高度向量化的、非常高效的逻辑回归的梯度下降算法，我们将在下次视频中讨论Python中的Broadcasting技术。