吴恩达视频－第一门课第2周2.14节－向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression‘s Gradient）

越努力越幸运@

已于 2022-06-26 12:32:26 修改

阅读量317

点赞数

分类专栏： Python l逻辑回归深度学习文章标签：回归逻辑回归机器学习

于 2022-05-16 14:23:14 首次发布

本文链接：https://blog.csdn.net/yyyyyya_/article/details/124783888

版权

逻辑回归向量化梯度计算矩阵运算高效算法

关键词由CSDN通过智能技术生成

Python 同时被 3 个专栏收录

26 篇文章 0 订阅

订阅专栏

深度学习

12 篇文章 0 订阅

订阅专栏

l逻辑回归

3 篇文章 0 订阅

订阅专栏

2.14 向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression’s Gradient）
　　如何向量化计算的同时，对整个训练集预测结果𝑎，这是我们之前已经讨论过的内容。在本次视频中我们将学习如何向量化地计算𝑚个训练数据的梯度，本次视频的重点是如何同时计算 𝑚 个数据的梯度，并且实现一个非常高效的逻辑回归算法(Logistic Regression)。
　　之前我们在讲梯度计算的时候，列举过几个例子， $d{{z}^{(1)}}$ = ${{a}^{(1)}}$ − ${{y}^{(1)}}$ ， $d{{z}^{(2)}}$ = ${{a}^{(2)}}$ − ${{y}^{(2)}}$ ……等等一系列类似公式。现在，对 𝑚个训练数据做同样的运算，我们可以定义一个新的变量 𝑑𝑍 = [ $d{{z}^{(1)}}$ , $d{{z}^{(2)}}$ . . . $d{{z}^{(m)}}$ ] ，所有的 𝑑𝑧 变量横向排列，因此，𝑑𝑍 是一个 1 × 𝑚的矩阵，或者说，一个 𝑚 维行向量。在之前的幻灯片中，我们已经知道如何计算𝐴，即[ ${{a}^{(1)}}$ , ${{a}^{(2)}}$ . . . ${{a}^{(m)}}$ ],我们需要找到这样的一个行向量 𝑌 = [ ${{y}^{(1)}}{{y}^{(2)}}...{{y}^{(m)}}$ ] ，由此，我们可以这样计算𝑑𝑍 = 𝐴 − 𝑌 = [ ${{a}^{(1)}}-{{y}^{(1)}}{{a}^{(2)}}-{{y}^{(2)}}...{{a}^{(m)}}-{{y}^{(m)}}$ ]，不难发现第一个元素就是 $d{{z}^{(1)}}$ ，第二个元素就是 $d{{z}^{(2)}}$ ……所以我们现在仅需一行代码，就可以同时完成这所有的计算。
　　在之前的实现中，我们已经去掉了一个 for 循环，但我们仍有一个遍历训练集的循环，如下所示：
在这里插入图片描述
　　上述（伪）代码就是我们在之前实现中做的，我们已经去掉了一个 for 循环，但用上述方法计算 𝑑𝑤 仍然需要一个循环遍历训练集，我们现在要做的就是将其向量化！
　　首先我们来看 𝑑𝑏，不难发现 𝑑𝑏 = $\frac{1}{m}\sum\nolimits_{i=1}^{m}{d{{z}^{(i)}}}$ ，之前的讲解中，我们知道所有的 $d{{z}^{(i)}}$ 已经组成一个行向量 𝑑𝑍了，所以在 Python 中，我们很容易地想到𝑑𝑏 = $\frac{1}{m}$ ∗ 𝑛𝑝. 𝑠𝑢𝑚(𝑑𝑍)；接下来看𝑑𝑤，我们先写出它的公式 𝑑𝑤 = $\frac{1}{m}$ ∗ 𝑋 ∗ $d{{z}^{T}}$ 其中，𝑋 是一个行向量。因此展开后𝑑𝑤 = $\frac{1}{m}$ ∗ ( ${{x}^{(1)}}d{{z}^{(1)}}$ ＋ ${{x}^{(２)}}d{{z}^{(２)}}$ ＋．．．＋ ${{x}^{m}}d{{z}^{m}}$ )。因此我们可以仅用两行代码进行计算：𝑑𝑏 = $\frac{1}{m}$ ∗ 𝑛𝑝. 𝑠𝑢𝑚(𝑑𝑍)， 𝑑𝑤 = $\frac{1}{m}$ ∗ 𝑋 ∗ $d{{z}^{T}}$ 。这样，我们就避免了在训练集上使用 for 循环。
　　现在，让我们回顾一下，看看我们之前怎么实现的逻辑回归，可以发现，没有向量化是非常低效的，如下图所示代码：
在这里插入图片描述
　　我们的目标是不使用 for 循环，而是向量，我们可以这么做：

　　现在我们利用前五个公式完成了前向和后向传播，也实现了对所有训练样本进行预测和求导，再利用后两个公式，梯度下降更新参数。我们的目的是不使用 for 循环，所以我们就通过一次迭代实现一次梯度下降，但如果你希望多次迭代进行梯度下降，那么仍然需要 for循环，放在最外层。不过我们还是觉得一次迭代就进行一次梯度下降，避免使用任何循环比较舒服一些。
　　最后，我们得到了一个高度向量化的、非常高效的逻辑回归的梯度下降算法，我们将在下次视频中讨论 Python 中的 Broadcasting 技术。