2.10 m 个样本的梯度下降-深度学习-Stanford吴恩达教授

ygl_9913

已于 2023-02-09 12:35:00 修改

阅读量144

点赞数

分类专栏： # 第一课《神经网络和深度学习》-吴恩达老师笔记文章标签：深度学习人工智能

于 2023-02-08 16:43:31 首次发布

本文链接：https://blog.csdn.net/ygl_9913/article/details/128935927

版权

第一课《神经网络和深度学习》-吴恩达老师笔记专栏收录该内容

24 篇文章 7 订阅

订阅专栏

m 个样本的梯度下降 (Gradient Descent on m mm example)

在之前的视频中,你已经看到如何计算导数，以及应用梯度下降在逻辑回归的一个训练样本上。现在我们想要把它应用在 $m$ 个训练样本上。

首先回顾下代价函数（Cost Function） $J$ 的定义，如下图：

$J(w,b) = \frac{1}{m} \sum_{i=1}^{m} L(a^{(i)},y^{(i)})$

其中 $a^{(i)}$ 是对第 i 个训练样本的预测值，即 $a^{(i)} = \hat{y}^{(i)} = \sigma (z^{(i)}) = \sigma (w^{T}x^{(i)} + b)$ ，结合上个视频展示的是单个训练样本，我们也在导数上加上标 $(i)$ 。

其实，总代价函数对 $w_{1}$ 的偏导数也将是对所有单个样本的损失对 $w_{1}$ 的偏导求和，再求平均值。即如下：

$\frac{\partial }{\partial w_{1}} J(w,b) = \frac{1}{m} \sum_{i = 1}^{m} \frac{\partial }{\partial w_{1}} L(a^{(i)},y^{(i)})$ ，其中 $\frac{\partial }{\partial w_{1}} L(a^{(i)},y^{(i)})$ 定义为 $dw^{(i)}_{1}$ ，这个值 $dw^{(i)}_{1}$ 我们在上一个视频已经学会如何在单个样本中计算了。然后求平均，这会给你全局梯度值。

所以，我们可以做的是：我们初始化 $J = 0;dw_{1}=0;dw_{2}=0;db = 0$ 。我们要做的就是在训练集中使用一个for循环从i = 1到 $m$ （训练样本数），并计算每个训练样本的导数，然后将他们for循环相加起来。最后for循环结束以后，再除以m，计算平均值。

代码流程：（假设只有两个特征，n = 2 ）

J=0;dw1=0;dw2=0;db=0;
for i = 1 to m
    z(i) = wx(i)+b;
    a(i) = sigmoid(z(i));
    J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i));
    dz(i) = a(i)-y(i);
    dw1 += x1(i)dz(i);
    dw2 += x2(i)dz(i);
    db += dz(i);
J/= m;
dw1/= m;
dw2/= m;
db/= m;
w=w-alpha*dw
b=b-alpha*db

代码中用 $dw_{1},dw_{2},db$ 作累加器，那么 $dw_{1}$ 等于你所有代价函数对 $w_{1}$ 的偏导， $dw_{1} = \frac{\partial J}{ \partial w_{1}}$ ，同理 $dw_{2},db$ 也一样。（就是把梯度下降公式里的求和分成对每个样本求导再加一起，即和的导数等于导数的和）

但这种计算中有两个缺点，即如果以这种方式实现逻辑回归，需要写两重循环：第一个for用于在m个训练样本上循环；第二个for用于遍历所有特征（此处特征少，n=2）。

当你应用深度学习算法，你会发现在代码中显式地使用for循环使你的算法很低效，同时在深度学习领域会有越来越大的数据集。所以能够应用你的算法且没有显式的for循环会是重要的，并且会帮助你适用于更大的数据集。所以这里有一些叫做向量化技术（矢量化）,它可以允许你的代码摆脱这些显式的for循环。

我想在先于深度学习的时代，也就是深度学习兴起之前，向量化是很棒的。可以使你有时候加速你的运算，但有时候也未必能够。但是在深度学习时代向量化，摆脱for循环已经变得相当重要。因为我们越来越多地训练非常大的数据集，因此你真的需要你的代码变得非常高效。所以在接下来的几个视频中，我们会谈到向量化，以及如何应用向量化而连一个for循环都不使用。所以学习了这些，我希望你有关于如何应用逻辑回归，或是用于逻辑回归的梯度下降，事情会变得更加清晰。