2.4 梯度下降法-深度学习-Stanford吴恩达教授

我们已经讲了逻辑回归模型、如何通过损失函数来界定你的模型对单一样本训练效果、代价函数。现在,我们来看如何使用梯度下降模型去训练和学习,来调整你的训练集中参数bw

之前,我们已经学到一个逻辑回归算法:

然后又学到了代价函数J:代价函数J可以衡量你的参数bw在训练集上的效果,要使得参数bw设置合理,自然想到要去找到使得代价函数J尽可能小所对应的bw

 


接下来给出何为梯度下降法:

梯度下降法的形象化说明

在这里插入图片描述

在这个图中,横轴表示你的空间参数wb,在实际中,w可以是更高的维度,此处是为了更好绘图,所以我们定义wb都是单一实数。代价函数(成本函数)J(w,b)是在水平轴wb上的曲面,因此曲面的高度就是J(w,b)在某一点的函数值。我们所做的就是找到使得代价函数(成本函数)J(w,b)最小的对应参数wb

如图,我们看到代价函数(成本函数)J(w,b) 是一个凸函数,像一个大碗一样。

因此我们的成本函数J(w,b),之所以被定义凸函数一个重要原因是我们使用了对于逻辑回归这个特殊代价函数J造成的,为了找到最好的参数值,我们将会用一些初始值来初始化参数wb。可以用如图那个小红点来初始化参数 ,也可以采用随机初始化的方法,对于逻辑回归几乎所有的初始化方法都有效,因为函数是凸函数,无论在哪里初始化,应该达到同一点或大致相同的点。

在这里插入图片描述

梯度下降法初始点开始,朝最陡的下坡方向走一步,不断地迭代,尽可能快点走下坡路。迭代如图所示:

在这里插入图片描述

直到走到全局最优解或者接近全局最优解的地方。以上就是梯度下降模型的说明了。


下面展示梯度下降法的细节化说明(为了画图容易,仅有一个参数w,忽略b):

想要找到J(w)的最小值,假设函数图像如下图:

在这里插入图片描述

假定代价函数(成本函数)J(w) 仅一个参数 w ,即用一维曲线代替多维曲线,这样可以更好画出图像。

我们将重复(repeat)执行以下操作:

在这里插入图片描述

 :=   表示迭代参数

\alpha   表示学习率(learning rate),学习率可以控制我们在每一次迭代或者梯度下降法中步长(step)的大小。

\frac{dJ(w)}{dw}   就是函数J 对 w 求导。在代码中会约定使用dw作为导数变量名。

在算法收敛前不断重复上面操作。

记住导数的定义——函数在某一点的斜率,函数的斜率是高除以宽。图中的导数是正的,按照上面w的迭代公式去更新自己,导数是正的,所以你每一次从w中减去这个乘积,接着每一次都向图像左边走一步。如果在一开始你参数w值很大的话,这样的梯度下降法会让你的算法渐渐地减小这个参数w

 

另一个例子,如果w的起始位置在图像左边。在这个点处的斜率\frac{dJ(w)}{dw} 将会是负的,并且梯度下降法在更新参数的时候,相当于使得参数w在慢慢增加,所以这样的迭代和梯度下降法会使得参数w 逐渐变大,无论你初始化的位置是在左边还是右边,梯度下降法会朝着全局最小值方向移动。

 梯度下降法的细节化说明(两个参数w、b):

在这里插入图片描述

 

当函数J 有两个以上的变量(使用偏导数符号),说到底还是函数关于其中一个变量在对应点处的斜率。

在这里插入图片描述

 

在下一节课中,给出更多的微积分、导数的知识和解释。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值