梯度下降理解

第二天系统学习。

    1.设损失函数为J(θ),希望将这个函数最小化,通过梯度下降方法找到最优解。这里应该有些假设,这个函数是凸函数。


以两个参数为例,随机一个点开始,开始下山,对于这个点到最底部,最好的方式就是切线方向,这个方向下降最快,就像图中红色×,每次按照蓝色切线箭头以一定的长度往下走,当走到最低点是停止。对每一个θ求偏导数,合方向为最终方向。

θj = θj - a(J(θ)对每个θj的偏导)

这里的a是learning rate 学习速率,代表了下降的步长,就是每一次下降多么远的距离,这个a的选择需要调整。

2.将梯度下降和线性回归算法结合

对于线性回归算法,在上一个博客中推导了标准方程法,但是这种方法有缺陷,下面用梯度下降推导一下。这里用两个参数为例,对于损失函数J来自于上个博客中的最小二乘法方程,这里多了一个m,对m的解释:如果没有m整个损失函数J将是样本偏差的和,这个和除以m就是平均偏差,这样就和样本数量没有太大关系了。


设定好a之后,不断更新θ的值,直到θ值没有变化,这里可以设置一个很小的数。此时可以认为已经到了最低点,此时的θ为最优解。

3.推广到多元线性回归。

首先设置预测函数h,将X0置为1,把X和θ转为向量,h就可以用向量表示。


后面基本一样,只是多个式子合并为一个。

4.a 学习率的选择

       太大太小都不好,太大的话容易越过最低点;太小的话时间太长,每次只能走很小一步所以整体时间会很慢,这个一般来说可以一个一个的试,0.01,0.001,0.0001,0.05等等,如果发现J原来越大说明跳过了最低点,a太大了应该调低,如果J变化很小说明a太小了,应该调大一点。

5.梯度下降方式


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值