李宏毅机器学习笔记 3.误差和梯度下降

最近在跟着Datawhale组队学习打卡,学习李宏毅的机器学习/深度学习的课程。
课程视频:https://www.bilibili.com/video/BV1Ht411g7Ef
开源内容:https://github.com/datawhalechina/leeml-notes
本篇文章对应视频中的P5-8。另外,最近我也在学习邱锡鹏教授的《神经网络与深度学习》,会补充书上的一点内容。

通过上一次课2.回归,我们了解到机线性回归中的(1)损失函数、(2)梯度下降、(3)过拟合和正则化。本篇文章主要介绍误差和梯度下降


1. 误差

Q: 为什么简单模型bias大,variance小?
A: 简单的模型函数集的space比较小,可能space里面就没有包含靶心;复杂的模型函数集的space比较大,可能就包含的靶心,但足够多的模型就可能得到真正的 f ∗ f^* f
在这里插入图片描述


2. 梯度下降

2.1 调整学习率 Adagrad

Q:Adagrad中参数的更新速度(或者说步伐)由两个方面决定,一个是学习率 η \eta η, 另一个是梯度 g g g。当梯度 g g g越大的时候,步伐应该越大,但下面分母又导致当梯度 g g g越大的时候,步伐会越小。
在这里插入图片描述
A: (1)直观解释:分母部分使用过去的梯度 g i g^i gi 来造成反差的效果。(2)在只有2个参数的方程式中(在多个参数的时候就不一定成立了),在某一点踏出去最好的步伐与这一点微分的大小成正比,即梯度越大离最优点越远。我们可以看到下图在 x 0 x_0 x0 处的最好的步伐和微分都是与 2 a x 0 + b 2ax_0+b 2ax0+b成正比的。
在这里插入图片描述

2.2 随机梯度下降 stochastic gradient descent

损失函数每次更新参数不需要处理训练集所有的数据,而只考虑一个样本 x n x^n xn
在这里插入图片描述

2.3 特征缩放 feature scaling

如果两个输入的分布的范围差别很大,如几十倍,建议把他们的范围缩放,使得不同输入的范围是一样的。否则,输入范围大的参数对y的影响会更大。

  • 例如下图右边是两个参数scaling比较接近,图接近圆形。
  • 左边的梯度下降并不是向着最低点方向走的,而是顺着等高线切线法线方向走的。但绿色就可以向着圆心(最低点)走,这样做参数更新也是更有效率。
    在这里插入图片描述
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Simone Zeng

给作者来杯咖啡吧~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值