李宏毅机器学习笔记 3.误差和梯度下降

最新推荐文章于 2022-08-14 22:25:09 发布

Simone Zeng

最新推荐文章于 2022-08-14 22:25:09 发布

阅读量341

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_43983838/article/details/119842432

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。
课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef
开源内容：https://github.com/datawhalechina/leeml-notes
本篇文章对应视频中的P5-8。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。

通过上一次课2.回归，我们了解到机线性回归中的（1）损失函数、（2）梯度下降、（3）过拟合和正则化。本篇文章主要介绍误差和梯度下降。

文章目录

1. 误差

Q: 为什么简单模型bias大，variance小？
A: 简单的模型函数集的space比较小，可能space里面就没有包含靶心；复杂的模型函数集的space比较大，可能就包含的靶心，但足够多的模型就可能得到真正的 $f^*$ 。
在这里插入图片描述

2. 梯度下降

2.1 调整学习率 Adagrad

Q：Adagrad中参数的更新速度（或者说步伐）由两个方面决定，一个是学习率 $\eta$ ，另一个是梯度 $g$ 。当梯度 $g$ 越大的时候，步伐应该越大，但下面分母又导致当梯度 $g$ 越大的时候，步伐会越小。
在这里插入图片描述
A：（1）直观解释：分母部分使用过去的梯度 $g^i$ 来造成反差的效果。（2）在只有2个参数的方程式中（在多个参数的时候就不一定成立了），在某一点踏出去最好的步伐与这一点微分的大小成正比，即梯度越大离最优点越远。我们可以看到下图在 $x_0$ 处的最好的步伐和微分都是与 $2ax_0+b$ 成正比的。
在这里插入图片描述

2.2 随机梯度下降 stochastic gradient descent

损失函数每次更新参数不需要处理训练集所有的数据，而只考虑一个样本 $x^n$ 。
在这里插入图片描述

2.3 特征缩放 feature scaling

如果两个输入的分布的范围差别很大，如几十倍，建议把他们的范围缩放，使得不同输入的范围是一样的。否则，输入范围大的参数对y的影响会更大。

例如下图右边是两个参数scaling比较接近，图接近圆形。
左边的梯度下降并不是向着最低点方向走的，而是顺着等高线切线法线方向走的。但绿色就可以向着圆心（最低点）走，这样做参数更新也是更有效率。

Simone Zeng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
李宏毅机器学习笔记 3.误差和梯度下降

最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef开源内容：https://github.com/datawhalechina/leeml-notes本篇文章对应视频中的P5-8。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。通过上一次课2.回归，我们了解到机线性回归中的（1）损失函数、（2）梯度下降、（3）过拟合和正则化。本篇文章主要介绍.
复制链接

扫一扫