5_Gradient Descent

最新推荐文章于 2024-09-17 22:33:05 发布

weixin_44086832

最新推荐文章于 2024-09-17 22:33:05 发布

阅读量119

点赞数

分类专栏：深度学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/weixin_44086832/article/details/110478448

版权

6 篇文章 0 订阅

订阅专栏

总结:

老师先回顾了上节课使用Gradient Descent要解决的问题,即确定使Loss function取最小值的参数,从而确定Best Function, 接下来老师讲了进行Gradient Descent的3个方法, 分别是Tuning your learning rates(调整学习速率 η), Stochastic Gradient Descent 和 Feature Scaling。
Turning your learning rates, 引入Adagrad, 通过Adagrad的方式调整η. w**(t+1)← w**t - (η**t / σ**t )g**t,

之后老师详细展示了Adagrad的推导过程, 之后对Adagrad进行了分析, 通过First derivative和Second derivate对step的影响, 推导出使用Adagrad代替Second derivative简化运算
Stochastic Gradient Descent, 随机pick一个example, 如x**n的**▽L**n(θ**i-1), 从而:

因此快速地得到minL(θ)
Feature Scaling, 特征缩放,这个老师讲解了一下进行缩放的原因, 使方向一直向着minL(θ), 但是最后一部分不太理解
Gradient Descent Theory, 梯度下降的数学原理, 泰勒级数, 之后老师详细讲解了泰勒级数的推导过程和适用条件, 然后回到正常的推导过程,根据泰勒级数找出红色圆圈中的minL(θ)
老师最后讲解了Gradient Descent的limitation