5_Gradient Descent

总结:

  1. 老师先回顾了上节课使用Gradient Descent要解决的问题,即确定使Loss function取最小值的参数,从而确定Best Function, 接下来老师讲了进行Gradient Descent的3个方法, 分别是Tuning your learning rates(调整学习速率 η), Stochastic Gradient Descent 和 Feature Scaling。

  2. Turning your learning rates, 引入Adagrad, 通过Adagrad的方式调整η. w**(t+1)← w**t - (η**t / σ**t )g**t,

    之后老师详细展示了Adagrad的推导过程, 之后对Adagrad进行了分析, 通过First derivative和Second derivate对step的影响, 推导出使用Adagrad代替Second derivative简化运算

  3. Stochastic Gradient Descent, 随机pick一个example, 如x**n的**▽L**n(θ**i-1), 从而:

    因此快速地得到minL(θ)

  4. Feature Scaling, 特征缩放,这个老师讲解了一下进行缩放的原因, 使方向一直向着minL(θ), 但是最后一部分不太理解

  5. Gradient Descent Theory, 梯度下降的数学原理, 泰勒级数, 之后老师详细讲解了泰勒级数的推导过程和适用条件, 然后回到正常的推导过程,根据泰勒级数找出红色圆圈中的minL(θ)

  6. 老师最后讲解了Gradient Descent的limitation

下面是详细内容:

1.Review:Gradient Descent(回顾)

2.Turning your learning rates

Adagrad(阿达格勒)

2.1 Adagrad推导过程

2.2 Adagrad分析

  1. Contradiction(矛盾)

  2. Intuitive Reason

  1. Larger gradient,larger steps?

和Second Derivate有关

  1. Second Derivate


  1. 使用Adagrad代替Second Derivate简化运算

3.Stochastic Gradient Descent

使用方式:

对比:

4.Feature Scaling(特征缩放)

缩放原因:

下边图不太理解:

5.Gradient Descent Theory

5.1 Question

不一定

5.2 Waring of Math(泰勒级数)

  1. Formal Derivation

  2. Taylor Series(泰勒级数)

案例:

更复杂的泰勒级数:

  1. Back to Formal Derivation

Gradient descent – two variables:

Back to Formal Derivation:

6.More Limitation of Gradient Descent

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值