总结:
-
老师先回顾了上节课使用Gradient Descent要解决的问题,即确定使Loss function取最小值的参数,从而确定Best Function, 接下来老师讲了进行Gradient Descent的3个方法, 分别是Tuning your learning rates(调整学习速率 η), Stochastic Gradient Descent 和 Feature Scaling。
-
Turning your learning rates, 引入Adagrad, 通过Adagrad的方式调整η. w**(t+1)← w**t - (η**t / σ**t )g**t,
之后老师详细展示了Adagrad的推导过程, 之后对Adagrad进行了分析, 通过First derivative和Second derivate对step的影响, 推导出使用Adagrad代替Second derivative简化运算
-
Stochastic Gradient Descent, 随机pick一个example, 如x**n的**▽L**n(θ**i-1), 从而:
因此快速地得到minL(θ)
-
Feature Scaling, 特征缩放,这个老师讲解了一下进行缩放的原因, 使方向一直向着minL(θ), 但是最后一部分不太理解
-
Gradient Descent Theory, 梯度下降的数学原理, 泰勒级数, 之后老师详细讲解了泰勒级数的推导过程和适用条件, 然后回到正常的推导过程,根据泰勒级数找出红色圆圈中的minL(θ)
-
老师最后讲解了Gradient Descent的limitation
下面是详细内容:
1.Review:Gradient Descent(回顾)
2.Turning your learning rates
Adagrad(阿达格勒)
2.1 Adagrad推导过程
2.2 Adagrad分析
-
Contradiction(矛盾)
-
Intuitive Reason
-
Larger gradient,larger steps?
和Second Derivate有关
- Second Derivate
-
使用Adagrad代替Second Derivate简化运算
3.Stochastic Gradient Descent
使用方式:
对比:
4.Feature Scaling(特征缩放)
缩放原因:
下边图不太理解:
5.Gradient Descent Theory
5.1 Question
不一定
5.2 Waring of Math(泰勒级数)
-
Formal Derivation
-
Taylor Series(泰勒级数)
案例:
更复杂的泰勒级数:
-
Back to Formal Derivation
–
Gradient descent – two variables:
Back to Formal Derivation: