这篇文章是学习李宏毅老师2021春季课程,关于Optimization的笔记。
课程链接:https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html
-
SGD
向着gradient的反方向移动。
-
SGD with Momentum(SGDM)
在SGD的基础上,定义了一个向量momentum,把每个time step的gradient进行累加。
-
Adagrad
可以根据历史gradient的和,自动调整学习率。 -
RMSProp
借用了类似momentum的算法,可确保这个optimization不会因为前几步的gradient太大就停下来。 -
Adam(SGDM + RMSProp)
Adam vs SGDM
-
Train
-
Validation
-
Test
1. Test Accurarcy for ResNet-34
2. L1: 1-Layer LSTM
-
Summary
Adam: fast training, large generalization gap, unstable
SGDM: stabel, little generalization gap, better convergence(收敛)