待更
SGD with Momentum
拉姆打 是 hyperparameter ,有利于跳过local minima
Adagrad
在learning rate 下方加入了分母,也就是在sum of gradient 小的时候,可以有较大的learning rate。
RMSProp
有些类似于Adagrad ,但是计算的方式不太一样,防止由于前几步的gradient 太大而导致训练失败
Adam
Summary
Adam vs SGDM
Combine (SWATS)
Improve Adam
AMSGrad
AMSGrad 会出现类似于Adagrad相同的问题
improve SGDM
learning rate 随着周期在LR range 之间直接进行切换,调整,既到你求的一则parameter 很好的时候不会容易丢失。
warm up for adam
RAdam解决的问题是,当一开的较少的gradient 的 adapt 效果不好,所以说一开始要提供较小的learning rate 。
Lokkahead
NAG(SGDM的超前部署)
NAG 就是超前计算,超前部署
Adam的超前部署
Somethine helps optimization
Shuffling : 对data set进行打乱
Dropout:
Gradient noise :对Gradient noise 增加扰动
SGDM vs Adam
Applicaton advices for Opitimizer