文章目录
概述
SGD
SGD with Momentum
Nesterov accelerated gradient (NAG)
Adagrad
这里有一个问题,如果一开始梯度就很大,那么它没走几步就卡住了,所以需要RMSProp。
Adadelta
RMSProp
RMSProp结合了Adagrad和Momentum。
Adam
Real application
为什么从2014到现在都没有更多的optmizaer呢?
因为Adam和SGDM把低垂的果实都摘了,后面的优化方法都没有更好的超过他们。
Adam更快,不稳定。SGDM慢一些,但是稳定。
SWATS比较鸡肋,是先Adam后SGDM。但是实际很难把控。
Towards Adam
Towards SGDM