最后插个小彩蛋,还是转了陶将博主的一张图:
下图是各个算法在等高线的表现,它们都从相同的点出发,走不同的路线达到最小值点。可以看到,Adagrad,Adadelta和RMSprop在正确的方向上很快地转移方向,并且快速地收敛,然而Momentum和NAG先被领到一个偏远的地方,然后才确定正确的方向,NAG比momentum率先更正方向。SGD则是缓缓地朝着最小值点前进。
这一章节参考的博文如下:
https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/#loss-functions
https://blog.csdn.net/qq_41997920/article/details/88693888
https://zhuanlan.zhihu.com/p/77686118
https://zhuanlan.zhihu.com/p/73214810
https://zhuanlan.zhihu.com/p/55150256
以上博文均已点赞原博主,nice!