DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结
这篇论文是我为了完成模式识别课程项目而挑选的论文,之所以选择这篇论文是因此它提供了github的开源代码,方便我照搬实现和比对。
但毕竟也是读了,所以做个总结,总结的内容并不完全符合论文的内容,其中掺入了老鼠屎我个人的观点和相关的背景知识。
因为我也是刚开始走上科研的道路,在看这篇论文之前没有相关的专业背景,所有有很多地方需要学习补充,有的地方可能有脑补,写出来主要也是作为自己学习成长过程中的记录,另外也希望能对同样需要读这篇论文的朋友有那么一点点帮助和启发。有什么不对的地方请大家指出,我会及时修改。
论文地址:https://arxiv.org/abs/1811.07591
github项目地址:https://github.com/oval-group/dfw
这篇论文想解决什么问题?
我们知道一个深度神经网络的反向传播过程其实就是寻找损失函数最优解的过程,现在普遍使用的优化方法是随机梯度下降(SGD)。
但SGD也有其问题存在,它需要输入一个学习率(learning rate)作为更新权重时的参数,而这个学习率是需要人工去输入并且进行调试的,没有什么公式之类客观标准