DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结

这篇博客总结了DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION的论文,探讨了该算法如何解决深度学习优化中的问题,特别是它在非凸优化问题上的优势。与传统的SGD相比,DFW算法提供了自动调整步长的优化,且在某些情况下表现更优。博主还分析了其他优化方法如动量机制、Adam和非梯度算法,并介绍了DFW算法的损失函数和权重更新方法。实验表明,DFW在图像分类和自然语言识别任务上展现出竞争力。
摘要由CSDN通过智能技术生成

DEEP FRANK-WOLFE FOR NEURAL NETWORK OPTIMIZATION 论文阅读总结

这篇论文是我为了完成模式识别课程项目而挑选的论文,之所以选择这篇论文是因此它提供了github的开源代码,方便我照搬实现和比对。

但毕竟也是读了,所以做个总结,总结的内容并不完全符合论文的内容,其中掺入了老鼠屎我个人的观点和相关的背景知识。

因为我也是刚开始走上科研的道路,在看这篇论文之前没有相关的专业背景,所有有很多地方需要学习补充,有的地方可能有脑补,写出来主要也是作为自己学习成长过程中的记录,另外也希望能对同样需要读这篇论文的朋友有那么一点点帮助和启发。有什么不对的地方请大家指出,我会及时修改。

论文地址:https://arxiv.org/abs/1811.07591

github项目地址:https://github.com/oval-group/dfw

这篇论文想解决什么问题?

我们知道一个深度神经网络的反向传播过程其实就是寻找损失函数最优解的过程,现在普遍使用的优化方法是随机梯度下降(SGD)

但SGD也有其问题存在,它需要输入一个学习率(learning rate)作为更新权重时的参数,而这个学习率是需要人工去输入并且进行调试的,没有什么公式之类客观标准࿰

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值