优化算法总结

iTensor

于 2019-10-15 11:24:12 发布

阅读量291

点赞数

分类专栏：深度学习自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wshixinshouaaa/article/details/102563746

版权

本文总结了优化算法中的几种重要方法，包括梯度下降法及其变种（随机梯度下降法、小批量梯度下降法、Momentum、Nesterov、Adagrad、Adadelta、RMSProp和Adam），以及牛顿法。讨论了这些算法的优缺点，如何解决局部最优问题，并提供了迭代公式。

摘要由CSDN通过智能技术生成

背景

对一个多元函数 $f (x)$ 求最小值，当无法准确求出其准确结果时，需要用到其导数。

根据泰勒公式， $f (x)$ 在 $x_k$ 处展开二阶导：
$\approx f(x_k) + \nabla_x f'(x_k)(x - x_k)^T + \frac{1}{2} (x - x_k)^T \nabla_x^2f''(x_k) (x - x_k)$
其中，一阶导梯度和二阶导 $H e s s i a n$ 矩阵如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
优化算法总结

背景对一个多元函数 f(x)f(x)f(x) 求最小值，当无法准确求出其准确结果时，需要用到其导数。根据泰勒公式，f(x)f(x)f(x) 在 xkx_kxk 处展开二阶导：f(x)≈f(xk)+∇xf′(xk)(x−xk)T+12(x−xk)T∇x2f′′(xk)(x−xk)f(x) \approx f(x_k) + \nabla_x f'(x_k)(x - x_k)^T + \fra...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。