基本的gradient descent梯度下降法

图片来自Coursera的 Machine Learning 课件。

相关资料:
这里是Andrew Ng的课程视频:https://www.coursera.org/learn/machine-learning/home/welcome
梯度下降是其中第十周的内容。
一份很好的梯度下降优化算法的资料:http://sebastianruder.com/optimizing-gradient-descent/ (有时间我会将它完整翻译)


1. Batch gradient descent 是将所有 m个样本全部用来计算gradient,取平均之后再迭代参数。该算法计算量随m的增大而迅速增大。

其中损失函数Loss function是系统输出误差的均方值,将它对参数求导就得到了第二行公式的最后一项,多出来的x一项是由h函数的具体形式决定的,这里h=\theta * x 所以只有x的一次项。



2. Stochastic gradient descent 一次只用一个样本来计算gradient,之后直接迭代参数。一次只用一个样本点会使得一次的descent方向不一定是最速下降的方向,但是计算速度快。



3. Mini-batch gradient descent 一次只用 b个样本来计算gradient,将b个gradient取平均之后迭代参数。



下面的动画是几种不同算法优化过程:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值