[Machine Learning] 15 大规模机器学习(Large Scale Machine Learning)

点Ta15 Large Scale Machine Learning(大规模机器学习)15.1 Learning With Large Dataset15.2 Stochastic Gradient Descent(随机梯度下降法)15.3 Mini-Batch Gradient Descent(小批量梯度下降)15.4 Stochastic Gradient Descent Convergence(随机梯度下降收敛)15.5 Online Learning15.6 Map Reduce and Dat..
摘要由CSDN通过智能技术生成

在这里插入图片描述

15 Large Scale Machine Learning(大规模机器学习)

15.1 Learning With Large Dataset

如果有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。那么,如果有 1亿条记录的训练集,该如何应对?

以线性回归模型为例,每一次梯度下降迭代,都需要计算训练集的误差的平方和,如果我们的学习算法需要有 20 次迭代,这便已经是非常大的计算代价。

首先应该做的事是去检查一个这么大规模的训练集是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以通过绘制学习曲线来帮助判断。
在这里插入图片描述

15.2 Stochastic Gradient Descent(随机梯度下降法)

如果我们一定需要一个大规模的训练集,则可以尝试使用随机梯度下降法(SGD)来代替批量梯度下降法。

在随机梯度下降法中,我们定义代价函数为一个单一训练实例的代价:
在这里插入图片描述

随机梯度下降算法为:首先对训练集随机“洗牌”,然后:
在这里插入图片描述
随机梯度下降算法在每一次计算之后便更新参数 𝜃 ,而不需要首先将所有的训练集求和,在梯度下降算法还没有完成一次迭代时,随机梯度下降算法便已经走出了很远。但是这样的算法存在的问题是,不是每一步都是朝着”正确”的方向迈出的。因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值的那一点,而是在最小值点附近徘徊。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值