[Machine Learning] 15 大规模机器学习(Large Scale Machine Learning)

本文探讨大规模机器学习,包括在大型数据集上学习的策略,如随机梯度下降(SGD)、小批量梯度下降及其收敛性分析。介绍了在线学习的应用,以及如何利用MapReduce和数据并行性加速处理大规模数据。
摘要由CSDN通过智能技术生成

在这里插入图片描述

15 Large Scale Machine Learning(大规模机器学习)

15.1 Learning With Large Dataset

如果有一个低方差的模型,增加数据集的规模可以帮助你获得更好的结果。那么,如果有 1亿条记录的训练集,该如何应对?

以线性回归模型为例,每一次梯度下降迭代,都需要计算训练集的误差的平方和,如果我们的学习算法需要有 20 次迭代,这便已经是非常大的计算代价。

首先应该做的事是去检查一个这么大规模的训练集是否真的必要,也许只用 1000个训练集也能获得较好的效果,可以通过绘制学习曲线来帮助判断。
在这里插入图片描述

15.2 Stochastic Gradient Descent(随机梯度下降法)

如果我们一定需要一个大规模的训练集,则可以尝试使用随机梯度下降法(SGD)来代替批量梯度下降法。

在随机梯度下降法中,我们定义代价函数为一个单一训练实例的代价:
在这里插入图片描述

随机梯度下降算法为:首先对训练集随机“洗牌”,然后:
在这里插入图片描述
随机梯度下降算法在每一次计算之后便更新参数 𝜃 ,而不需要首先将所有的训练集求和,在梯度下降算法还没有完成一次迭代时,随机梯度下降算法便已经走出了很远。但是这样的算法存在的问题是,不是每一步都是朝着”正确”的方向迈出的。因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值的那一点,而是在最小值点附近徘徊。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值