[Machine Learning] 15 大规模机器学习(Large Scale Machine Learning)

最新推荐文章于 2022-11-29 18:02:20 发布

今天你DEBUG了吗

最新推荐文章于 2022-11-29 18:02:20 发布

阅读量287

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45399074/article/details/107511551

版权

本文探讨大规模机器学习，包括在大型数据集上学习的策略，如随机梯度下降（SGD）、小批量梯度下降及其收敛性分析。介绍了在线学习的应用，以及如何利用MapReduce和数据并行性加速处理大规模数据。

摘要由CSDN通过智能技术生成

在这里插入图片描述

点Ta

- 15 Large Scale Machine Learning(大规模机器学习)

15 Large Scale Machine Learning(大规模机器学习)

15.1 Learning With Large Dataset

如果有一个低方差的模型，增加数据集的规模可以帮助你获得更好的结果。那么，如果有 1亿条记录的训练集，该如何应对？

以线性回归模型为例，每一次梯度下降迭代，都需要计算训练集的误差的平方和，如果我们的学习算法需要有 20 次迭代，这便已经是非常大的计算代价。

首先应该做的事是去检查一个这么大规模的训练集是否真的必要，也许只用 1000个训练集也能获得较好的效果，可以通过绘制学习曲线来帮助判断。
在这里插入图片描述

15.2 Stochastic Gradient Descent(随机梯度下降法)

如果我们一定需要一个大规模的训练集，则可以尝试使用随机梯度下降法（SGD）来代替批量梯度下降法。

在随机梯度下降法中，我们定义代价函数为一个单一训练实例的代价：
在这里插入图片描述

随机梯度下降算法为：首先对训练集随机“洗牌”，然后：
在这里插入图片描述
随机梯度下降算法在每一次计算之后便更新参数 𝜃 ，而不需要首先将所有的训练集求和，在梯度下降算法还没有完成一次迭代时，随机梯度下降算法便已经走出了很远。但是这样的算法存在的问题是，不是每一步都是朝着”正确”的方向迈出的。因此算法虽然会逐渐走向全局最小值的位置，但是可能无法站到那个最小值的那一点，而是在最小值点附近徘徊。
在这里插入图片描述

最低0.47元/天解锁文章

今天你DEBUG了吗

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。