Andrew Ng带我漫步机器学习 - 第十周处理大数据

最新推荐文章于 2024-08-14 00:01:40 发布

ZachhhBweg

最新推荐文章于 2024-08-14 00:01:40 发布

阅读量99

点赞数

分类专栏： python机器学习 - 走进机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44145222/article/details/105011934

版权

13 篇文章 0 订阅

订阅专栏

大数据梯度下降

机器学习近阶段的进步很大一部分来自数据集和算力的爆炸性增长，比如神经网络算法

面对大数据时，仍然使用常规的梯度下价格算法会带来巨大的计算量

根据学习曲线，减少数据集时可行的。随着训练样本增多，误差值越来越平稳，不需要重复计算

随机梯度下降是最常用的处理大数据的梯度下降算法

随机梯度下降公式的代价函数和梯度下降公式都没有样本总量m

评估方法

批量梯度下降使用学习曲线
随机梯度下降在每次更新 $\theta$ 之前计算代价函数 $\dfrac{1}{2}(h_{\theta}(x^{(i)})-y^{(i)})^2$ ，然后绘制前1000个样本获得的代价函数曲线

为了更好地使随机梯度下降算法收敛到收敛点附近，我们可以随着随机梯度下降的进行逐渐减少学习率 $\alpha$ ： $\alpha=\dfrac{const1}{iterationNumber + const2}$

不用也问题不大，因为又多了两个常量要处理

小批量梯度下降算法
小批量梯度下降引入了新的参数b，为每一次运行梯度下降用到的样本量

在线学习主要应用于网站，主要是数据的来源和处理方式不同。在线学习需要注意的地方是每次采用一个样本（用户）来优化算法，优化结束后弃置这个样本

分布式计算机系统
将训练集拆分为多个部分，分散到不同的机器进行计算，最后汇总到主机进行求和优化

这个图大概的意思就是使用分布式计算机系统都是在累加的i出上的，求偏导项往往也是累加的，有利于在主机上运算

使用多核计算机可以起到类似于分布式计算机系统的任务，使用不同的计算核心完成分布式任务

关注