初识Map Reduce

  最近刚刚接触机器学习,在coursera上学习了NG教授的《Machine Learning》,不定期的做点自己的总结。
  有一句话是这么说的,“算法逼近机器学习的上限,但是数据和特征就是机器学习的上限”,当然,我觉得这句话要表达的肯定不是算法没有数据重要,它要强调的是数据和特征的重要性并不亚于算法,而且这一点越来越被人们所承认。为什么呢?因为算法是很难改良的,更别说发明一种新的算法来实现目的。但是今天互联网上可以得到海量的数据,可以从海量的数据中学习得到性能一流的机器学习模型。这就引出了一个问题——计算。
  假设我有400个样本(举例),我要用批量梯度下降算法来优化线性回归模型的代价函数,那么梯度计算的时候为了更快的得到结果,我把数据集等分为4部分,分别由4台机器来计算,然后把计算结果汇总到中心计算服务器上。
  这里写图片描述
这里写图片描述

 这就是所谓的Map Reduce,映射化简。我的示例中只有400个样本,但是现实中的大数据集就是千万乃至上亿的,一台计算机压根就没办法实现算法,所以map Reduce有着非常重大的意义,现在也有优秀的开元map Reduce框架系统,比如Hadoop,就拥有很多的用户。
 Map Reduce除了一个计算中心使用多台机器同时计算之外,还可以是一台机器上多个核的并行计算,与前者相比,后者没有网络传输延时,但是也要依赖编程实现线程的细节内容。两者的原理都是一样的,数据的并行计算,然后汇总处理得出结果。Map Reduce大大节约了时间,提升了效率。本次仅仅是了解了一点基础,进一步的深入还需要继续学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值