学习笔记(67):第二章:海量数据的处理与挖掘-Map Reduce思想变换数据key-value_05

立即学习:https://edu.csdn.net/course/play/26303/334550?utm_source=blogtoedu

上面是在map和reducer之间加了combiner,增加了任务性能

总结:

 1. reduce需要写函数,map有时候不用写

2. map工作主要修改key,reducer主要修改values

3. 对已有的算法惊醒map-reducer化

4. map对一个键值对输入产生一序列中间键值对

5. map函数将对所有输入键值对操作

6. 相同的key值被reducer放在一起,reducer函数对每一个不同的key进行操作

7. map和reducer属于分治思想,通过hash分桶来处理,map是发散过程,reducer是收敛过程

8. map任务数目远大于reducer

9. map-reducer会有输入输出,输出后再次进入map-reducer,如此循环迭代,在磁盘级别的操作,所以开销会很大,spark是在内存级别的操作,所以对内存开销会很大,但速度很快

10. spark稳定不如map,spark只读一次

11. map-reducer主要做特征的转换,数据的提取,转换,处理写入

12. 做特征的用map,reduce,导出的特征用于机器学习训练的用spark建模,用hadoop streaming方便任何语言编写map-reducer

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值