学习笔记(67):第二章：海量数据的处理与挖掘-Map Reduce思想变换数据key-value_05

最新推荐文章于 2022-01-06 19:09:18 发布

果儿_wj

最新推荐文章于 2022-01-06 19:09:18 发布

阅读量156

点赞数

分类专栏：研发管理文章标签：海量数据编程语言 Python hadoop class

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wj1408421029/article/details/104519260

版权

研发管理专栏收录该内容

72 篇文章 0 订阅

订阅专栏

立即学习:https://edu.csdn.net/course/play/26303/334550?utm_source=blogtoedu

上面是在map和reducer之间加了combiner，增加了任务性能

总结：

1. reduce需要写函数，map有时候不用写

2. map工作主要修改key，reducer主要修改values

3. 对已有的算法惊醒map-reducer化

4. map对一个键值对输入产生一序列中间键值对

5. map函数将对所有输入键值对操作

6. 相同的key值被reducer放在一起，reducer函数对每一个不同的key进行操作

7. map和reducer属于分治思想，通过hash分桶来处理，map是发散过程，reducer是收敛过程

8. map任务数目远大于reducer

9. map-reducer会有输入输出，输出后再次进入map-reducer，如此循环迭代，在磁盘级别的操作，所以开销会很大，spark是在内存级别的操作，所以对内存开销会很大，但速度很快

10. spark稳定不如map，spark只读一次

11. map-reducer主要做特征的转换，数据的提取，转换，处理写入

12. 做特征的用map，reduce，导出的特征用于机器学习训练的用spark建模，用hadoop streaming方便任何语言编写map-reducer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记(67):第二章：海量数据的处理与挖掘-Map Reduce思想变换数据key-value_05

技能掌握1. 分布式软件框架2. Map Reduce 原理与使用3. Hive持久化4. 海量数据解决方案
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。