python+大数据学习day5

最新推荐文章于 2024-07-15 23:46:30 发布

岁月不静好456

最新推荐文章于 2024-07-15 23:46:30 发布

阅读量2.7k

点赞数 1

文章标签：学习 big data mapreduce hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56306635/article/details/123388685

版权

MapReduce

核心架构思想：先分再合，分而治之。

出MapReduce处理的数据类型是 <key,value> 键值对 。MapReduce内置了很多默认属性，比如排序、分组等，都和数据的k有关，所以说kv的类型数据确定及其重要的

分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。相对于集中计算。

MapReduce是一种面向海量数据处理的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型。

特点： 易于编程、良好的扩展性、高容错性、适合海量数据的离线处理

局限性： 实时计算性能差、不能进行流式计算

一个完整的MapReduce程序在分布式运行时有三类

1、 MRAppMaster ：负责整个MR程序的过程调度及状态协调

2、 MapTask ：负责map阶段的整个数据处理流程

3、 ReduceTask ：负责reduce阶段的整个数据处理流程

Reduce 阶段执行过程

第一阶段：ReduceTask会主动从MapTask 复制拉取 属于需要自己处理的数据。

第二阶段：把拉取来数据，全部进行合并 merge ，即把分散的数据合并成一个大的数据。再对合并后的数据排序。

第三阶段是对排序后的键值 对调用 reduce 方法。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入到HDFS文件中。

wordcount实例：hadoop fs -mkdir /input

hadoop fs -put 1.txt /input

hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /output

第一个参数：wordcount表示执行单词统计任务；

第二个参数：指定输入文件的路径；

第三个参数：指定输出结果的路径（该路径不能已存在）；

执行结果的web显示

1.txt内容：hello world
dog fish
hadoop
spark
hello world
dog fish
hadoop
spark
hello world
dog fish
hadoop
spark

wordcount执行图：

shuffle 机制弊端

 Shuffle是MapReduce程序的核心与精髓，是MapReduce的灵魂所在。

 Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因，跟 Shuffle机制有很大的关系。

 Shuffle中 频繁涉及到数据在内存、磁盘之间的多次往复 。

岁月不静好456

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python+大数据学习day5

MapReduce核心架构思想：先分再合，分而治之。出MapReduce处理的数据类型是<key,value>键值对。MapReduce内置了很多默认属性，比如排序、分组等，都和数据的k有关，所以说kv的类型数据确定及其重要的分布式计算将该应用分解成许多小的部分，分配给多台计算机进行处理。这样可以节约整体计算时间，大大提高计算效率。相对于集中计算。MapReduce是一种面向海量数据处理的一种指导思想，也是一种用于对大规模数据进行分布式计算的编程模型。特点：易于编程
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。