深入学习Hadoop之第二篇——MapReduce

本文深入探讨MapReduce编程模型,分析数据流与切片大小对性能的影响,强调数据本地化优化的重要性。Map阶段讨论了切片大小与HDFS block size的匹配,以及不同情况下数据传输的效率。Reduce阶段则阐述了reduce任务的数量如何独立指定,以及输出存储策略。此外,还提到了combiner作为减少网络传输的优化手段。
摘要由CSDN通过智能技术生成

概念:MapReduce是一种数据处理的编程模型


一、Map

1.数据流:

一个MapReduce job是客户端所执行的work的单元,它包括:输入数据、MapReduce程序以及配置信息;

Hadoop把MapReduce job分割为更小的tasks(map tasks和reduce tasks)来执行,这些tasks被YARN调度在集群节点上执行;如果一个task失败了,它会被自动调度到其他节点上重新执行;

Hadoop把MapReduce的输入数据分割成固定长度的片段,称作输入切片或切片;Hadoop为每一个切片创建一个map task,并由该task来运行用户定义的map函数从而处理切片中的每条记录;拥有许多切片意味着处理每个切片的时间少于处理整个输入的时间。因此,如果并行处理每个分片,且每个切片比较小,那么整个处理过程将获得比较好的负载均衡;因为在一个job的执行过程中,一台更快的机器比慢的机器处理更多的切片,并且是按比例的;即使使用同样的机器,失败的进程和其他并行执行的jobs也能够达到满意的负载均衡;而且随着切片的粒度更细负载均衡的会更高;
另一方面,如果切片粒度太细,那么管理切片的总时间和构建map任务的总时间将决定
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值