概念:MapReduce是一种数据处理的编程模型
一、Map
1.数据流:
一个MapReduce job是客户端所执行的work的单元,它包括:输入数据、MapReduce程序以及配置信息;
Hadoop把MapReduce job分割为更小的tasks(map tasks和reduce tasks)来执行,这些tasks被YARN调度在集群节点上执行;如果一个task失败了,它会被自动调度到其他节点上重新执行;
Hadoop把MapReduce的输入数据分割成固定长度的片段,称作输入切片或切片;Hadoop为每一个切片创建一个map task,并由该task来运行用户定义的map函数从而处理切片中的每条记录;拥有许多切片意味着处理每个切片的时间少于处理整个输入的时间。因此,如果并行处理每个分片,且每个切片比较小,那么整个处理过程将获得比较好的负载均衡;因为在一个job的执行过程中,一台更快的机器比慢的机器处理更多的切片,并且是按比例的;即使使用同样的机器,失败的进程和其他并行执行的jobs也能够达到满意的负载均衡;而且随着切片的粒度更细负载均衡的会更高;另一方面,如果切片粒度太细,那么管理切片的总时间和构建map任务的总时间将决定