MapReduce2.x架构,(最大的改进是增加了namenode,防止一个挂掉有另一个可以起来顶替)
MapReduce就是分而治之的理念,把一个复杂的任务划分为若干个简单的任务分别来做。把一些数据通过map来归类,通过reducer来把同一类的数据进行处理。map的工作就是切分数据,然后给他们分类,分类的方式就是以key,value(键值对) 分类之后,reduce拿到的都是同类数据进行处理
MapReduce执行流程
1.客户端提交一个作业
2.JobClient与JobTracker通信,JobTracker返回一个JobID
3.JobClient复制作业资源文件
将运行作业所需要的资源文件复制到HDFS上,包括MapReduce程序打包的JAR文件、配置文件和客户端计算所得的输入