Hadoop 2.x新特性
将Mapreduce框架升级到Apache YARN,YARN将Map reduce工作区分为两个:JobTracker组件:实现资源管理和任务JOB;计划/监视组件:划分到单独应用中。 使用MapReduce的2.0,开发人员现在可以直接Hadoop内部基于构建应用程序。Hadoop2.2也已经在微软widnows上支持。
YARN带来了什么
1.HDFS的高可靠性
2.HDFS snapshots快照
3.支持HDFS中的 NFSv3 文件系统。
Yarn/map reduce2.0架构图
简单介绍一下这个图:右边的3个节点中的NodeManager会定期的向ResourceManager(简写为RM)报告该节点的状态(块信息,存储信息,该节点中的Map或Reduce任务执行情况等信息),红色的Client向RM提交任务(包括输入文件位置、Mapper和Reducer),RM根据各个节点汇报的情况,为这个Job创建一个Application Master(即图中红色的App Mstr)用于管理这个Job的执行情况。
App Master创建好并接到任务后,会向RM申请资源(包括输入文件位置,内存使用,计算过程等),申请到一些Container(可能在不同节点上)后,会开始在这些节点上执行(根据提供的输入文件位置读取输入文件,执行Map或Reduce任务)这个Job(的部分),App Mstr同时会管理这些节点中的container,并监控这些container的运行情况。
蓝色部分Client----App Mstr----Container过程和红色部分的过程完全相同。
官方的解释在这里:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html,细节可能有偏差,但大体是这么回事。
Hadoop 2.4.0和YARN的安装过程: https://my.oschina.net/itblog/blog/282694