Yarn产生的原因
直接源于MRv1在几个方面的缺陷
扩展性受限
单点故障:JobTracker 完成了太多的任务,造成了过多的资源消耗
难以支持MR之外的计算
多计算框架各自为战,数据共享困难
YARN
即在一个集群上部署一个统一的资源调度管理框架YARN,在YARN之上可以部署其他各种计算框架
由YARN为这些计算框架提供统一的资源调度管理服务,并且能够根据各种计算框架的负载需求,调整各自占用的资源,实现集群资源共享和资源弹性收缩
离线计算框架:MapReduce
DAG计算框架:Tez 有向无环图 适合编写有依赖关系的作业
流式计算框架:Storm
内存计算框架:Spark【不读磁盘而直接在内存上计算】
图计算框架:Giraph
YARN的结构
ResourceManager:整个集群只有一个,负责集群资源的统一管理和调度
NodeManager:单个节点上的资源管理
ApplicationMaster:每个应用有一个,任务调度、监控与容错
ResourceManager(RM&