1、yarn简介
- 1、Hadoop1.x版本中最大的问题是资源问题
- 对数据的处理和资源调度主要依赖MapReduce完成,只能运行MapReduce程序
- JobTracker负责资源管理和程序调度,压力较大
- 2、Hadoop2.x版本添加YARN
- 主要负责集群资源管理
- 3、YARN(Yet Another Resource Negotiator)核心思想是将资源管理和任务的监控和调度分离
- 通用的资源管理系统,可为不同的应用(MapReduce、Spark、Flink等)提供统一的资源管理和调度
- 它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处
3、yarn作业提交过程
1.作业提交
-
(1)client调用job.waitForCompletion 方法,向整个集群提交MapReduce作业
-
(2)client向ResourceManager申请一个作业id
-
(3)ResourceManager 给 Client 返回该 job 资源的提交路径(HDFS 路径)和作业 Id,每一个作业都有一个唯一的 Id。
-
(4)Client 发送 jar 包、切片信息和配置文件到指定的资源