YARN组件
1. ResourceManager(RM):
它主要有两个组件构成:
- 调度器Scheduler:调度器根据容量、队列等限制条件,将系统中的资源分配给各个正在运行的应用程序。
- 应用程序管理器Applications Manager,ASM:负责管理整个系统中所有应用程序,包括应用程序提交、与调度器协商资源以 AM、监控 AM 运行状态并在失败时重新启动它等。
2. NodeManager(NM):
NM 是每个节点上运行的资源和任务管理器,一方面,它会定时向 RM 汇报本节点上的资源使用情况和各个 Container 的运行状态;另一方面,它接收并处理来自 AM 的 Container 启动/停止等各种请求。
3. ApplicationMaster(AM):
提交的每个作业都会包含一个 AM,主要功能包括:
- 与 RM 协商以获取资源(用 container 表示);
- 将得到的任务进一步分配给内部的任务;
- 与 NM 通信以启动/停止任务;
- 监控所有任务的运行状态,当任务有失败时,重新为任务申请资源并重启任务。
MapReduce 就是原生支持 ON YARN 的一种框架,可以在 YARN 上运行 MapReduce 作业。有很多分布式应用都开发了对应的应用程序框架,用于在 YARN 上运行任务,例如 Spark,Storm、Flink 等。
4. Container:
Container 是 YARN 中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当 AM 向 RM 申请资源时,RM 为 AM 返回的资源便是用 Container 表示的。 YARN 会为每个任务分配一个 Container 且该任务只能使用该 Container 中描述的资源。
YARN工作原理
-
Client
提交作业到 YARN 上; -
Resource Manager
选择一个Node Manager
,启动一个Container
并运行Application Master
实例; -
Application Master
根据实际需要向Resource Manager
请求更多的Container
资源(如果作业很小, 应用管理器会选择在其自己的 JVM 中运行任务); -
Application Master
通过获取到的Container
资源执行分布式计算。