大数据资源调度架构--Yarn

本文详细介绍了Hadoop YARN的资源调度架构,包括ResourceManager、ApplicationMaster、NodeManager和Container的角色与功能。YARN通过将JobTracker的职责拆分为RM和AM,实现了更精细的资源管理和任务调度。文章还详细阐述了YARN的工作机制,如作业提交过程、任务分配和运行、进度更新以及容错能力,帮助读者深入理解YARN在大数据处理中的作用。
摘要由CSDN通过智能技术生成


Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。

image-20210208165510931

Yarn的作用

  1. 对集群资源进行整合,让我们资源得到最大化利用,同一套硬件资源集群上可以运行多个任务(mr,spark, flink)。
  2. 使得不同性能的机器的工作能够协调统一;

Yarn基本架构

YARN 主要由 ResourceManager、NodeManager、ApplicationMaster 和 Container 等组件构成。

image-20210208165736589

在Hadoop1.0中很重要的角色是jobtracker,这是主,承担着资源调度和任务管理的角色,相当于集两大功能于一身,真正干活的是tasktracker。

在Hadoop2.0中,jobtracker的权利被下放给ResourceManager(集群资源管理)和ApplocationMaster(任务管理)。

RM

只是jobtracker中“资源管理”的角色,只负责运行中应用程序资源的分配,而不管监控应用程序和状态跟踪。

本质:是一个独立的守护进程,运行在专有的机器上,机器的配置要足够好

RM的功能
  1. RM处理客户端请求,接收jobsubmitterf提交的作业,按照作业的上下文( Context)信息,以及从 Nodemanager(NM)收集来的状态信息,启动调度过程,分配一个 Container作为 App Master;
  2. RM拥有为系统中所有应用资源分配的決定权,是中心服务,做的事情就是调度,启动每一个job所属的 Application、另外监控 Applicationg的存在情况am
  3. 与运行在每个节点上的NM进程交互,通过心跳通信,达到监控NM的目的
  4. RM有一个可插拔的调度器组件 Scheduler
  5. 不负责应用程序的监控和状态跟踪(AM)
  6. 不保证应用程序失败或者硬件失败的情况下对Task的重启(AM)

AM

只是jobtracker中“任务调度”的角色 。只有在任务的整个生命周期内,AM才是启动状态,当任务执行完毕,AM消失,不需要监控。

本质:是一个特殊的container,管理其他的container

AM的作用

根据提交的任务和RM的反馈,去寻找干活的人(NodeManager)。

AM的启动流程
  1. Client向RM发出请求;

  2. RM返回一个 ApplicationID作为回应;

  3. Clientl向RM回应 Application

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值